GLM TTS

GLM TTS
Z.ai · Audio Generation
POST /v1/audio/speech

LLM 기반 text-to-speech로, 3-10초 오디오에서 제로 샷 음성 복제와 다중 보상 강화 학습을 통한 감정 표현 및 제어 가능한 출력을 제공합니다.

한눈에

필드가치
모델 IDglm-tts
모델 출시일2025-12-11
입력 양상텍스트, 오디오
출력 방식오디오
컨텍스트 윈도우-
무게 정밀도INT8 / FP16
특징voice_cloning, emotion_control
원주민 추론
신규아니
지원되는 엔드포인트POST /v1/audio/speech

가격

돌격사양요금
빠른 (인터셉트 8)1,000자 단위로$0.20
퀄리티 (FP16)1,000자 단위로$0.21

예시 요청

$curl https://api.empiriolabs.ai/v1/audio/speech \
> -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
> -H 'Content-Type: application/json' \
> -d '{"model": "glm-tts", "input": "Hello from EmpirioLabs."}'

매개변수

매개변수유형필수기본 설정설명
input스트링-합성할 텍스트. 다중 스피커를 사용할 경우 [S1] / [S2] 태그 또는 ‘Speaker N:’ 라인을 사용하세요.
voice열거아니"emma"emma=영어 여성, james=미국 남성, arthur=미국 남성 대체 문자, xiaomei=중국 여성, zhigang=중국 남성, custom=voice_audio_url 통한 출처 업로드. · 허용: emma, james, arthur, xiaomei, zhigang, custom
voice_audio_url스트링아니-커스텀 음성 복제를 위한 오디오 URL 참조. 참조 녹음에는 화자가 자신의 목소리로 이 정확한 동의 문구를 낭독하는 내용이 포함되어야 합니다: “나는 합성 음성 생성을 위해 Empirio Labs가 내 목소리를 복제하는 것에 동의합니다. 제 음성 샘플이 개인화된 오디오 콘텐츠를 만드는 데 사용될 것이라고 알고 있습니다.” 문구가 없는 참조 오디오는 거부됩니다.
output_format열거아니"mp3"출력 미디어 파일 형식(엔드포인트에 따라 mp3, wav, mp4, png, jpg 등)을 선택할 수 있습니다. · 허용: mp3, wav
speed번호아니1.0말하는 속도 배수. · 범위: 0.5 – 2.0
model_quality열거아니"quality"퀄리티=FP16(더 좋음), 빠름=INT8(더 빠름) · 허용: quality, fast
sample_rate열거아니"24000"출력 샘플링 속도 (Hz · 허용: 24000, 16000
volume번호아니1.0출력 이득 배수기. · 범위: 0.1 – 2.0
use_cache불리언아니맞아요동일한 세대가 반복되는 속도를 높여줍니다.
optimize_input불리언아니맞아요기술 용어, 약어, 특수 문자의 자동 고정 발음.
seed번호아니-재현성 시드.

주석

한계

  • 최대 입력: 5,000자
  • 생성: 5-10분

음성 복제

  • 참고 오디오: 3-10초
  • 허용 포맷: WAV, MP3, OGG, FLAC, AAC, M4A, WebM

미리 설정된 목소리

  • 엠마 (영어 여성)
  • 제임스 (미국 남성)
  • 아서 (영국 M)
  • 샤오메이 (중국어 여성)
  • 즈강 (중국어 남성)

Machine-읽기 가능한 스키마: GET https://api.empiriolabs.ai/v1/models/glm-tts.