GLM TTS

Z.ai · Audio Generation

POST /v1/audio/speech

LLM 기반 text-to-speech로, 3-10초 오디오에서 제로 샷 음성 복제와 다중 보상 강화 학습을 통한 감정 표현 및 제어 가능한 출력을 제공합니다.

한눈에

필드	가치
모델 ID	`glm-tts`
모델 출시일	2025-12-11
입력 양상	텍스트, 오디오
출력 방식	오디오
컨텍스트 윈도우	-
무게 정밀도	INT8 / FP16
특징	voice_cloning, emotion_control
원주민 추론	네
신규	아니
지원되는 엔드포인트	`POST /v1/audio/speech`

가격

돌격	사양	요금
빠른 (인터셉트 8)	1,000자 단위로	$0.20
퀄리티 (FP16)	1,000자 단위로	$0.21

예시 요청

$ curl https://api.empiriolabs.ai/v1/audio/speech \
>   -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
>   -H 'Content-Type: application/json' \
>   -d '{"model": "glm-tts", "input": "Hello from EmpirioLabs."}'

매개변수

매개변수	유형	필수	기본 설정	설명
`input`	스트링	네	-	합성할 텍스트. 다중 스피커를 사용할 경우 [S1] / [S2] 태그 또는 ‘Speaker N:’ 라인을 사용하세요.
`voice`	열거	아니	`"emma"`	emma=영어 여성, james=미국 남성, arthur=미국 남성 대체 문자, xiaomei=중국 여성, zhigang=중국 남성, custom=voice_audio_url 통한 출처 업로드. · 허용: `emma`, `james`, `arthur`, `xiaomei`, `zhigang`, `custom`
`voice_audio_url`	스트링	아니	-	커스텀 음성 복제를 위한 오디오 URL 참조. 참조 녹음에는 화자가 자신의 목소리로 이 정확한 동의 문구를 낭독하는 내용이 포함되어야 합니다: “나는 합성 음성 생성을 위해 Empirio Labs가 내 목소리를 복제하는 것에 동의합니다. 제 음성 샘플이 개인화된 오디오 콘텐츠를 만드는 데 사용될 것이라고 알고 있습니다.” 문구가 없는 참조 오디오는 거부됩니다.
`output_format`	열거	아니	`"mp3"`	출력 미디어 파일 형식(엔드포인트에 따라 mp3, wav, mp4, png, jpg 등)을 선택할 수 있습니다. · 허용: `mp3`, `wav`
`speed`	번호	아니	`1.0`	말하는 속도 배수. · 범위: 0.5 – 2.0
`model_quality`	열거	아니	`"quality"`	퀄리티=FP16(더 좋음), 빠름=INT8(더 빠름) · 허용: `quality`, `fast`
`sample_rate`	열거	아니	`"24000"`	출력 샘플링 속도 (Hz · 허용: `24000`, `16000`
`volume`	번호	아니	`1.0`	출력 이득 배수기. · 범위: 0.1 – 2.0
`use_cache`	불리언	아니	맞아요	동일한 세대가 반복되는 속도를 높여줍니다.
`optimize_input`	불리언	아니	맞아요	기술 용어, 약어, 특수 문자의 자동 고정 발음.
`seed`	번호	아니	-	재현성 시드.

주석

한계

최대 입력: 5,000자
생성: 5-10분

음성 복제

참고 오디오: 3-10초
허용 포맷: WAV, MP3, OGG, FLAC, AAC, M4A, WebM

미리 설정된 목소리

엠마 (영어 여성)
제임스 (미국 남성)
아서 (영국 M)
샤오메이 (중국어 여성)
즈강 (중국어 남성)

Machine-읽기 가능한 스키마: GET https://api.empiriolabs.ai/v1/models/glm-tts.