GLM TTS | EmpirioLabs AI Docs

Z.ai · Audio Generation

POST /v1/audio/speech

基于LLM的text-to-speech，支持从3到10秒音频中零声量克隆，并通过多奖励强化学习实现情感表达、可控输出。

一眼看

场地	价值
型号ID	`glm-tts`
车型发布日期	2025-12-11
输入模态	文本，音频
输出模态	音频
上下文窗口	-
重量精度	INT8 / FP16
特色	voice_cloning，emotion_control
本土推断	是的
新	不
支持的端点	`POST /v1/audio/speech`

定价

冲锋	规格	速率
快速（智力8）	每1000字符	$0.20
质量（FP16）	每1000字符	$0.21

示例请求

$ curl https://api.empiriolabs.ai/v1/audio/speech \
>   -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
>   -H 'Content-Type: application/json' \
>   -d '{"model": "glm-tts", "input": "Hello from EmpirioLabs."}'

参数

参数	类型	必修	默认	描述
`input`	弦	是的	-	文本要综合。多扬声器使用[S1] / [S2]标签或“扬声器N：”线。
`voice`	枚举	不	`"emma"`	emma=英语女性，james=美国男性，arthur=美国男性替代，xiaomei=中国女性，jigang=中国男性，custom=通过voice_audio_url上传参考。·允许：`emma`、`james`、`arthur`、`xiaomei`、`zhigang`、`custom`
`voice_audio_url`	弦	不	-	参考音频链接，用于自定义语音克隆。参考录音必须包含说话者用自己的声音朗读这句同意短语：“我同意Empirio Labs克隆我的声音以生成合成语音。我了解到我的声音样本将被用来制作个性化音频内容。”没有短语的参考音频被拒绝。
`output_format`	枚举	不	`"mp3"`	输出媒体文件格式（mp3、wav、mp4、png、jpg 等，取决于终端）。·允许：`mp3`，`wav`
`speed`	人数	不	`1.0`	说话率乘数。·范围：0.5 – 2.0
`model_quality`	枚举	不	`"quality"`	质量=FP16（更好），快速=INT8（更快）·允许：`quality`，`fast`
`sample_rate`	枚举	不	`"24000"`	输出采样率以Hz为单位。允许：`24000`，`16000`
`volume`	人数	不	`1.0`	输出增益倍增器。·范围：0.1 – 2.0
`use_cache`	布尔值	不	确实如此	加快了重复的同代。
`optimize_input`	布尔值	不	确实如此	技术术语、缩略词和特殊字符的自动发音。
`seed`	人数	不	-	可重复性种子。

注释

极限

最大输入：5000字符
生成时间：5-10分钟

声音克隆

参考音频：3-10秒
接受格式：WAV、MP3、OGG、FLAC、AAC、M4A、WebM

预设声音

艾玛（英语女）
詹姆斯（美国男）
亚瑟（英国男）
小美（中文 F）
志刚（中文：男性）

Machine可读模式： GET https://api.empiriolabs.ai/v1/models/glm-tts。