GLM TTS

GLM TTS
Z.ai · Audio Generation
POST /v1/audio/speech

基于LLM的text-to-speech,支持从3到10秒音频中零声量克隆,并通过多奖励强化学习实现情感表达、可控输出。

一眼看

场地价值
型号IDglm-tts
车型发布日期2025-12-11
输入模态文本,音频
输出模态音频
上下文窗口-
重量精度INT8 / FP16
特色voice_cloning,emotion_control
本土推断是的
支持的端点POST /v1/audio/speech

定价

冲锋规格速率
快速(智力8)每1000字符$0.20
质量(FP16)每1000字符$0.21

示例请求

$curl https://api.empiriolabs.ai/v1/audio/speech \
> -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
> -H 'Content-Type: application/json' \
> -d '{"model": "glm-tts", "input": "Hello from EmpirioLabs."}'

参数

参数类型必修默认描述
input是的-文本要综合。多扬声器使用[S1] / [S2]标签或“扬声器N:”线。
voice枚举"emma"emma=英语女性,james=美国男性,arthur=美国男性替代,xiaomei=中国女性,jigang=中国男性,custom=通过voice_audio_url上传参考。·允许:emmajamesarthurxiaomeizhigangcustom
voice_audio_url-参考音频链接,用于自定义语音克隆。参考录音必须包含说话者用自己的声音朗读这句同意短语:“我同意Empirio Labs克隆我的声音以生成合成语音。我了解到我的声音样本将被用来制作个性化音频内容。”没有短语的参考音频被拒绝。
output_format枚举"mp3"输出媒体文件格式(mp3、wav、mp4、png、jpg 等,取决于终端)。·允许:mp3wav
speed人数1.0说话率乘数。·范围:0.5 – 2.0
model_quality枚举"quality"质量=FP16(更好),快速=INT8(更快)·允许:qualityfast
sample_rate枚举"24000"输出采样率以Hz为单位。允许:2400016000
volume人数1.0输出增益倍增器。·范围:0.1 – 2.0
use_cache布尔值确实如此加快了重复的同代。
optimize_input布尔值确实如此技术术语、缩略词和特殊字符的自动发音。
seed人数-可重复性种子。

注释

极限

  • 最大输入:5000字符
  • 生成时间:5-10分钟

声音克隆

  • 参考音频:3-10秒
  • 接受格式:WAV、MP3、OGG、FLAC、AAC、M4A、WebM

预设声音

  • 艾玛(英语女)
  • 詹姆斯(美国男)
  • 亚瑟(英国男)
  • 小美(中文 F)
  • 志刚(中文:男性)

Machine可读模式: GET https://api.empiriolabs.ai/v1/models/glm-tts