GLM TTS

Z.ai · Audio Generation
POST /v1/audio/speech基于LLM的text-to-speech,支持从3到10秒音频中零声量克隆,并通过多奖励强化学习实现情感表达、可控输出。
一眼看
定价
示例请求
参数
注释
极限
- 最大输入:5000字符
- 生成时间:5-10分钟
声音克隆
- 参考音频:3-10秒
- 接受格式:WAV、MP3、OGG、FLAC、AAC、M4A、WebM
预设声音
- 艾玛(英语女)
- 詹姆斯(美国男)
- 亚瑟(英国男)
- 小美(中文 F)
- 志刚(中文:男性)
Machine可读模式: GET https://api.empiriolabs.ai/v1/models/glm-tts。
