GLM TTS

Z.ai · Audio Generation
POST /v1/audio/speechLLMベースのtext-to-speechで、3〜10秒の音声からゼロショットのボイスクローンと、マルチリワード強化学習(RL)による感情表現で制御可能な出力を実現しています。
一目で
価格設定
例示リクエスト
パラメータ
注記
限界
- 最大入力数:5,000文字
- 生成時間:5〜10分
声のクローン
- 参考音声:3〜10秒
- 受け入れられるフォーマット:WAV、MP3、OGG、FLAC、AAC、M4A、WebM
プリセットの声
- エマ(英語女性)
- ジェームズ(アメリカ合衆国男性)
- アーサー(イギリスの男性)
- シャオメイ(中国語の女性)
- 直剛(中国語M)
Machine-readable schema: GET https://api.empiriolabs.ai/v1/models/glm-tts。
