GLM TTS

Z.ai · Audio Generation

POST /v1/audio/speech

LLMベースのtext-to-speechで、3〜10秒の音声からゼロショットのボイスクローンと、マルチリワード強化学習(RL)による感情表現で制御可能な出力を実現しています。

一目で

フィールド	価値
モデルID	`glm-tts`
モデル発売日	2025-12-11
入力モダリティ	テキスト、音声
出力モダリティ	音声
コンテキストウィンドウ	-
重量精度	INT8 / FP16
特徴	voice_cloning、emotion_control
ネイティブ推論	はい
新作	いいえ
サポート端末	`POST /v1/audio/speech`

価格設定

チャージ	スペック	レート
速い(INT8)	1,000文字あたり	$0.20
クオリティ(FP16)	1,000文字あたり	$0.21

例示リクエスト

$ curl https://api.empiriolabs.ai/v1/audio/speech \
>   -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
>   -H 'Content-Type: application/json' \
>   -d '{"model": "glm-tts", "input": "Hello from EmpirioLabs."}'

パラメータ

パラメータ	種類	必須	デフォルト	概要
`input`	ストリング	はい	-	テキストを合成する。マルチスピーカーの場合は、[S1] / [S2] タグや「Speaker N:」ラインを使用します。
`voice`	エヌム	いいえ	`"emma"`	emma=英語女性、james=US男性、arthur=US男性別名前、xiaomei=中国女性、zhigang=中国人男性、custom=アップロード参照voice_audio_url。·許可:`emma`、`james`、`arthur`、`xiaomei`、`zhigang`、`custom`
`voice_audio_url`	ストリング	いいえ	-	カスタム音声クローン用の音声URLを参照してください。参照録音には、話者がこの同意フレーズを自分の声で朗読していることが含まれていなければなりません:「私はEmpirio Labsが合成音声を生成する目的で私の声をクローンすることに同意します。私の音声サンプルはパーソナライズされた音声コンテンツの作成に使われることを理解しています。」フレーズのない参照音声は拒否されます。
`output_format`	エヌム	いいえ	`"mp3"`	出力メディアファイル形式(mp3、wav、mp4、png、jpgなど、エンドポイントによって異なります)。·許可:`mp3`、`wav`
`speed`	番号	いいえ	`1.0`	話す速度の倍率。·範囲:0.5 – 2.0
`model_quality`	エヌム	いいえ	`"quality"`	品質=FP16(より優れている)、速=INT8(速い)·許可:`quality`、`fast`
`sample_rate`	エヌム	いいえ	`"24000"`	出力サンプルレート(Hz)・許可:`24000`、`16000`
`volume`	番号	いいえ	`1.0`	出力ゲイン倍率。·射程:0.1 – 2.0
`use_cache`	ブール値	いいえ	確かに	同じ世代の繰り返しを加速させる。
`optimize_input`	ブール値	いいえ	確かに	技術用語、頭字語、特殊文字の自動発音。
`seed`	番号	いいえ	-	再現性シード。

注記

限界

最大入力数:5,000文字
生成時間:5〜10分

声のクローン

参考音声:3〜10秒
受け入れられるフォーマット:WAV、MP3、OGG、FLAC、AAC、M4A、WebM

プリセットの声

エマ(英語女性)
ジェームズ(アメリカ合衆国男性)
アーサー(イギリスの男性)
シャオメイ(中国語の女性)
直剛(中国語M)

Machine-readable schema: GET https://api.empiriolabs.ai/v1/models/glm-tts。