GLM TTS

GLM TTS
Z.ai · Audio Generation
POST /v1/audio/speech

LLMベースのtext-to-speechで、3〜10秒の音声からゼロショットのボイスクローンと、マルチリワード強化学習(RL)による感情表現で制御可能な出力を実現しています。

一目で

フィールド価値
モデルIDglm-tts
モデル発売日2025-12-11
入力モダリティテキスト、音声
出力モダリティ音声
コンテキストウィンドウ-
重量精度INT8 / FP16
特徴voice_cloning、emotion_control
ネイティブ推論はい
新作いいえ
サポート端末POST /v1/audio/speech

価格設定

チャージスペックレート
速い(INT8)1,000文字あたり$0.20
クオリティ(FP16)1,000文字あたり$0.21

例示リクエスト

$curl https://api.empiriolabs.ai/v1/audio/speech \
> -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
> -H 'Content-Type: application/json' \
> -d '{"model": "glm-tts", "input": "Hello from EmpirioLabs."}'

パラメータ

パラメータ種類必須デフォルト概要
inputストリングはい-テキストを合成する。マルチスピーカーの場合は、[S1] / [S2] タグや「Speaker N:」ラインを使用します。
voiceエヌムいいえ"emma"emma=英語女性、james=US男性、arthur=US男性別名前、xiaomei=中国女性、zhigang=中国人男性、custom=アップロード参照voice_audio_url。·許可:emmajamesarthurxiaomeizhigangcustom
voice_audio_urlストリングいいえ-カスタム音声クローン用の音声URLを参照してください。参照録音には、話者がこの同意フレーズを自分の声で朗読していることが含まれていなければなりません:「私はEmpirio Labsが合成音声を生成する目的で私の声をクローンすることに同意します。私の音声サンプルはパーソナライズされた音声コンテンツの作成に使われることを理解しています。」フレーズのない参照音声は拒否されます。
output_formatエヌムいいえ"mp3"出力メディアファイル形式(mp3、wav、mp4、png、jpgなど、エンドポイントによって異なります)。·許可:mp3wav
speed番号いいえ1.0話す速度の倍率。·範囲:0.5 – 2.0
model_qualityエヌムいいえ"quality"品質=FP16(より優れている)、速=INT8(速い)·許可:qualityfast
sample_rateエヌムいいえ"24000"出力サンプルレート(Hz)・許可:2400016000
volume番号いいえ1.0出力ゲイン倍率。·射程:0.1 – 2.0
use_cacheブール値いいえ確かに同じ世代の繰り返しを加速させる。
optimize_inputブール値いいえ確かに技術用語、頭字語、特殊文字の自動発音。
seed番号いいえ-再現性シード。

注記

限界

  • 最大入力数:5,000文字
  • 生成時間:5〜10分

声のクローン

  • 参考音声:3〜10秒
  • 受け入れられるフォーマット:WAV、MP3、OGG、FLAC、AAC、M4A、WebM

プリセットの声

  • エマ(英語女性)
  • ジェームズ(アメリカ合衆国男性)
  • アーサー(イギリスの男性)
  • シャオメイ(中国語の女性)
  • 直剛(中国語M)

Machine-readable schema: GET https://api.empiriolabs.ai/v1/models/glm-tts