Gemini 3.1 Flash TTS

Google · Audio Generation
POST /v1/audio/speechナレーション、アシスタント、ボイスアプリをまたいで、新しいオーディオタグで正確なスタイル、トーン、テンポ、伝え方を実現し、高度にコントロールしやすいTTS。
一目で
価格設定
例示リクエスト
パラメータ
注記
これまでで最も操作しやすいジェミニTTS。
限界
- テキスト+スタイルプロンプト:各4,000バイト(合計8,000バイト)
- 最大出力:~10分
- 音声請求:~25トークン/秒(~15chars/s)
- 言語は自動検出されます。言語設定は制約ではなくヒントに過ぎません
インラインオーディオタグ(制御配信)
- 感情:
[whispers]、[shouts]、[laughs]、[sighs]、[cheerful]、[sad]、[angry]など。 - ペース:
[slow]、[fast]、[extremely fast]、[normal pace] - 間:
[short pause]、[long pause]、[breath] - 強調:
[softly]、[loudly]、[high pitch]、[low pitch]、[rising tone]、[falling tone]
Machine-readable schema: GET https://api.empiriolabs.ai/v1/models/gemini-3-1-flash-tts。
