Gemini 3.1 Flash TTS | EmpirioLabs AI Docs

Google · Audio Generation

POST /v1/audio/speech

ナレーション、アシスタント、ボイスアプリをまたいで、新しいオーディオタグで正確なスタイル、トーン、テンポ、伝え方を実現し、高度にコントロールしやすいTTS。

一目で

フィールド	価値
モデルID	`gemini-3-1-flash-tts`
モデル発売日	2026-04-13
入力モダリティ	本文
出力モダリティ	音声
コンテキストウィンドウ	-
重量精度	-
特徴	text_to_speech、multi_speaker、多言語対応
ネイティブ推論	いいえ
新作	はい
サポート端末	`POST /v1/audio/speech`

価格設定

チャージ	スペック	レート
入力	1Mプロンプトトークンあたり	$2.60
出力	生成された1Mトークンあたり	$52.00

例示リクエスト

$ curl https://api.empiriolabs.ai/v1/audio/speech \
>   -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
>   -H 'Content-Type: application/json' \
>   -d '{"model": "gemini-3-1-flash-tts", "input": "Hello from EmpirioLabs."}'

パラメータ

パラメータ	種類	必須	デフォルト	概要
`input`	ストリング	はい	-	音声に変換するためのテキスト。マルチスピーカーモードでは、ラインの前にSpeaker1: / Speaker2: で表記します。
`mode`	エヌム	いいえ	`"single"`	シングル=ワンボイス、マルチ=ツーボイスダイアログ(ボイス+ボイス2+スピーカー名を使用)。·許可:`single`、`multi`
`language`	ストリング	いいえ	`"en-US"`	発音の手がかり用のBCP-47言語タグ(en-US、es-ESなど)。
`voice`	エヌム	いいえ	`"Charon"`	主な声名(例:Kore、Puck、Aoede)。デフォルトは空欄のままにしてください。·許可されている:`Zephyr`、`Puck`、`Charon`、`Kore`、`Fenrir`、`Leda`、`Orus`、`Aoede`、`Callirrhoe`、`Autonoe`、`Enceladus`、`Iapetus`、`Umbriel`、`Algieba`、`Despina`、`Erinome`、`Algenib`、`Rasalgethi`、`Laomedeia`、 `Achernar`、`Alnilam`、、`Schedar`、`Gacrux`、`Pulcherrima`、`Achird`、`Zubenelgenubi`、`Vindemiatrix`、`Sadachbia`、`Sadaltager`、`Sulafat`
`voice2`	エヌム	いいえ	`"Kore"`	マルチスピーカーモード用の2つ目の音声名。·許可されている:`Zephyr`、`Puck`、`Charon`、`Kore`、`Fenrir`、`Leda`、`Orus`、`Aoede`、`Callirrhoe`、`Autonoe`、`Enceladus`、`Iapetus`、`Umbriel`、`Algieba`、`Despina`、`Erinome`、`Algenib`、`Rasalgethi`、`Laomedeia`、 `Achernar`、`Alnilam`、、`Schedar`、`Gacrux`、`Pulcherrima`、`Achird`、`Zubenelgenubi`、`Vindemiatrix`、`Sadachbia`、`Sadaltager`、`Sulafat`
`speaker1_name`	ストリング	いいえ	`"Speaker1"`	スピーカー1の入力プレフィックスに使用された表示名(デフォルト:Speaker1)。
`speaker2_name`	ストリング	いいえ	`"Speaker2"`	スピーカー2の入力プレフィックスに使用される表示名(デフォルト:Speaker2)。
`output_format`	エヌム	いいえ	`"WAV"`	音声ファイル形式(mp3、wav、opus、flacなど)。·許可:`WAV`、`MP3`、`OGG`、`ALAW`、`MULAW`
`speed`	番号	いいえ	`1.0`	再生速度。1.0 = ナチュラル;<1は遅く、>1は速く。·射程:0.25 – 2.0
`volume_gain`	番号	いいえ	`0`	出力ゲインはdB単位です。0 = 変わらない。·射程:-96 – 16
`sample_rate`	エヌム	いいえ	`"24000"`	出力サンプリングレートはHz(8000、16000、24000、44100、48000)です。·許可:`8000`、`16000`、`22050`、`24000`、`44100`、`48000`
`style_prompt`	ストリング	いいえ	-	自然言語スタイルの指示(例:「温かく、会話的」や「ニュースキャスター、真面目」など)。

注記

これまでで最も操作しやすいジェミニTTS。

限界

テキスト+スタイルプロンプト:各4,000バイト(合計8,000バイト)
最大出力:~10分
音声請求:~25トークン/秒(~15chars/s)
言語は自動検出されます。言語設定は制約ではなくヒントに過ぎません

インラインオーディオタグ(制御配信)

感情:[whispers]、[shouts]、[laughs]、[sighs]、[cheerful]、[sad]、[angry]など。
ペース:[slow]、[fast]、[extremely fast]、[normal pace]
間:[short pause]、[long pause]、[breath]
強調:[softly]、[loudly]、[high pitch]、[low pitch]、[rising tone]、[falling tone]

Machine-readable schema: GET https://api.empiriolabs.ai/v1/models/gemini-3-1-flash-tts。