Gemini 3.1 Flash TTS

Gemini 3.1 Flash TTS
Google · Audio Generation
POST /v1/audio/speech

ナレーション、アシスタント、ボイスアプリをまたいで、新しいオーディオタグで正確なスタイル、トーン、テンポ、伝え方を実現し、高度にコントロールしやすいTTS。

一目で

フィールド価値
モデルIDgemini-3-1-flash-tts
モデル発売日2026-04-13
入力モダリティ本文
出力モダリティ音声
コンテキストウィンドウ-
重量精度-
特徴text_to_speech、multi_speaker、多言語対応
ネイティブ推論いいえ
新作はい
サポート端末POST /v1/audio/speech

価格設定

チャージスペックレート
入力1Mプロンプトトークンあたり$2.60
出力生成された1Mトークンあたり$52.00

例示リクエスト

$curl https://api.empiriolabs.ai/v1/audio/speech \
> -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
> -H 'Content-Type: application/json' \
> -d '{"model": "gemini-3-1-flash-tts", "input": "Hello from EmpirioLabs."}'

パラメータ

パラメータ種類必須デフォルト概要
inputストリングはい-音声に変換するためのテキスト。マルチスピーカーモードでは、ラインの前にSpeaker1: / Speaker2: で表記します。
modeエヌムいいえ"single"シングル=ワンボイス、マルチ=ツーボイスダイアログ(ボイス+ボイス2+スピーカー名を使用)。·許可:singlemulti
languageストリングいいえ"en-US"発音の手がかり用のBCP-47言語タグ(en-US、es-ESなど)。
voiceエヌムいいえ"Charon"主な声名(例:Kore、Puck、Aoede)。デフォルトは空欄のままにしてください。·許可されている:ZephyrPuckCharonKoreFenrirLedaOrusAoedeCallirrhoeAutonoeEnceladusIapetusUmbrielAlgiebaDespinaErinomeAlgenibRasalgethiLaomedeiaAchernarAlnilam、、SchedarGacruxPulcherrimaAchirdZubenelgenubiVindemiatrixSadachbiaSadaltagerSulafat
voice2エヌムいいえ"Kore"マルチスピーカーモード用の2つ目の音声名。·許可されている:ZephyrPuckCharonKoreFenrirLedaOrusAoedeCallirrhoeAutonoeEnceladusIapetusUmbrielAlgiebaDespinaErinomeAlgenibRasalgethiLaomedeiaAchernarAlnilam、、SchedarGacruxPulcherrimaAchirdZubenelgenubiVindemiatrixSadachbiaSadaltagerSulafat
speaker1_nameストリングいいえ"Speaker1"スピーカー1の入力プレフィックスに使用された表示名(デフォルト:Speaker1)。
speaker2_nameストリングいいえ"Speaker2"スピーカー2の入力プレフィックスに使用される表示名(デフォルト:Speaker2)。
output_formatエヌムいいえ"WAV"音声ファイル形式(mp3、wav、opus、flacなど)。·許可:WAVMP3OGGALAWMULAW
speed番号いいえ1.0再生速度。1.0 = ナチュラル;<1は遅く、>1は速く。·射程:0.25 – 2.0
volume_gain番号いいえ0出力ゲインはdB単位です。0 = 変わらない。·射程:-96 – 16
sample_rateエヌムいいえ"24000"出力サンプリングレートはHz(8000、16000、24000、44100、48000)です。·許可:80001600022050240004410048000
style_promptストリングいいえ-自然言語スタイルの指示(例:「温かく、会話的」や「ニュースキャスター、真面目」など)。

注記

これまでで最も操作しやすいジェミニTTS。

限界

  • テキスト+スタイルプロンプト:各4,000バイト(合計8,000バイト)
  • 最大出力:~10分
  • 音声請求:~25トークン/秒(~15chars/s)
  • 言語は自動検出されます。言語設定は制約ではなくヒントに過ぎません

インラインオーディオタグ(制御配信)

  • 感情:[whispers][shouts][laughs][sighs][cheerful][sad][angry]など。
  • ペース:[slow][fast][extremely fast][normal pace]
  • 間:[short pause][long pause][breath]
  • 強調:[softly][loudly][high pitch][low pitch][rising tone][falling tone]

Machine-readable schema: GET https://api.empiriolabs.ai/v1/models/gemini-3-1-flash-tts