Gemini 2.5 Flash TTS | EmpirioLabs AI Docs

Google · Audio Generation

POST /v1/audio/speech

低遅延text-to-speech、シングルスピーカーおよびマルチスピーカーの音声、コントロール可能なスタイル、アクセント、表現力豊かな本番アプリに対応しています。

一目で

フィールド	価値
モデルID	`gemini-2-5-flash-tts`
モデル発売日	2025-05-20
入力モダリティ	本文
出力モダリティ	音声
コンテキストウィンドウ	-
重量精度	-
特徴	text_to_speech、multi_speaker、多言語対応
ネイティブ推論	いいえ
新作	いいえ
サポート端末	`POST /v1/audio/speech`

価格設定

チャージ	スペック	レート
入力	1Mプロンプトトークンあたり	$1.50
出力	生成された1Mトークンあたり	$30.00

例示リクエスト

$ curl https://api.empiriolabs.ai/v1/audio/speech \
>   -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
>   -H 'Content-Type: application/json' \
>   -d '{"model": "gemini-2-5-flash-tts", "input": "Hello from EmpirioLabs."}'

パラメータ

パラメータ	種類	必須	デフォルト	概要
`input`	ストリング	はい	-	音声に変換するためのテキスト。マルチスピーカーモードでは、ラインの前にSpeaker1: / Speaker2: で表記します。
`mode`	エヌム	いいえ	`"single"`	シングル=ワンボイス、マルチ=ツーボイスダイアログ(ボイス+ボイス2+スピーカー名を使用)。·許可:`single`、`multi`
`language`	ストリング	いいえ	`"en-US"`	発音の手がかり用のBCP-47言語タグ(en-US、es-ESなど)。
`voice`	エヌム	いいえ	`"Charon"`	主な声名(例:Kore、Puck、Aoede)。デフォルトは空欄のままにしてください。·許可されている:`Zephyr`、`Puck`、`Charon`、`Kore`、`Fenrir`、`Leda`、`Orus`、`Aoede`、`Callirrhoe`、`Autonoe`、`Enceladus`、`Iapetus`、`Umbriel`、`Algieba`、`Despina`、`Erinome`、`Algenib`、`Rasalgethi`、`Laomedeia`、 `Achernar`、`Alnilam`、、`Schedar`、`Gacrux`、`Pulcherrima`、`Achird`、`Zubenelgenubi`、`Vindemiatrix`、`Sadachbia`、`Sadaltager`、`Sulafat`
`voice2`	エヌム	いいえ	`"Kore"`	マルチスピーカーモード用の2つ目の音声名。·許可されている:`Zephyr`、`Puck`、`Charon`、`Kore`、`Fenrir`、`Leda`、`Orus`、`Aoede`、`Callirrhoe`、`Autonoe`、`Enceladus`、`Iapetus`、`Umbriel`、`Algieba`、`Despina`、`Erinome`、`Algenib`、`Rasalgethi`、`Laomedeia`、 `Achernar`、`Alnilam`、、`Schedar`、`Gacrux`、`Pulcherrima`、`Achird`、`Zubenelgenubi`、`Vindemiatrix`、`Sadachbia`、`Sadaltager`、`Sulafat`
`speaker1_name`	ストリング	いいえ	`"Speaker1"`	スピーカー1の入力プレフィックスに使用された表示名(デフォルト:Speaker1)。
`speaker2_name`	ストリング	いいえ	`"Speaker2"`	スピーカー2の入力プレフィックスに使用される表示名(デフォルト:Speaker2)。
`output_format`	エヌム	いいえ	`"WAV"`	音声ファイル形式(mp3、wav、opus、flacなど)。·許可:`WAV`、`MP3`、`OGG`、`ALAW`、`MULAW`
`speed`	番号	いいえ	`1.0`	再生速度。1.0 = ナチュラル;<1は遅く、>1は速く。·射程:0.25 – 2.0
`volume_gain`	番号	いいえ	`0`	出力ゲインはdB単位です。0 = 変わらない。·射程:-96 – 16
`sample_rate`	エヌム	いいえ	`"24000"`	出力サンプリングレートはHz(8000、16000、24000、44100、48000)です。·許可:`8000`、`16000`、`22050`、`24000`、`44100`、`48000`
`style_prompt`	ストリング	いいえ	-	自然言語スタイルの指示(例:「温かく、会話的」や「ニュースキャスター、真面目」など)。

注記

モード

シングルスピーカー
マルチスピーカー(最大2声) - テキストはSpeakerName: text形式でなければなりません

限界

テキスト+スタイルプロンプト:各4,000バイト
音声課金:生成された音声のトークン/秒数~32(約10〜15chars/s)

声と言語

emotional/tonalキャラクターで30+のボイスオプション
24+言語対応のローカ

出力フォーマット

MP3、WAV、OGG

Machine-readable schema: GET https://api.empiriolabs.ai/v1/models/gemini-2-5-flash-tts。