Gemini 2.5 Flash TTS

Gemini 2.5 Flash TTS
Google · Audio Generation
POST /v1/audio/speech

低遅延text-to-speech、シングルスピーカーおよびマルチスピーカーの音声、コントロール可能なスタイル、アクセント、表現力豊かな本番アプリに対応しています。

一目で

フィールド価値
モデルIDgemini-2-5-flash-tts
モデル発売日2025-05-20
入力モダリティ本文
出力モダリティ音声
コンテキストウィンドウ-
重量精度-
特徴text_to_speech、multi_speaker、多言語対応
ネイティブ推論いいえ
新作いいえ
サポート端末POST /v1/audio/speech

価格設定

チャージスペックレート
入力1Mプロンプトトークンあたり$1.50
出力生成された1Mトークンあたり$30.00

例示リクエスト

$curl https://api.empiriolabs.ai/v1/audio/speech \
> -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
> -H 'Content-Type: application/json' \
> -d '{"model": "gemini-2-5-flash-tts", "input": "Hello from EmpirioLabs."}'

パラメータ

パラメータ種類必須デフォルト概要
inputストリングはい-音声に変換するためのテキスト。マルチスピーカーモードでは、ラインの前にSpeaker1: / Speaker2: で表記します。
modeエヌムいいえ"single"シングル=ワンボイス、マルチ=ツーボイスダイアログ(ボイス+ボイス2+スピーカー名を使用)。·許可:singlemulti
languageストリングいいえ"en-US"発音の手がかり用のBCP-47言語タグ(en-US、es-ESなど)。
voiceエヌムいいえ"Charon"主な声名(例:Kore、Puck、Aoede)。デフォルトは空欄のままにしてください。·許可されている:ZephyrPuckCharonKoreFenrirLedaOrusAoedeCallirrhoeAutonoeEnceladusIapetusUmbrielAlgiebaDespinaErinomeAlgenibRasalgethiLaomedeiaAchernarAlnilam、、SchedarGacruxPulcherrimaAchirdZubenelgenubiVindemiatrixSadachbiaSadaltagerSulafat
voice2エヌムいいえ"Kore"マルチスピーカーモード用の2つ目の音声名。·許可されている:ZephyrPuckCharonKoreFenrirLedaOrusAoedeCallirrhoeAutonoeEnceladusIapetusUmbrielAlgiebaDespinaErinomeAlgenibRasalgethiLaomedeiaAchernarAlnilam、、SchedarGacruxPulcherrimaAchirdZubenelgenubiVindemiatrixSadachbiaSadaltagerSulafat
speaker1_nameストリングいいえ"Speaker1"スピーカー1の入力プレフィックスに使用された表示名(デフォルト:Speaker1)。
speaker2_nameストリングいいえ"Speaker2"スピーカー2の入力プレフィックスに使用される表示名(デフォルト:Speaker2)。
output_formatエヌムいいえ"WAV"音声ファイル形式(mp3、wav、opus、flacなど)。·許可:WAVMP3OGGALAWMULAW
speed番号いいえ1.0再生速度。1.0 = ナチュラル;<1は遅く、>1は速く。·射程:0.25 – 2.0
volume_gain番号いいえ0出力ゲインはdB単位です。0 = 変わらない。·射程:-96 – 16
sample_rateエヌムいいえ"24000"出力サンプリングレートはHz(8000、16000、24000、44100、48000)です。·許可:80001600022050240004410048000
style_promptストリングいいえ-自然言語スタイルの指示(例:「温かく、会話的」や「ニュースキャスター、真面目」など)。

注記

モード

  • シングルスピーカー
  • マルチスピーカー(最大2声) - テキストはSpeakerName: text形式でなければなりません

限界

  • テキスト+スタイルプロンプト:各4,000バイト
  • 音声課金:生成された音声のトークン/秒数~32(約10〜15chars/s)

声と言語

  • emotional/tonalキャラクターで30+のボイスオプション
  • 24+言語対応のローカ

出力フォーマット

  • MP3、WAV、OGG

Machine-readable schema: GET https://api.empiriolabs.ai/v1/models/gemini-2-5-flash-tts