Gemini 2.5 Pro TTS

Gemini 2.5 Pro TTS
Google · Audio Generation
POST /v1/audio/speech

高质量的TTS预览,涵盖播客、有声书和客户支持,支持23+语言的多扬声器声音。

一眼看

场地价值
型号IDgemini-2-5-pro-tts
车型发布日期2025-05-20
输入模态正文
输出模态音频
上下文窗口-
重量精度-
特色text_to_speech,multi_speaker,多语言
本土推断
支持的端点POST /v1/audio/speech

定价

冲锋规格速率
输入每100万个提示词标记$3.00
输出每100万个生成代币$60.00

示例请求

$curl https://api.empiriolabs.ai/v1/audio/speech \
> -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
> -H 'Content-Type: application/json' \
> -d '{"model": "gemini-2-5-pro-tts", "input": "Hello from EmpirioLabs."}'

参数

参数类型必修默认描述
input是的-文本转换为语音。对于多扬声器模式,前缀线路应加 Speaker1: / Speaker2: 。
mode枚举"single"单声部=一声部,多重部=双部对话(使用人声+声音2+说话者名称)。·允许:singlemulti
language"en-US"BCP-47 语言标签(en-US、es-ES 等),用于发音线索。
voice枚举"Charon"主要声音名(例如Kore、Puck、Aoede)。默认时留空。·允许:ZephyrPuckCharonKoreFenrirLedaOrusAoedeCallirrhoeAutonoeEnceladusIapetusUmbrielAlgiebaDespinaErinomeAlgenibRasalgethiLaomedeiaAchernarAlnilamSchedarGacruxPulcherrimaAchirdZubenelgenubiVindemiatrixSadachbiaSadaltagerSulafat
voice2枚举"Kore"多扬声器模式的第二个语音名称。·允许:ZephyrPuckCharonKoreFenrirLedaOrusAoedeCallirrhoeAutonoeEnceladusIapetusUmbrielAlgiebaDespinaErinomeAlgenibRasalgethiLaomedeiaAchernarAlnilamSchedarGacruxPulcherrimaAchirdZubenelgenubiVindemiatrixSadachbiaSadaltagerSulafat
speaker1_name"Speaker1"显示名称用于扬声器1的输入前缀(默认:Speaker1)。
speaker2_name"Speaker2"扬声器2输入前缀中使用的显示名称(默认:Speaker2)。
output_format枚举"WAV"音频文件格式(mp3、wav、opus、flac等)。·允许:WAVMP3OGGALAWMULAW
speed人数1.0播放速度。1.0 = 自然;<1慢,>1快。·射程:0.25 – 2.0
volume_gain人数0输出增益以dB为单位。0 = 不变。·射程:-96 – 16
sample_rate枚举"24000"输出采样率以Hz为单位(8000、16000、24000、44100、48000)。·允许:80001600022050240004410048000
style_prompt-自然语言风格的引导(例如“温暖、对话式”或“新闻播报员,严肃”)。

注释

模式

  • 单扬声器
  • 多扬声器(最多2人声) - - 文本必须为SpeakerName: text格式

极限

  • 文本+样式提示:每个4000字节
  • 音频计费:每秒生成音频 ~32 个令牌(~10-15 chars/s)

声音与语言

  • 30+个emotional/tonal角色的语音选项
  • 支持24+语言区域

输出格式

  • MP3、WAV、OGG

Machine可读模式: GET https://api.empiriolabs.ai/v1/models/gemini-2-5-pro-tts