Gemini 2.5 Pro TTS | EmpirioLabs AI Docs

Google · Audio Generation

POST /v1/audio/speech

高质量的TTS预览，涵盖播客、有声书和客户支持，支持23+语言的多扬声器声音。

一眼看

场地	价值
型号ID	`gemini-2-5-pro-tts`
车型发布日期	2025-05-20
输入模态	正文
输出模态	音频
上下文窗口	-
重量精度	-
特色	text_to_speech，multi_speaker，多语言
本土推断	不
新	不
支持的端点	`POST /v1/audio/speech`

定价

冲锋	规格	速率
输入	每100万个提示词标记	$3.00
输出	每100万个生成代币	$60.00

示例请求

$ curl https://api.empiriolabs.ai/v1/audio/speech \
>   -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
>   -H 'Content-Type: application/json' \
>   -d '{"model": "gemini-2-5-pro-tts", "input": "Hello from EmpirioLabs."}'

参数

参数	类型	必修	默认	描述
`input`	弦	是的	-	文本转换为语音。对于多扬声器模式，前缀线路应加 Speaker1： / Speaker2：。
`mode`	枚举	不	`"single"`	单声部=一声部，多重部=双部对话（使用人声+声音2+说话者名称）。·允许：`single`，`multi`
`language`	弦	不	`"en-US"`	BCP-47 语言标签（en-US、es-ES 等），用于发音线索。
`voice`	枚举	不	`"Charon"`	主要声音名（例如Kore、Puck、Aoede）。默认时留空。·允许：`Zephyr`、`Puck`、`Charon`、`Kore`、`Fenrir`、`Leda`、`Orus`、`Aoede`、`Callirrhoe`、`Autonoe`、`Enceladus`、`Iapetus`、`Umbriel`、`Algieba`、`Despina`、`Erinome`、`Algenib`、`Rasalgethi`、`Laomedeia`， `Achernar`，`Alnilam`，`Schedar`，`Gacrux`，`Pulcherrima`，`Achird`，`Zubenelgenubi`，`Vindemiatrix`，`Sadachbia`，`Sadaltager`，`Sulafat`
`voice2`	枚举	不	`"Kore"`	多扬声器模式的第二个语音名称。·允许：`Zephyr`、`Puck`、`Charon`、`Kore`、`Fenrir`、`Leda`、`Orus`、`Aoede`、`Callirrhoe`、`Autonoe`、`Enceladus`、`Iapetus`、`Umbriel`、`Algieba`、`Despina`、`Erinome`、`Algenib`、`Rasalgethi`、`Laomedeia`， `Achernar`，`Alnilam`，`Schedar`，`Gacrux`，`Pulcherrima`，`Achird`，`Zubenelgenubi`，`Vindemiatrix`，`Sadachbia`，`Sadaltager`，`Sulafat`
`speaker1_name`	弦	不	`"Speaker1"`	显示名称用于扬声器1的输入前缀（默认：Speaker1）。
`speaker2_name`	弦	不	`"Speaker2"`	扬声器2输入前缀中使用的显示名称（默认：Speaker2）。
`output_format`	枚举	不	`"WAV"`	音频文件格式（mp3、wav、opus、flac等）。·允许：`WAV`、`MP3`、`OGG`、`ALAW`、`MULAW`
`speed`	人数	不	`1.0`	播放速度。1.0 = 自然;<1慢，>1快。·射程：0.25 – 2.0
`volume_gain`	人数	不	`0`	输出增益以dB为单位。0 = 不变。·射程：-96 – 16
`sample_rate`	枚举	不	`"24000"`	输出采样率以Hz为单位（8000、16000、24000、44100、48000）。·允许：`8000`、`16000`、`22050`、`24000`、`44100`、`48000`
`style_prompt`	弦	不	-	自然语言风格的引导（例如“温暖、对话式”或“新闻播报员，严肃”）。

注释

模式

单扬声器
多扬声器（最多2人声） - - 文本必须为SpeakerName: text格式

极限

文本+样式提示：每个4000字节
音频计费：每秒生成音频 ~32 个令牌（~10-15 chars/s）

声音与语言

30+个emotional/tonal角色的语音选项
支持24+语言区域

输出格式

MP3、WAV、OGG

Machine可读模式： GET https://api.empiriolabs.ai/v1/models/gemini-2-5-pro-tts。