Gemini 3.1 Flash TTS | EmpirioLabs AI Docs

Google · Audio Generation

POST /v1/audio/speech

高度可控的语音转语音系统，配备新的音频标签，支持精准的风格、语调、节奏和跨越旁白、助理和语音应用的表达。

一眼看

场地	价值
型号ID	`gemini-3-1-flash-tts`
车型发布日期	2026-04-13
输入模态	正文
输出模态	音频
上下文窗口	-
重量精度	-
特色	text_to_speech，multi_speaker，多语言
本土推断	不
新	是的
支持的端点	`POST /v1/audio/speech`

定价

冲锋	规格	速率
输入	每100万个提示词标记	$2.60
输出	每100万个生成代币	$52.00

示例请求

$ curl https://api.empiriolabs.ai/v1/audio/speech \
>   -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
>   -H 'Content-Type: application/json' \
>   -d '{"model": "gemini-3-1-flash-tts", "input": "Hello from EmpirioLabs."}'

参数

参数	类型	必修	默认	描述
`input`	弦	是的	-	文本转换为语音。对于多扬声器模式，前缀线路应加 Speaker1： / Speaker2：。
`mode`	枚举	不	`"single"`	单声部=一声部，多重部=双部对话（使用人声+声音2+说话者名称）。·允许：`single`，`multi`
`language`	弦	不	`"en-US"`	BCP-47 语言标签（en-US、es-ES 等），用于发音线索。
`voice`	枚举	不	`"Charon"`	主要声音名（例如Kore、Puck、Aoede）。默认时留空。·允许：`Zephyr`、`Puck`、`Charon`、`Kore`、`Fenrir`、`Leda`、`Orus`、`Aoede`、`Callirrhoe`、`Autonoe`、`Enceladus`、`Iapetus`、`Umbriel`、`Algieba`、`Despina`、`Erinome`、`Algenib`、`Rasalgethi`、`Laomedeia`， `Achernar`，`Alnilam`，`Schedar`，`Gacrux`，`Pulcherrima`，`Achird`，`Zubenelgenubi`，`Vindemiatrix`，`Sadachbia`，`Sadaltager`，`Sulafat`
`voice2`	枚举	不	`"Kore"`	多扬声器模式的第二个语音名称。·允许：`Zephyr`、`Puck`、`Charon`、`Kore`、`Fenrir`、`Leda`、`Orus`、`Aoede`、`Callirrhoe`、`Autonoe`、`Enceladus`、`Iapetus`、`Umbriel`、`Algieba`、`Despina`、`Erinome`、`Algenib`、`Rasalgethi`、`Laomedeia`， `Achernar`，`Alnilam`，`Schedar`，`Gacrux`，`Pulcherrima`，`Achird`，`Zubenelgenubi`，`Vindemiatrix`，`Sadachbia`，`Sadaltager`，`Sulafat`
`speaker1_name`	弦	不	`"Speaker1"`	显示名称用于扬声器1的输入前缀（默认：Speaker1）。
`speaker2_name`	弦	不	`"Speaker2"`	扬声器2输入前缀中使用的显示名称（默认：Speaker2）。
`output_format`	枚举	不	`"WAV"`	音频文件格式（mp3、wav、opus、flac等）。·允许：`WAV`、`MP3`、`OGG`、`ALAW`、`MULAW`
`speed`	人数	不	`1.0`	播放速度。1.0 = 自然;<1慢，>1快。·射程：0.25 – 2.0
`volume_gain`	人数	不	`0`	输出增益以dB为单位。0 = 不变。·射程：-96 – 16
`sample_rate`	枚举	不	`"24000"`	输出采样率以Hz为单位（8000、16000、24000、44100、48000）。·允许：`8000`、`16000`、`22050`、`24000`、`44100`、`48000`
`style_prompt`	弦	不	-	自然语言风格的引导（例如“温暖、对话式”或“新闻播报员，严肃”）。

注释

迄今为止最易控制的双子座TTS。

极限

文本+样式提示：每个4,000字节（总共8,000字节）
最大输出：~10分钟
音频计费：~25个令牌/秒（~15chars/s）
语言是自动检测的;语言设置只是提示，不是约束

内联音频标签（控制传输）

情绪：[whispers]、[shouts]、[laughs]、[sighs]、[cheerful]、[sad]、[angry]等。
配速：[slow]、[fast]、[extremely fast]、[normal pace]
停顿：[short pause]，[long pause]，[breath]
强调：[softly]、[loudly]、[high pitch]、[low pitch]、[rising tone]、[falling tone]

Machine可读模式： GET https://api.empiriolabs.ai/v1/models/gemini-3-1-flash-tts。