Gemini 3.1 Flash TTS

Gemini 3.1 Flash TTS
Google · Audio Generation
POST /v1/audio/speech

高度可控的语音转语音系统,配备新的音频标签,支持精准的风格、语调、节奏和跨越旁白、助理和语音应用的表达。

一眼看

场地价值
型号IDgemini-3-1-flash-tts
车型发布日期2026-04-13
输入模态正文
输出模态音频
上下文窗口-
重量精度-
特色text_to_speech,multi_speaker,多语言
本土推断
是的
支持的端点POST /v1/audio/speech

定价

冲锋规格速率
输入每100万个提示词标记$2.60
输出每100万个生成代币$52.00

示例请求

$curl https://api.empiriolabs.ai/v1/audio/speech \
> -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
> -H 'Content-Type: application/json' \
> -d '{"model": "gemini-3-1-flash-tts", "input": "Hello from EmpirioLabs."}'

参数

参数类型必修默认描述
input是的-文本转换为语音。对于多扬声器模式,前缀线路应加 Speaker1: / Speaker2: 。
mode枚举"single"单声部=一声部,多重部=双部对话(使用人声+声音2+说话者名称)。·允许:singlemulti
language"en-US"BCP-47 语言标签(en-US、es-ES 等),用于发音线索。
voice枚举"Charon"主要声音名(例如Kore、Puck、Aoede)。默认时留空。·允许:ZephyrPuckCharonKoreFenrirLedaOrusAoedeCallirrhoeAutonoeEnceladusIapetusUmbrielAlgiebaDespinaErinomeAlgenibRasalgethiLaomedeiaAchernarAlnilamSchedarGacruxPulcherrimaAchirdZubenelgenubiVindemiatrixSadachbiaSadaltagerSulafat
voice2枚举"Kore"多扬声器模式的第二个语音名称。·允许:ZephyrPuckCharonKoreFenrirLedaOrusAoedeCallirrhoeAutonoeEnceladusIapetusUmbrielAlgiebaDespinaErinomeAlgenibRasalgethiLaomedeiaAchernarAlnilamSchedarGacruxPulcherrimaAchirdZubenelgenubiVindemiatrixSadachbiaSadaltagerSulafat
speaker1_name"Speaker1"显示名称用于扬声器1的输入前缀(默认:Speaker1)。
speaker2_name"Speaker2"扬声器2输入前缀中使用的显示名称(默认:Speaker2)。
output_format枚举"WAV"音频文件格式(mp3、wav、opus、flac等)。·允许:WAVMP3OGGALAWMULAW
speed人数1.0播放速度。1.0 = 自然;<1慢,>1快。·射程:0.25 – 2.0
volume_gain人数0输出增益以dB为单位。0 = 不变。·射程:-96 – 16
sample_rate枚举"24000"输出采样率以Hz为单位(8000、16000、24000、44100、48000)。·允许:80001600022050240004410048000
style_prompt-自然语言风格的引导(例如“温暖、对话式”或“新闻播报员,严肃”)。

注释

迄今为止最易控制的双子座TTS。

极限

  • 文本+样式提示:每个4,000字节(总共8,000字节)
  • 最大输出:~10分钟
  • 音频计费:~25个令牌/秒(~15chars/s)
  • 语言是自动检测的;语言设置只是提示,不是约束

内联音频标签(控制传输)

  • 情绪:[whispers][shouts][laughs][sighs][cheerful][sad][angry]等。
  • 配速:[slow][fast][extremely fast][normal pace]
  • 停顿:[short pause][long pause][breath]
  • 强调:[softly][loudly][high pitch][low pitch][rising tone][falling tone]

Machine可读模式: GET https://api.empiriolabs.ai/v1/models/gemini-3-1-flash-tts