Gemini 3.1 Flash TTS

Google · Audio Generation
POST /v1/audio/speech高度可控的语音转语音系统,配备新的音频标签,支持精准的风格、语调、节奏和跨越旁白、助理和语音应用的表达。
一眼看
定价
示例请求
参数
注释
迄今为止最易控制的双子座TTS。
极限
- 文本+样式提示:每个4,000字节(总共8,000字节)
- 最大输出:~10分钟
- 音频计费:~25个令牌/秒(~15chars/s)
- 语言是自动检测的;语言设置只是提示,不是约束
内联音频标签(控制传输)
- 情绪:
[whispers]、[shouts]、[laughs]、[sighs]、[cheerful]、[sad]、[angry]等。 - 配速:
[slow]、[fast]、[extremely fast]、[normal pace] - 停顿:
[short pause],[long pause],[breath] - 强调:
[softly]、[loudly]、[high pitch]、[low pitch]、[rising tone]、[falling tone]
Machine可读模式: GET https://api.empiriolabs.ai/v1/models/gemini-3-1-flash-tts。
