Gemini 3.1 Flash TTS

Google · Audio Generation
POST /v1/audio/speechHochkontrollierbares TTS mit neuen Audio-Tags für präzisen Stil, Ton, Tempo und Vortrag über Erzählung, Assistenten und Sprach-Apps.
Auf einen Blick
Preisgestaltung
Beispielanfrage
Parameter
Anmerkungen
Das bisher am meisten steuerbare Gemini-TTS.
Grenzen
- Text + Stil-Prompt: je 4.000 Bytes (insgesamt 8.000)
- Maximale Leistung: ~10 Minuten
- Audioabrechnung: ~25 Token pro Sekunde (~15 chars/s)
- Sprache wird automatisch erkannt; Die Spracheinstellung ist ein Hinweis, keine Einschränkung
Inline-Audio-Tags (Steuerungslieferung)
- Emotion:
[whispers],[shouts],[laughs],[sighs],[cheerful],[sad],[angry]usw. - Tempo:
[slow],[fast],[extremely fast],[normal pace] - Pausen:
[short pause],[long pause],[breath] - Hervorhebung:
[softly],[loudly],[high pitch],[low pitch],[rising tone],[falling tone]
Machine-lesbares Schema: GET https://api.empiriolabs.ai/v1/models/gemini-3-1-flash-tts.
