Gemini 3.1 Flash TTS

Google · Audio Generation
POST /v1/audio/speechTTS hautement contrôlable avec de nouvelles balises audio pour un style, un ton, un rythme et une livraison précis via narration, assistants et applications vocales.
En un coup d’œil
Tarification
Exemple de demande
Paramètres
Notes
Le TTS Gemini le plus contrôlable à ce jour.
Limites
- Texte + invite de style: 4 000 octets chacun (8 000 combinés)
- Sortie maximale: ~10 minutes
- Facturation audio: ~25 jetons par seconde (~15 chars/s)
- Le langage est détecté automatiquement; Le réglage linguistique est un indice, pas une contrainte
Balises audio en ligne (livraison de contrôle)
- Émotion:
[whispers],[shouts],[laughs],[sighs],[cheerful],[sad],[angry], etc. - Rythme:
[slow],[fast],[extremely fast],[normal pace] - Pauses:
[short pause],[long pause],[breath] - Emphase:
[softly],[loudly],[high pitch],[low pitch],[rising tone],[falling tone]
_Machine schéma lisible: _ GET https://api.empiriolabs.ai/v1/models/gemini-3-1-flash-tts.
