Gemini 3.1 Flash TTS

Google · Audio Generation
POST /v1/audio/speechTTS altamente controlable con nuevas etiquetas de audio para un estilo, tono, ritmo y entrega precisos en narración, asistentes y aplicaciones de voz.
A simple vista
Precios
Solicitud de ejemplo
Parámetros
Notas
El TTS Gemini más controlable hasta la fecha.
Límites
- Prompt de texto + estilo: 4.000 bytes cada uno (8.000 combinados)
- Potencia máxima: ~10 minutos
- Facturación de audio: ~25 tokens por segundo (~15 chars/s)
- El lenguaje se detecta automáticamente; El ajuste del idioma es una pista, no una restricción
Etiquetas de audio en línea (entrega controlada)
- Emoción:
[whispers],[shouts],[laughs],[sighs],[cheerful],[sad],[angry], etc. - Ritmo:
[slow],[fast],[extremely fast],[normal pace] - Pausas:
[short pause],[long pause],[breath] - Énfasis:
[softly],[loudly],[high pitch],[low pitch],[rising tone],[falling tone]
Machine-legible esquema: GET https://api.empiriolabs.ai/v1/models/gemini-3-1-flash-tts.
