Gemini 3.1 Flash TTS | EmpirioLabs AI Docs

Google · Audio Generation

POST /v1/audio/speech

TTS altamente controlable con nuevas etiquetas de audio para un estilo, tono, ritmo y entrega precisos en narración, asistentes y aplicaciones de voz.

A simple vista

Campo	Valor
ID de modelo	`gemini-3-1-flash-tts`
Fecha de lanzamiento del modelo	2026-04-13
Modalidades de entrada	Texto
Modalidades de salida	Audio
Ventana de contexto	-
Precisión del peso	-
Características	text_to_speech, multi_speaker, multilingüe
Inferencia nativa	No
Nuevo	Sí
Puntos finales soportados	`POST /v1/audio/speech`

Precios

Carga	Especificaciones	Tarifa
Entrada	por 1M de fichas de prompt	$2.60
Producción	por cada 1M de tokens generados	$52.00

Solicitud de ejemplo

$ curl https://api.empiriolabs.ai/v1/audio/speech \
>   -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
>   -H 'Content-Type: application/json' \
>   -d '{"model": "gemini-3-1-flash-tts", "input": "Hello from EmpirioLabs."}'

Parámetros

Parámetro	Tipo	Obligatorio	Default	Descripción
`input`	Cuerda	Sí	-	Texto para convertir a voz. Para el modo multialtavoz, prefija las líneas con Speaker1: / Speaker2:.
`mode`	enum	no	`"single"`	Una = una voz, Múltiples = Diálogo a dos voces (usa voz + voz2 + nombres de los altavoces). · Permitidos: `single`, `multi`
`language`	Cuerda	no	`"en-US"`	Etiqueta de idioma BCP-47 (en-US, es-ES, etc.) para señales de pronunciación.
`voice`	enum	no	`"Charon"`	Nombre principal de voz (por ejemplo, Kore, Puck, Aoede). Deja en blanco para el valor predeterminado. · Permitidos: `Zephyr`, `Puck`, `Charon`, `Kore`, `Fenrir`, `Leda`, `Orus`, `Aoede`, `Callirrhoe`, `Autonoe`, `Enceladus`, `Iapetus`, `Umbriel`, `Algieba`, `Despina`, `Erinome`, `Algenib`, `Rasalgethi`, `Laomedeia`, `Achernar`, `Alnilam`, `Schedar`, `Gacrux`, `Pulcherrima`, `Achird`, `Zubenelgenubi`, `Vindemiatrix`, `Sadachbia`, `Sadaltager`, `Sulafat`
`voice2`	enum	no	`"Kore"`	Segundo nombre de voz para el modo multialtavoz. · Permitidos: `Zephyr`, `Puck`, `Charon`, `Kore`, `Fenrir`, `Leda`, `Orus`, `Aoede`, `Callirrhoe`, `Autonoe`, `Enceladus`, `Iapetus`, `Umbriel`, `Algieba`, `Despina`, `Erinome`, `Algenib`, `Rasalgethi`, `Laomedeia`, `Achernar`, `Alnilam`, `Schedar`, `Gacrux`, `Pulcherrima`, `Achird`, `Zubenelgenubi`, `Vindemiatrix`, `Sadachbia`, `Sadaltager`, `Sulafat`
`speaker1_name`	Cuerda	no	`"Speaker1"`	Nombre de pantalla usado en el prefijo de entrada para altavoz 1 (por defecto: Speaker1).
`speaker2_name`	Cuerda	no	`"Speaker2"`	Nombre de pantalla usado en el prefijo de entrada para altavoz 2 (por defecto: Altavoz 2).
`output_format`	enum	no	`"WAV"`	Formato de archivo de audio (mp3, wav, opus, flac, etc.). · Permitidos: `WAV`, `MP3`, `OGG`, `ALAW`, `MULAW`
`speed`	Número	no	`1.0`	Velocidad de reproducción. 1.0 = natural; <1 más lento, >1 más rápido. · Rango: 0,25 – 2,0
`volume_gain`	Número	no	`0`	Ganancia de salida en dB. 0 = sin cambios. · Rango: -96 – 16
`sample_rate`	enum	no	`"24000"`	Frecuencia de muestreo de salida en Hz (8000, 16000, 24000, 44100, 48000). · Permitidos: `8000`, `16000`, `22050`, `24000`, `44100`, `48000`
`style_prompt`	Cuerda	no	-	Dirección de estilo en lenguaje natural (por ejemplo, “cálido, conversacional” o “presentador de noticias, serio”).

Notas

El TTS Gemini más controlable hasta la fecha.

Límites

Prompt de texto + estilo: 4.000 bytes cada uno (8.000 combinados)
Potencia máxima: ~10 minutos
Facturación de audio: ~25 tokens por segundo (~15 chars/s)
El lenguaje se detecta automáticamente; El ajuste del idioma es una pista, no una restricción

Etiquetas de audio en línea (entrega controlada)

Emoción: [whispers], [shouts], [laughs], [sighs], [cheerful], [sad], [angry], etc.
Ritmo: [slow], [fast], [extremely fast], [normal pace]
Pausas: [short pause], [long pause], [breath]
Énfasis: [softly], [loudly], [high pitch], [low pitch], [rising tone], [falling tone]

Machine-legible esquema: GET https://api.empiriolabs.ai/v1/models/gemini-3-1-flash-tts.