Gemini 3.1 Flash TTS

Gemini 3.1 Flash TTS
Google · Audio Generation
POST /v1/audio/speech

TTS altamente controlable con nuevas etiquetas de audio para un estilo, tono, ritmo y entrega precisos en narración, asistentes y aplicaciones de voz.

A simple vista

CampoValor
ID de modelogemini-3-1-flash-tts
Fecha de lanzamiento del modelo2026-04-13
Modalidades de entradaTexto
Modalidades de salidaAudio
Ventana de contexto-
Precisión del peso-
Característicastext_to_speech, multi_speaker, multilingüe
Inferencia nativaNo
Nuevo
Puntos finales soportadosPOST /v1/audio/speech

Precios

CargaEspecificacionesTarifa
Entradapor 1M de fichas de prompt$2.60
Producciónpor cada 1M de tokens generados$52.00

Solicitud de ejemplo

$curl https://api.empiriolabs.ai/v1/audio/speech \
> -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
> -H 'Content-Type: application/json' \
> -d '{"model": "gemini-3-1-flash-tts", "input": "Hello from EmpirioLabs."}'

Parámetros

ParámetroTipoObligatorioDefaultDescripción
inputCuerda-Texto para convertir a voz. Para el modo multialtavoz, prefija las líneas con Speaker1: / Speaker2:.
modeenumno"single"Una = una voz, Múltiples = Diálogo a dos voces (usa voz + voz2 + nombres de los altavoces). · Permitidos: single, multi
languageCuerdano"en-US"Etiqueta de idioma BCP-47 (en-US, es-ES, etc.) para señales de pronunciación.
voiceenumno"Charon"Nombre principal de voz (por ejemplo, Kore, Puck, Aoede). Deja en blanco para el valor predeterminado. · Permitidos: Zephyr, Puck, Charon, Kore, Fenrir, Leda, Orus, Aoede, Callirrhoe, Autonoe, Enceladus, Iapetus, Umbriel, Algieba, Despina, Erinome, Algenib, Rasalgethi, Laomedeia, Achernar, Alnilam, Schedar, Gacrux, Pulcherrima, Achird, Zubenelgenubi, Vindemiatrix, Sadachbia, Sadaltager, Sulafat
voice2enumno"Kore"Segundo nombre de voz para el modo multialtavoz. · Permitidos: Zephyr, Puck, Charon, Kore, Fenrir, Leda, Orus, Aoede, Callirrhoe, Autonoe, Enceladus, Iapetus, Umbriel, Algieba, Despina, Erinome, Algenib, Rasalgethi, Laomedeia, Achernar, Alnilam, Schedar, Gacrux, Pulcherrima, Achird, Zubenelgenubi, Vindemiatrix, Sadachbia, Sadaltager, Sulafat
speaker1_nameCuerdano"Speaker1"Nombre de pantalla usado en el prefijo de entrada para altavoz 1 (por defecto: Speaker1).
speaker2_nameCuerdano"Speaker2"Nombre de pantalla usado en el prefijo de entrada para altavoz 2 (por defecto: Altavoz 2).
output_formatenumno"WAV"Formato de archivo de audio (mp3, wav, opus, flac, etc.). · Permitidos: WAV, MP3, OGG, ALAW, MULAW
speedNúmerono1.0Velocidad de reproducción. 1.0 = natural; <1 más lento, >1 más rápido. · Rango: 0,25 – 2,0
volume_gainNúmerono0Ganancia de salida en dB. 0 = sin cambios. · Rango: -96 – 16
sample_rateenumno"24000"Frecuencia de muestreo de salida en Hz (8000, 16000, 24000, 44100, 48000). · Permitidos: 8000, 16000, 22050, 24000, 44100, 48000
style_promptCuerdano-Dirección de estilo en lenguaje natural (por ejemplo, “cálido, conversacional” o “presentador de noticias, serio”).

Notas

El TTS Gemini más controlable hasta la fecha.

Límites

  • Prompt de texto + estilo: 4.000 bytes cada uno (8.000 combinados)
  • Potencia máxima: ~10 minutos
  • Facturación de audio: ~25 tokens por segundo (~15 chars/s)
  • El lenguaje se detecta automáticamente; El ajuste del idioma es una pista, no una restricción

Etiquetas de audio en línea (entrega controlada)

  • Emoción: [whispers], [shouts], [laughs], [sighs], [cheerful], [sad], [angry], etc.
  • Ritmo: [slow], [fast], [extremely fast], [normal pace]
  • Pausas: [short pause], [long pause], [breath]
  • Énfasis: [softly], [loudly], [high pitch], [low pitch], [rising tone], [falling tone]

Machine-legible esquema: GET https://api.empiriolabs.ai/v1/models/gemini-3-1-flash-tts.