Gemini 2.5 Flash TTS

Gemini 2.5 Flash TTS
Google · Audio Generation
POST /v1/audio/speech

Baja latencia text-to-speech con voces de un y varios altavoces y estilo, acento y tono expresivo controlables para aplicaciones de producción.

A simple vista

CampoValor
ID de modelogemini-2-5-flash-tts
Fecha de lanzamiento del modelo2025-05-20
Modalidades de entradaTexto
Modalidades de salidaAudio
Ventana de contexto-
Precisión del peso-
Característicastext_to_speech, multi_speaker, multilingüe
Inferencia nativaNo
NuevoNo
Puntos finales soportadosPOST /v1/audio/speech

Precios

CargaEspecificacionesTarifa
Entradapor 1M de fichas de prompt$1.50
Producciónpor cada 1M de tokens generados$30.00

Solicitud de ejemplo

$curl https://api.empiriolabs.ai/v1/audio/speech \
> -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
> -H 'Content-Type: application/json' \
> -d '{"model": "gemini-2-5-flash-tts", "input": "Hello from EmpirioLabs."}'

Parámetros

ParámetroTipoObligatorioDefaultDescripción
inputCuerda-Texto para convertir a voz. Para el modo multialtavoz, prefija las líneas con Speaker1: / Speaker2:.
modeenumno"single"Una = una voz, Múltiples = Diálogo a dos voces (usa voz + voz2 + nombres de los altavoces). · Permitidos: single, multi
languageCuerdano"en-US"Etiqueta de idioma BCP-47 (en-US, es-ES, etc.) para señales de pronunciación.
voiceenumno"Charon"Nombre principal de voz (por ejemplo, Kore, Puck, Aoede). Deja en blanco para el valor predeterminado. · Permitidos: Zephyr, Puck, Charon, Kore, Fenrir, Leda, Orus, Aoede, Callirrhoe, Autonoe, Enceladus, Iapetus, Umbriel, Algieba, Despina, Erinome, Algenib, Rasalgethi, Laomedeia, Achernar, Alnilam, Schedar, Gacrux, Pulcherrima, Achird, Zubenelgenubi, Vindemiatrix, Sadachbia, Sadaltager, Sulafat
voice2enumno"Kore"Segundo nombre de voz para el modo multialtavoz. · Permitidos: Zephyr, Puck, Charon, Kore, Fenrir, Leda, Orus, Aoede, Callirrhoe, Autonoe, Enceladus, Iapetus, Umbriel, Algieba, Despina, Erinome, Algenib, Rasalgethi, Laomedeia, Achernar, Alnilam, Schedar, Gacrux, Pulcherrima, Achird, Zubenelgenubi, Vindemiatrix, Sadachbia, Sadaltager, Sulafat
speaker1_nameCuerdano"Speaker1"Nombre de pantalla usado en el prefijo de entrada para altavoz 1 (por defecto: Speaker1).
speaker2_nameCuerdano"Speaker2"Nombre de pantalla usado en el prefijo de entrada para altavoz 2 (por defecto: Altavoz 2).
output_formatenumno"WAV"Formato de archivo de audio (mp3, wav, opus, flac, etc.). · Permitidos: WAV, MP3, OGG, ALAW, MULAW
speedNúmerono1.0Velocidad de reproducción. 1.0 = natural; <1 más lento, >1 más rápido. · Rango: 0,25 – 2,0
volume_gainNúmerono0Ganancia de salida en dB. 0 = sin cambios. · Rango: -96 – 16
sample_rateenumno"24000"Frecuencia de muestreo de salida en Hz (8000, 16000, 24000, 44100, 48000). · Permitidos: 8000, 16000, 22050, 24000, 44100, 48000
style_promptCuerdano-Dirección de estilo en lenguaje natural (por ejemplo, “cálido, conversacional” o “presentador de noticias, serio”).

Notas

Modos

  • Altavoz único
  • Multialtavoz (máximo 2 voces) - el texto debe estar en formato SpeakerName: text

Límites

  • Prompt de texto + estilo: 4.000 bytes cada uno
  • Facturación de audio: ~32 tokens por segundo de audio generado (~10-15 chars/s)

Voces e idiomas

  • 30+ opciones de voz entre emotional/tonal personajes
  • Se soportan 24+ localidades de idiomas

Formatos de salida

  • MP3, WAV, OGG

Machine-legible esquema: GET https://api.empiriolabs.ai/v1/models/gemini-2-5-flash-tts.