Gemini 2.5 Flash TTS | EmpirioLabs AI Docs

Google · Audio Generation

POST /v1/audio/speech

Faible latence text-to-speech avec voix à un ou plusieurs haut-parleurs, ainsi qu’un style, un accent et un ton expressif contrôlables pour les applications de production.

En un coup d’œil

Terrain	Valeur
Identifiant de modèle	`gemini-2-5-flash-tts`
Date de sortie du modèle	2025-05-20
Modalités d’entrée	Texte
Modalités de sortie	Audio
Fenêtre de contexte	-
Précision du poids	-
Caractéristiques	text_to_speech, multi_speaker, multilingue
Inférence autochtone	Non
Nouveau	Non
Points de terminaison pris en charge	`POST /v1/audio/speech`

Tarification

Charge	Spec	Taux
Entrée	par 1M de jetons d’invite	$1.50
Production	par 1M de jetons générés	$30.00

Exemple de demande

$ curl https://api.empiriolabs.ai/v1/audio/speech \
>   -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
>   -H 'Content-Type: application/json' \
>   -d '{"model": "gemini-2-5-flash-tts", "input": "Hello from EmpirioLabs."}'

Paramètres

Paramètre	Type	Obligatoire	Par défaut	Description
`input`	Corde	Oui	-	Texte à convertir en parole. Pour le mode multi-haut-parleurs, préfixez les lignes avec Speaker1: / Speaker2:.
`mode`	enum	non	`"single"`	Simple = une voix, multi = dialogue à deux voix (utilise voix + voix2 + noms des locuteurs). · Autorisé: `single`, `multi`
`language`	Corde	non	`"en-US"`	Étiquette linguistique BCP-47 (EN-US, es-ES, etc.) pour les indices de prononciation.
`voice`	enum	non	`"Charon"`	Nom principal de la voix (par exemple Kore, Puck, Aoede). Laissez vide pour le défaut. · Autorisé: `Zephyr`, `Puck`, `Charon`, `Kore`, `Fenrir`, `Leda`, `Orus`, `Aoede`, `Callirrhoe`, `Autonoe`, `Enceladus`, `Iapetus`, `Umbriel`, `Algieba`, `Despina`, `Erinome`, `Algenib`, `Rasalgethi`, `Laomedeia`, `Achernar`, `Alnilam`, `Schedar`, `Gacrux`, `Pulcherrima`, `Achird`, `Zubenelgenubi`, `Vindemiatrix`, `Sadachbia`, `Sadaltager`, `Sulafat`
`voice2`	enum	non	`"Kore"`	Second nom vocal pour le mode multi-haut-parleurs. · Autorisé: `Zephyr`, `Puck`, `Charon`, `Kore`, `Fenrir`, `Leda`, `Orus`, `Aoede`, `Callirrhoe`, `Autonoe`, `Enceladus`, `Iapetus`, `Umbriel`, `Algieba`, `Despina`, `Erinome`, `Algenib`, `Rasalgethi`, `Laomedeia`, `Achernar`, `Alnilam`, `Schedar`, `Gacrux`, `Pulcherrima`, `Achird`, `Zubenelgenubi`, `Vindemiatrix`, `Sadachbia`, `Sadaltager`, `Sulafat`
`speaker1_name`	Corde	non	`"Speaker1"`	Nom d’affichage utilisé dans le préfixe d’entrée pour le haut-parleur 1 (par défaut: haut-parleur 1).
`speaker2_name`	Corde	non	`"Speaker2"`	Nom d’affichage utilisé dans le préfixe d’entrée pour le haut-parleur 2 (par défaut: haut-parleur2).
`output_format`	enum	non	`"WAV"`	Format de fichier audio (mp3, wav, opus, flac, etc.). · Autorisé: `WAV`, `MP3`, `OGG`, `ALAW`, `MULAW`
`speed`	Nombre	non	`1.0`	Vitesse de lecture. 1.0 = naturel; <1 plus lent, >1 plus rapide. · Portée: 0,25 – 2,0
`volume_gain`	Nombre	non	`0`	Gain de sortie en dB. 0 = inchangé. · Plage: -96 – 16
`sample_rate`	enum	non	`"24000"`	Fréquence d’échantillonnage de sortie en Hz (8000, 16000, 24000, 44100, 48000). · Autorisé: `8000`, `16000`, `22050`, `24000`, `44100`, `48000`
`style_prompt`	Corde	non	-	Direction du style en langage naturel (par exemple « chaleureux, conversationnel » ou « présentateur de journaux, sérieux »).

Notes

Modes

Haut-parleur unique
Multi-haut-parleur (maximum 2 voix) - le texte doit être au format SpeakerName: text

Limites

Texte + invite de style: 4 000 octets chacun
Facturation audio: ~32 jetons par seconde d’audio généré (~10-15 chars/s)

Voix et langues

30+ options de voix réparties sur emotional/tonal personnages
24+ emplacements linguistiques pris en charge

Formats de sortie

MP3, WAV, OGG

_Machine schéma lisible: _ GET https://api.empiriolabs.ai/v1/models/gemini-2-5-flash-tts.