Gemini 3.1 Flash TTS | EmpirioLabs AI Docs

Google · Audio Generation

POST /v1/audio/speech

TTS hautement contrôlable avec de nouvelles balises audio pour un style, un ton, un rythme et une livraison précis via narration, assistants et applications vocales.

En un coup d’œil

Terrain	Valeur
Identifiant de modèle	`gemini-3-1-flash-tts`
Date de sortie du modèle	2026-04-13
Modalités d’entrée	Texte
Modalités de sortie	Audio
Fenêtre de contexte	-
Précision du poids	-
Caractéristiques	text_to_speech, multi_speaker, multilingue
Inférence autochtone	Non
Nouveau	Oui
Points de terminaison pris en charge	`POST /v1/audio/speech`

Tarification

Charge	Spec	Taux
Entrée	par 1M de jetons d’invite	$2.60
Production	par 1M de jetons générés	$52.00

Exemple de demande

$ curl https://api.empiriolabs.ai/v1/audio/speech \
>   -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
>   -H 'Content-Type: application/json' \
>   -d '{"model": "gemini-3-1-flash-tts", "input": "Hello from EmpirioLabs."}'

Paramètres

Paramètre	Type	Obligatoire	Par défaut	Description
`input`	Corde	Oui	-	Texte à convertir en parole. Pour le mode multi-haut-parleurs, préfixez les lignes avec Speaker1: / Speaker2:.
`mode`	enum	non	`"single"`	Simple = une voix, multi = dialogue à deux voix (utilise voix + voix2 + noms des locuteurs). · Autorisé: `single`, `multi`
`language`	Corde	non	`"en-US"`	Étiquette linguistique BCP-47 (EN-US, es-ES, etc.) pour les indices de prononciation.
`voice`	enum	non	`"Charon"`	Nom principal de la voix (par exemple Kore, Puck, Aoede). Laissez vide pour le défaut. · Autorisé: `Zephyr`, `Puck`, `Charon`, `Kore`, `Fenrir`, `Leda`, `Orus`, `Aoede`, `Callirrhoe`, `Autonoe`, `Enceladus`, `Iapetus`, `Umbriel`, `Algieba`, `Despina`, `Erinome`, `Algenib`, `Rasalgethi`, `Laomedeia`, `Achernar`, `Alnilam`, `Schedar`, `Gacrux`, `Pulcherrima`, `Achird`, `Zubenelgenubi`, `Vindemiatrix`, `Sadachbia`, `Sadaltager`, `Sulafat`
`voice2`	enum	non	`"Kore"`	Second nom vocal pour le mode multi-haut-parleurs. · Autorisé: `Zephyr`, `Puck`, `Charon`, `Kore`, `Fenrir`, `Leda`, `Orus`, `Aoede`, `Callirrhoe`, `Autonoe`, `Enceladus`, `Iapetus`, `Umbriel`, `Algieba`, `Despina`, `Erinome`, `Algenib`, `Rasalgethi`, `Laomedeia`, `Achernar`, `Alnilam`, `Schedar`, `Gacrux`, `Pulcherrima`, `Achird`, `Zubenelgenubi`, `Vindemiatrix`, `Sadachbia`, `Sadaltager`, `Sulafat`
`speaker1_name`	Corde	non	`"Speaker1"`	Nom d’affichage utilisé dans le préfixe d’entrée pour le haut-parleur 1 (par défaut: haut-parleur 1).
`speaker2_name`	Corde	non	`"Speaker2"`	Nom d’affichage utilisé dans le préfixe d’entrée pour le haut-parleur 2 (par défaut: haut-parleur2).
`output_format`	enum	non	`"WAV"`	Format de fichier audio (mp3, wav, opus, flac, etc.). · Autorisé: `WAV`, `MP3`, `OGG`, `ALAW`, `MULAW`
`speed`	Nombre	non	`1.0`	Vitesse de lecture. 1.0 = naturel; <1 plus lent, >1 plus rapide. · Portée: 0,25 – 2,0
`volume_gain`	Nombre	non	`0`	Gain de sortie en dB. 0 = inchangé. · Plage: -96 – 16
`sample_rate`	enum	non	`"24000"`	Fréquence d’échantillonnage de sortie en Hz (8000, 16000, 24000, 44100, 48000). · Autorisé: `8000`, `16000`, `22050`, `24000`, `44100`, `48000`
`style_prompt`	Corde	non	-	Direction du style en langage naturel (par exemple « chaleureux, conversationnel » ou « présentateur de journaux, sérieux »).

Notes

Le TTS Gemini le plus contrôlable à ce jour.

Limites

Texte + invite de style: 4 000 octets chacun (8 000 combinés)
Sortie maximale: ~10 minutes
Facturation audio: ~25 jetons par seconde (~15 chars/s)
Le langage est détecté automatiquement; Le réglage linguistique est un indice, pas une contrainte

Balises audio en ligne (livraison de contrôle)

Émotion: [whispers], [shouts], [laughs], [sighs], [cheerful], [sad], [angry], etc.
Rythme: [slow], [fast], [extremely fast], [normal pace]
Pauses: [short pause], [long pause], [breath]
Emphase: [softly], [loudly], [high pitch], [low pitch], [rising tone], [falling tone]

_Machine schéma lisible: _ GET https://api.empiriolabs.ai/v1/models/gemini-3-1-flash-tts.