Gemini 3.1 Flash TTS

Gemini 3.1 Flash TTS
Google · Audio Generation
POST /v1/audio/speech

TTS hautement contrôlable avec de nouvelles balises audio pour un style, un ton, un rythme et une livraison précis via narration, assistants et applications vocales.

En un coup d’œil

TerrainValeur
Identifiant de modèlegemini-3-1-flash-tts
Date de sortie du modèle2026-04-13
Modalités d’entréeTexte
Modalités de sortieAudio
Fenêtre de contexte-
Précision du poids-
Caractéristiquestext_to_speech, multi_speaker, multilingue
Inférence autochtoneNon
NouveauOui
Points de terminaison pris en chargePOST /v1/audio/speech

Tarification

ChargeSpecTaux
Entréepar 1M de jetons d’invite$2.60
Productionpar 1M de jetons générés$52.00

Exemple de demande

$curl https://api.empiriolabs.ai/v1/audio/speech \
> -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
> -H 'Content-Type: application/json' \
> -d '{"model": "gemini-3-1-flash-tts", "input": "Hello from EmpirioLabs."}'

Paramètres

ParamètreTypeObligatoirePar défautDescription
inputCordeOui-Texte à convertir en parole. Pour le mode multi-haut-parleurs, préfixez les lignes avec Speaker1: / Speaker2:.
modeenumnon"single"Simple = une voix, multi = dialogue à deux voix (utilise voix + voix2 + noms des locuteurs). · Autorisé: single, multi
languageCordenon"en-US"Étiquette linguistique BCP-47 (EN-US, es-ES, etc.) pour les indices de prononciation.
voiceenumnon"Charon"Nom principal de la voix (par exemple Kore, Puck, Aoede). Laissez vide pour le défaut. · Autorisé: Zephyr, Puck, Charon, Kore, Fenrir, Leda, Orus, Aoede, Callirrhoe, Autonoe, Enceladus, Iapetus, Umbriel, Algieba, Despina, Erinome, Algenib, Rasalgethi, Laomedeia, Achernar, Alnilam, Schedar, Gacrux, Pulcherrima, Achird, Zubenelgenubi, Vindemiatrix, Sadachbia, Sadaltager, Sulafat
voice2enumnon"Kore"Second nom vocal pour le mode multi-haut-parleurs. · Autorisé: Zephyr, Puck, Charon, Kore, Fenrir, Leda, Orus, Aoede, Callirrhoe, Autonoe, Enceladus, Iapetus, Umbriel, Algieba, Despina, Erinome, Algenib, Rasalgethi, Laomedeia, Achernar, Alnilam, Schedar, Gacrux, Pulcherrima, Achird, Zubenelgenubi, Vindemiatrix, Sadachbia, Sadaltager, Sulafat
speaker1_nameCordenon"Speaker1"Nom d’affichage utilisé dans le préfixe d’entrée pour le haut-parleur 1 (par défaut: haut-parleur 1).
speaker2_nameCordenon"Speaker2"Nom d’affichage utilisé dans le préfixe d’entrée pour le haut-parleur 2 (par défaut: haut-parleur2).
output_formatenumnon"WAV"Format de fichier audio (mp3, wav, opus, flac, etc.). · Autorisé: WAV, MP3, OGG, ALAW, MULAW
speedNombrenon1.0Vitesse de lecture. 1.0 = naturel; <1 plus lent, >1 plus rapide. · Portée: 0,25 – 2,0
volume_gainNombrenon0Gain de sortie en dB. 0 = inchangé. · Plage: -96 – 16
sample_rateenumnon"24000"Fréquence d’échantillonnage de sortie en Hz (8000, 16000, 24000, 44100, 48000). · Autorisé: 8000, 16000, 22050, 24000, 44100, 48000
style_promptCordenon-Direction du style en langage naturel (par exemple « chaleureux, conversationnel » ou « présentateur de journaux, sérieux »).

Notes

Le TTS Gemini le plus contrôlable à ce jour.

Limites

  • Texte + invite de style: 4 000 octets chacun (8 000 combinés)
  • Sortie maximale: ~10 minutes
  • Facturation audio: ~25 jetons par seconde (~15 chars/s)
  • Le langage est détecté automatiquement; Le réglage linguistique est un indice, pas une contrainte

Balises audio en ligne (livraison de contrôle)

  • Émotion: [whispers], [shouts], [laughs], [sighs], [cheerful], [sad], [angry], etc.
  • Rythme: [slow], [fast], [extremely fast], [normal pace]
  • Pauses: [short pause], [long pause], [breath]
  • Emphase: [softly], [loudly], [high pitch], [low pitch], [rising tone], [falling tone]

_Machine schéma lisible: _ GET https://api.empiriolabs.ai/v1/models/gemini-3-1-flash-tts.