Gemini 2.5 Flash TTS

Gemini 2.5 Flash TTS
Google · Audio Generation
POST /v1/audio/speech

Faible latence text-to-speech avec voix à un ou plusieurs haut-parleurs, ainsi qu’un style, un accent et un ton expressif contrôlables pour les applications de production.

En un coup d’œil

TerrainValeur
Identifiant de modèlegemini-2-5-flash-tts
Date de sortie du modèle2025-05-20
Modalités d’entréeTexte
Modalités de sortieAudio
Fenêtre de contexte-
Précision du poids-
Caractéristiquestext_to_speech, multi_speaker, multilingue
Inférence autochtoneNon
NouveauNon
Points de terminaison pris en chargePOST /v1/audio/speech

Tarification

ChargeSpecTaux
Entréepar 1M de jetons d’invite$1.50
Productionpar 1M de jetons générés$30.00

Exemple de demande

$curl https://api.empiriolabs.ai/v1/audio/speech \
> -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
> -H 'Content-Type: application/json' \
> -d '{"model": "gemini-2-5-flash-tts", "input": "Hello from EmpirioLabs."}'

Paramètres

ParamètreTypeObligatoirePar défautDescription
inputCordeOui-Texte à convertir en parole. Pour le mode multi-haut-parleurs, préfixez les lignes avec Speaker1: / Speaker2:.
modeenumnon"single"Simple = une voix, multi = dialogue à deux voix (utilise voix + voix2 + noms des locuteurs). · Autorisé: single, multi
languageCordenon"en-US"Étiquette linguistique BCP-47 (EN-US, es-ES, etc.) pour les indices de prononciation.
voiceenumnon"Charon"Nom principal de la voix (par exemple Kore, Puck, Aoede). Laissez vide pour le défaut. · Autorisé: Zephyr, Puck, Charon, Kore, Fenrir, Leda, Orus, Aoede, Callirrhoe, Autonoe, Enceladus, Iapetus, Umbriel, Algieba, Despina, Erinome, Algenib, Rasalgethi, Laomedeia, Achernar, Alnilam, Schedar, Gacrux, Pulcherrima, Achird, Zubenelgenubi, Vindemiatrix, Sadachbia, Sadaltager, Sulafat
voice2enumnon"Kore"Second nom vocal pour le mode multi-haut-parleurs. · Autorisé: Zephyr, Puck, Charon, Kore, Fenrir, Leda, Orus, Aoede, Callirrhoe, Autonoe, Enceladus, Iapetus, Umbriel, Algieba, Despina, Erinome, Algenib, Rasalgethi, Laomedeia, Achernar, Alnilam, Schedar, Gacrux, Pulcherrima, Achird, Zubenelgenubi, Vindemiatrix, Sadachbia, Sadaltager, Sulafat
speaker1_nameCordenon"Speaker1"Nom d’affichage utilisé dans le préfixe d’entrée pour le haut-parleur 1 (par défaut: haut-parleur 1).
speaker2_nameCordenon"Speaker2"Nom d’affichage utilisé dans le préfixe d’entrée pour le haut-parleur 2 (par défaut: haut-parleur2).
output_formatenumnon"WAV"Format de fichier audio (mp3, wav, opus, flac, etc.). · Autorisé: WAV, MP3, OGG, ALAW, MULAW
speedNombrenon1.0Vitesse de lecture. 1.0 = naturel; <1 plus lent, >1 plus rapide. · Portée: 0,25 – 2,0
volume_gainNombrenon0Gain de sortie en dB. 0 = inchangé. · Plage: -96 – 16
sample_rateenumnon"24000"Fréquence d’échantillonnage de sortie en Hz (8000, 16000, 24000, 44100, 48000). · Autorisé: 8000, 16000, 22050, 24000, 44100, 48000
style_promptCordenon-Direction du style en langage naturel (par exemple « chaleureux, conversationnel » ou « présentateur de journaux, sérieux »).

Notes

Modes

  • Haut-parleur unique
  • Multi-haut-parleur (maximum 2 voix) - le texte doit être au format SpeakerName: text

Limites

  • Texte + invite de style: 4 000 octets chacun
  • Facturation audio: ~32 jetons par seconde d’audio généré (~10-15 chars/s)

Voix et langues

  • 30+ options de voix réparties sur emotional/tonal personnages
  • 24+ emplacements linguistiques pris en charge

Formats de sortie

  • MP3, WAV, OGG

_Machine schéma lisible: _ GET https://api.empiriolabs.ai/v1/models/gemini-2-5-flash-tts.