Gemini 2.5 Flash TTS

Gemini 2.5 Flash TTS
Google · Audio Generation
POST /v1/audio/speech

Latenzarte text-to-speech mit Ein- und Mehrlautsprecherstimmen sowie steuerbarem Stil, Akzent und ausdrucksstarkem Klang für Produktions-Apps.

Auf einen Blick

SpielfeldWert
Modell-IDgemini-2-5-flash-tts
Modell-Veröffentlichungsdatum2025-05-20
EingabemodalitätenText
AusgabemodalitätenAudio
Kontextfenster-
Gewichtspräzision-
Merkmaletext_to_speech, multi_speaker, mehrsprachig
Native SchlussfolgerungNein
NeuNein
Unterstützte EndpunktePOST /v1/audio/speech

Preisgestaltung

BerechnenSpezifikationZinssatz
Eingabepro 1M Prompt-Token$1.50
Ausgabepro 1 Million generierter Token$30.00

Beispielanfrage

$curl https://api.empiriolabs.ai/v1/audio/speech \
> -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
> -H 'Content-Type: application/json' \
> -d '{"model": "gemini-2-5-flash-tts", "input": "Hello from EmpirioLabs."}'

Parameter

ParameterTypErforderlichDefaultBeschreibung
inputStringJa-Text zum Umwandeln in Sprache. Für den Multi-Lautsprecher-Modus präfixieren Sie Zeilen mit Lautsprecher1: / Lautsprecher2:.
modeENUMNein"single"Single = eine Stimme, Multi = Zweistimmiger Dialog (verwendet Voice + Voice2 + Sprechernamen). · Erlaubt: single, multi
languageStringNein"en-US"BCP-47 Sprachtag (en-US, es-ES, etc.) für Aussprachehinweise.
voiceENUMNein"Charon"Hauptstimmname (z. B. Kore, Puck, Aoede). Lassen Sie das Standardergebnis leer. · Erlaubt: Zephyr, Puck, Charon, Kore, Fenrir, Leda, Orus, Aoede, Callirrhoe, Autonoe, Enceladus, Iapetus, Umbriel, Algieba, Despina, Erinome, Algenib, Rasalgethi, Laomedeia, Achernar, Alnilam, Schedar, Gacrux, Pulcherrima, Achird, Zubenelgenubi, Vindemiatrix, Sadachbia, Sadaltager, Sulafat
voice2ENUMNein"Kore"Zweiter Sprachname für den Multi-Lautsprecher-Modus. · Erlaubt: Zephyr, Puck, Charon, Kore, Fenrir, Leda, Orus, Aoede, Callirrhoe, Autonoe, Enceladus, Iapetus, Umbriel, Algieba, Despina, Erinome, Algenib, Rasalgethi, Laomedeia, Achernar, Alnilam, Schedar, Gacrux, Pulcherrima, Achird, Zubenelgenubi, Vindemiatrix, Sadachbia, Sadaltager, Sulafat
speaker1_nameStringNein"Speaker1"Anzeigename, der im Eingangspräfix von Lautsprecher 1 verwendet wird (Standard: Lautsprecher1).
speaker2_nameStringNein"Speaker2"Anzeigename, der im Eingangspräfix für Lautsprecher 2 verwendet wird (Standard: Lautsprecher2).
output_formatENUMNein"WAV"Audio-Dateiformat (mp3, wav, opus, flac usw.). · Erlaubt: WAV, MP3, OGG, ALAW, MULAW
speedAnzahlNein1.0Wiedergaberate. 1.0 = natürlich; <1 langsamer, >1 schneller. · Reichweite: 0,25 – 2,0
volume_gainAnzahlNein0Ausgangsverstärkung in dB. 0 = unverändert. · Reichweite: -96 – 16
sample_rateENUMNein"24000"Ausgabe-Abtastrate in Hz (8000, 16000, 24000, 44100, 48000). · Erlaubt: 8000, 16000, 22050, 24000, 44100, 48000
style_promptStringNein-Natürlichsprachliche Regie (z. B. “warm, gesprächig” oder “Nachrichtensprecher, ernst”).

Anmerkungen

Modi

  • Einzellautsprecher
  • Multi-Lautsprecher (maximal 2 Stimmen) – der Text muss im SpeakerName: text Format vorliegen

Grenzen

  • Text + Stil-Prompt: 4.000 Bytes pro Byte
  • Audioabrechnung: ~32 Token pro Sekunde erzeugtes Audio (~10–15 chars/s)

Stimmen und Sprachen

  • 30+ Sprachoptionen über emotional/tonal Charaktere hinweg
  • 24+ unterstützte Sprachstandorte

Ausgabeformate

  • MP3, WAV, OGG

Machine-lesbares Schema: GET https://api.empiriolabs.ai/v1/models/gemini-2-5-flash-tts.