Gemini 3.1 Flash TTS

Gemini 3.1 Flash TTS
Google · Audio Generation
POST /v1/audio/speech

Hochkontrollierbares TTS mit neuen Audio-Tags für präzisen Stil, Ton, Tempo und Vortrag über Erzählung, Assistenten und Sprach-Apps.

Auf einen Blick

SpielfeldWert
Modell-IDgemini-3-1-flash-tts
Modell-Veröffentlichungsdatum2026-04-13
EingabemodalitätenText
AusgabemodalitätenAudio
Kontextfenster-
Gewichtspräzision-
Merkmaletext_to_speech, multi_speaker, mehrsprachig
Native SchlussfolgerungNein
NeuJa
Unterstützte EndpunktePOST /v1/audio/speech

Preisgestaltung

BerechnenSpezifikationZinssatz
Eingabepro 1M Prompt-Token$2.60
Ausgabepro 1 Million generierter Token$52.00

Beispielanfrage

$curl https://api.empiriolabs.ai/v1/audio/speech \
> -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
> -H 'Content-Type: application/json' \
> -d '{"model": "gemini-3-1-flash-tts", "input": "Hello from EmpirioLabs."}'

Parameter

ParameterTypErforderlichDefaultBeschreibung
inputStringJa-Text zum Umwandeln in Sprache. Für den Multi-Lautsprecher-Modus präfixieren Sie Zeilen mit Lautsprecher1: / Lautsprecher2:.
modeENUMNein"single"Single = eine Stimme, Multi = Zweistimmiger Dialog (verwendet Voice + Voice2 + Sprechernamen). · Erlaubt: single, multi
languageStringNein"en-US"BCP-47 Sprachtag (en-US, es-ES, etc.) für Aussprachehinweise.
voiceENUMNein"Charon"Hauptstimmname (z. B. Kore, Puck, Aoede). Lassen Sie das Standardergebnis leer. · Erlaubt: Zephyr, Puck, Charon, Kore, Fenrir, Leda, Orus, Aoede, Callirrhoe, Autonoe, Enceladus, Iapetus, Umbriel, Algieba, Despina, Erinome, Algenib, Rasalgethi, Laomedeia, Achernar, Alnilam, Schedar, Gacrux, Pulcherrima, Achird, Zubenelgenubi, Vindemiatrix, Sadachbia, Sadaltager, Sulafat
voice2ENUMNein"Kore"Zweiter Sprachname für den Multi-Lautsprecher-Modus. · Erlaubt: Zephyr, Puck, Charon, Kore, Fenrir, Leda, Orus, Aoede, Callirrhoe, Autonoe, Enceladus, Iapetus, Umbriel, Algieba, Despina, Erinome, Algenib, Rasalgethi, Laomedeia, Achernar, Alnilam, Schedar, Gacrux, Pulcherrima, Achird, Zubenelgenubi, Vindemiatrix, Sadachbia, Sadaltager, Sulafat
speaker1_nameStringNein"Speaker1"Anzeigename, der im Eingangspräfix von Lautsprecher 1 verwendet wird (Standard: Lautsprecher1).
speaker2_nameStringNein"Speaker2"Anzeigename, der im Eingangspräfix für Lautsprecher 2 verwendet wird (Standard: Lautsprecher2).
output_formatENUMNein"WAV"Audio-Dateiformat (mp3, wav, opus, flac usw.). · Erlaubt: WAV, MP3, OGG, ALAW, MULAW
speedAnzahlNein1.0Wiedergaberate. 1.0 = natürlich; <1 langsamer, >1 schneller. · Reichweite: 0,25 – 2,0
volume_gainAnzahlNein0Ausgangsverstärkung in dB. 0 = unverändert. · Reichweite: -96 – 16
sample_rateENUMNein"24000"Ausgabe-Abtastrate in Hz (8000, 16000, 24000, 44100, 48000). · Erlaubt: 8000, 16000, 22050, 24000, 44100, 48000
style_promptStringNein-Natürlichsprachliche Regie (z. B. “warm, gesprächig” oder “Nachrichtensprecher, ernst”).

Anmerkungen

Das bisher am meisten steuerbare Gemini-TTS.

Grenzen

  • Text + Stil-Prompt: je 4.000 Bytes (insgesamt 8.000)
  • Maximale Leistung: ~10 Minuten
  • Audioabrechnung: ~25 Token pro Sekunde (~15 chars/s)
  • Sprache wird automatisch erkannt; Die Spracheinstellung ist ein Hinweis, keine Einschränkung

Inline-Audio-Tags (Steuerungslieferung)

  • Emotion: [whispers], [shouts], [laughs], [sighs], [cheerful], [sad], [angry] usw.
  • Tempo: [slow], [fast], [extremely fast], [normal pace]
  • Pausen: [short pause], [long pause], [breath]
  • Hervorhebung: [softly], [loudly], [high pitch], [low pitch], [rising tone], [falling tone]

Machine-lesbares Schema: GET https://api.empiriolabs.ai/v1/models/gemini-3-1-flash-tts.