Gemini 3.1 Flash TTS | EmpirioLabs AI Docs

Google · Audio Generation

POST /v1/audio/speech

Hochkontrollierbares TTS mit neuen Audio-Tags für präzisen Stil, Ton, Tempo und Vortrag über Erzählung, Assistenten und Sprach-Apps.

Auf einen Blick

Spielfeld	Wert
Modell-ID	`gemini-3-1-flash-tts`
Modell-Veröffentlichungsdatum	2026-04-13
Eingabemodalitäten	Text
Ausgabemodalitäten	Audio
Kontextfenster	-
Gewichtspräzision	-
Merkmale	text_to_speech, multi_speaker, mehrsprachig
Native Schlussfolgerung	Nein
Neu	Ja
Unterstützte Endpunkte	`POST /v1/audio/speech`

Preisgestaltung

Berechnen	Spezifikation	Zinssatz
Eingabe	pro 1M Prompt-Token	$2.60
Ausgabe	pro 1 Million generierter Token	$52.00

Beispielanfrage

$ curl https://api.empiriolabs.ai/v1/audio/speech \
>   -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
>   -H 'Content-Type: application/json' \
>   -d '{"model": "gemini-3-1-flash-tts", "input": "Hello from EmpirioLabs."}'

Parameter

Parameter	Typ	Erforderlich	Default	Beschreibung
`input`	String	Ja	-	Text zum Umwandeln in Sprache. Für den Multi-Lautsprecher-Modus präfixieren Sie Zeilen mit Lautsprecher1: / Lautsprecher2:.
`mode`	ENUM	Nein	`"single"`	Single = eine Stimme, Multi = Zweistimmiger Dialog (verwendet Voice + Voice2 + Sprechernamen). · Erlaubt: `single`, `multi`
`language`	String	Nein	`"en-US"`	BCP-47 Sprachtag (en-US, es-ES, etc.) für Aussprachehinweise.
`voice`	ENUM	Nein	`"Charon"`	Hauptstimmname (z. B. Kore, Puck, Aoede). Lassen Sie das Standardergebnis leer. · Erlaubt: `Zephyr`, `Puck`, `Charon`, `Kore`, `Fenrir`, `Leda`, `Orus`, `Aoede`, `Callirrhoe`, `Autonoe`, `Enceladus`, `Iapetus`, `Umbriel`, `Algieba`, `Despina`, `Erinome`, `Algenib`, `Rasalgethi`, `Laomedeia`, `Achernar`, `Alnilam`, `Schedar`, `Gacrux`, `Pulcherrima`, `Achird`, `Zubenelgenubi`, `Vindemiatrix`, `Sadachbia`, `Sadaltager`, `Sulafat`
`voice2`	ENUM	Nein	`"Kore"`	Zweiter Sprachname für den Multi-Lautsprecher-Modus. · Erlaubt: `Zephyr`, `Puck`, `Charon`, `Kore`, `Fenrir`, `Leda`, `Orus`, `Aoede`, `Callirrhoe`, `Autonoe`, `Enceladus`, `Iapetus`, `Umbriel`, `Algieba`, `Despina`, `Erinome`, `Algenib`, `Rasalgethi`, `Laomedeia`, `Achernar`, `Alnilam`, `Schedar`, `Gacrux`, `Pulcherrima`, `Achird`, `Zubenelgenubi`, `Vindemiatrix`, `Sadachbia`, `Sadaltager`, `Sulafat`
`speaker1_name`	String	Nein	`"Speaker1"`	Anzeigename, der im Eingangspräfix von Lautsprecher 1 verwendet wird (Standard: Lautsprecher1).
`speaker2_name`	String	Nein	`"Speaker2"`	Anzeigename, der im Eingangspräfix für Lautsprecher 2 verwendet wird (Standard: Lautsprecher2).
`output_format`	ENUM	Nein	`"WAV"`	Audio-Dateiformat (mp3, wav, opus, flac usw.). · Erlaubt: `WAV`, `MP3`, `OGG`, `ALAW`, `MULAW`
`speed`	Anzahl	Nein	`1.0`	Wiedergaberate. 1.0 = natürlich; <1 langsamer, >1 schneller. · Reichweite: 0,25 – 2,0
`volume_gain`	Anzahl	Nein	`0`	Ausgangsverstärkung in dB. 0 = unverändert. · Reichweite: -96 – 16
`sample_rate`	ENUM	Nein	`"24000"`	Ausgabe-Abtastrate in Hz (8000, 16000, 24000, 44100, 48000). · Erlaubt: `8000`, `16000`, `22050`, `24000`, `44100`, `48000`
`style_prompt`	String	Nein	-	Natürlichsprachliche Regie (z. B. “warm, gesprächig” oder “Nachrichtensprecher, ernst”).

Anmerkungen

Das bisher am meisten steuerbare Gemini-TTS.

Grenzen

Text + Stil-Prompt: je 4.000 Bytes (insgesamt 8.000)
Maximale Leistung: ~10 Minuten
Audioabrechnung: ~25 Token pro Sekunde (~15 chars/s)
Sprache wird automatisch erkannt; Die Spracheinstellung ist ein Hinweis, keine Einschränkung

Inline-Audio-Tags (Steuerungslieferung)

Emotion: [whispers], [shouts], [laughs], [sighs], [cheerful], [sad], [angry] usw.
Tempo: [slow], [fast], [extremely fast], [normal pace]
Pausen: [short pause], [long pause], [breath]
Hervorhebung: [softly], [loudly], [high pitch], [low pitch], [rising tone], [falling tone]

Machine-lesbares Schema: GET https://api.empiriolabs.ai/v1/models/gemini-3-1-flash-tts.