TTS 1.5 Mini | EmpirioLabs AI Docs

Inworld · Audio Generation

POST /v1/audio/speech

Sub-130 ms TTFB-Sprachsynthese mit 271+ Stimmen in 15 Sprachen, expressive Prosodie und Echtzeit-SSE-Streaming für Voice-Agents mit niedriger Latenz.

Auf einen Blick

Spielfeld	Wert
Modell-ID	`tts-1-5-mini`
Modell-Veröffentlichungsdatum	2026-05-05
Eingabemodalitäten	Text
Ausgabemodalitäten	Audio
Kontextfenster	-
Gewichtspräzision	-
Merkmale	multi_speaker, real_time, low_latency, Streaming, word_timestamps, character_timestamps, mehrsprachig expressive_prosody
Native Schlussfolgerung	Nein
Neu	Ja
Unterstützte Endpunkte	`POST /v1/audio/speech`, `POST /v1/audio/speech:stream`, `GET /v1/voices`

Preisgestaltung

Berechnen	Spezifikation	Zinssatz
Synthese	pro 1 Million Zeichen	$17.50 (war $25.00)

Beispielanfrage

$ curl https://api.empiriolabs.ai/v1/audio/speech \
>   -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
>   -H 'Content-Type: application/json' \
>   -d '{"model": "tts-1-5-mini", "input": "Hello from EmpirioLabs."}'

Parameter

Parameter	Typ	Erforderlich	Default	Beschreibung
`input`	String	Ja	-	Text zur Synthese. Maximal 2.000 Zeichen pro Anfrage – längere Passage an Satzgrenzen beim Client. · Max: 2000
`voice`	ENUM	Nein	`"Sarah"`	Sprachvoreinstellung. 20 handverlesene Stimmen, die Englisch + Spanisch + Portugiesisch + Hindi + verschiedene Akzente abdecken. Für den vollständigen 271-stimmigen Katalog (einschließlich geklonter Stimmen) verwenden Sie stattdessen voice_id. · Erlaubt: `Sarah`, `Olivia`, `Elizabeth`, `Ashley`, `Wendy`, `Julia`, `Priya`, `Pixie`, `Deborah`, `Alex`, `Mark`, `Edward`, `Theodore`, `Ronald`, `Dennis`, `Timothy`, `Shaun`, `Craig`, `Hades`, `Heitor`
`voice_id`	String	Nein	-	Freiformige Sprach-ID. Überschreibt die Sprache, wenn sie gesetzt ist. Nutzen Sie diese, um Stimmen außerhalb der kuratierten 20-voreingestellten Liste zu adressieren – Inworld TTS 1.5 liefert 271+ benannte Stimmen in 15 Sprachen (regionale Akzente, geschlechtsspezifische Varianten). Beispiel: Maitê, Olivia oder ein anderer Sprachname aus GET /v1/voices.
`language`	ENUM	Nein	`"en-US"`	BCP-47 Sprachcode. Inworld TTS 1.5 umfasst 15 Sprachen. · Erlaubt: `en-US`, `en-GB`, `es-ES`, `es-MX`, `fr-FR`, `de-DE`, `it-IT`, `pt-BR`, `pt-PT`, `nl-NL`, `pl-PL`, `ru-RU`, `ja-JP`, `ko-KR`, `zh-CN`, `hi-IN`, `ar-EG`, `he-IL`
`output_format`	ENUM	Nein	`"WAV"`	Audio-container/codec. WAV = LINEAR16 im RIFF (allgegenwärtig). MP3 / OGG = komprimiert. PCM = headerless raw - nützlich für chunked-real-time Playback. FLAC = verlustfrei. · Erlaubt: `MP3`, `WAV`, `OGG`, `FLAC`, `PCM`, `ALAW`, `MULAW`
`sample_rate`	ENUM	Nein	`"24000"`	Die Ausgabe-Abtastrate in Hz. 24000 ist Inworlds Standardvorbild und entspricht dem Trainingsmaß ihrer Sprachmodelle; Erhöhung auf 48.000 für die Sendequalität. · Erlaubt: `8000`, `16000`, `22050`, `24000`, `32000`, `44100`, `48000`
`speed`	Anzahl	Nein	`1.0`	Sprechratemultiplikator. 0,5 = halbe Geschwindigkeit, 1,5 = 50 % schneller. · Reichweite: 0,5 – 1,5
`temperature`	Anzahl	Nein	`1.0`	Ausdrucksstärke / Variabilität der Stimme. Lower = konsistenter / “flach”; höher = ausdrucksstärker, aber mehr Variation zwischen den Renders. · Reichweite: 0,1 – 2,0
`bit_rate`	Anzahl	Nein	`128000`	Bitrate in BPS für MP3 / OGG_OPUS. Ignoriert für andere Codierungen. · Reichweite: 32000 – 320000
`apply_text_normalization`	ENUM	Nein	`"ON"`	Wenn ON ist, erweitert Inworld Zahlen, Abkürzungen und Daten in gesprochene Form (“5 USD” → “fünf US-Dollar”). · Erlaubt: `ON`, `OFF`
`timestamp_type`	ENUM	Nein	`"NONE"`	Wenn kein Symbol ist, enthält die Antwort Zeitstempel pro Wort oder Zeichen in timestamp_info. Nützlich für Bildunterschriften und Highlight-UIs. · Erlaubt: `NONE`, `WORD`, `CHARACTER`

Anmerkungen

Grenzen

Maximale Eingabe: 2.000 Zeichen pro Anfrage (längere Textabschnitte an Satzgrenzen)
WebSocket: 20 gleichzeitige Verbindungen, 5 contexts/connection
Pro WS-Nachricht: 1.000 Zeichen

Latenz

p90 TTFB: unter 130 ms (Inworld-Benchmark)

Stimmen

271+ benannte Presets in 15 Sprachen
20 handverlesene Presets im Dropdown-Menü sichtbar; Übergebe jede andere Sprach-ID über voice_id

Machine-lesbares Schema: GET https://api.empiriolabs.ai/v1/models/tts-1-5-mini.