TTS 1.5 Mini

TTS 1.5 Mini
Inworld · Audio Generation
POST /v1/audio/speech

Sub-130 ms TTFB-Sprachsynthese mit 271+ Stimmen in 15 Sprachen, expressive Prosodie und Echtzeit-SSE-Streaming für Voice-Agents mit niedriger Latenz.

Auf einen Blick

SpielfeldWert
Modell-IDtts-1-5-mini
Modell-Veröffentlichungsdatum2026-05-05
EingabemodalitätenText
AusgabemodalitätenAudio
Kontextfenster-
Gewichtspräzision-
Merkmalemulti_speaker, real_time, low_latency, Streaming, word_timestamps, character_timestamps, mehrsprachig expressive_prosody
Native SchlussfolgerungNein
NeuJa
Unterstützte EndpunktePOST /v1/audio/speech, POST /v1/audio/speech:stream, GET /v1/voices

Preisgestaltung

BerechnenSpezifikationZinssatz
Synthesepro 1 Million Zeichen$17.50 (war $25.00)

Beispielanfrage

$curl https://api.empiriolabs.ai/v1/audio/speech \
> -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
> -H 'Content-Type: application/json' \
> -d '{"model": "tts-1-5-mini", "input": "Hello from EmpirioLabs."}'

Parameter

ParameterTypErforderlichDefaultBeschreibung
inputStringJa-Text zur Synthese. Maximal 2.000 Zeichen pro Anfrage – längere Passage an Satzgrenzen beim Client. · Max: 2000
voiceENUMNein"Sarah"Sprachvoreinstellung. 20 handverlesene Stimmen, die Englisch + Spanisch + Portugiesisch + Hindi + verschiedene Akzente abdecken. Für den vollständigen 271-stimmigen Katalog (einschließlich geklonter Stimmen) verwenden Sie stattdessen voice_id. · Erlaubt: Sarah, Olivia, Elizabeth, Ashley, Wendy, Julia, Priya, Pixie, Deborah, Alex, Mark, Edward, Theodore, Ronald, Dennis, Timothy, Shaun, Craig, Hades, Heitor
voice_idStringNein-Freiformige Sprach-ID. Überschreibt die Sprache, wenn sie gesetzt ist. Nutzen Sie diese, um Stimmen außerhalb der kuratierten 20-voreingestellten Liste zu adressieren – Inworld TTS 1.5 liefert 271+ benannte Stimmen in 15 Sprachen (regionale Akzente, geschlechtsspezifische Varianten). Beispiel: Maitê, Olivia oder ein anderer Sprachname aus GET /v1/voices.
languageENUMNein"en-US"BCP-47 Sprachcode. Inworld TTS 1.5 umfasst 15 Sprachen. · Erlaubt: en-US, en-GB, es-ES, es-MX, fr-FR, de-DE, it-IT, pt-BR, pt-PT, nl-NL, pl-PL, ru-RU, ja-JP, ko-KR, zh-CN, hi-IN, ar-EG, he-IL
output_formatENUMNein"WAV"Audio-container/codec. WAV = LINEAR16 im RIFF (allgegenwärtig). MP3 / OGG = komprimiert. PCM = headerless raw - nützlich für chunked-real-time Playback. FLAC = verlustfrei. · Erlaubt: MP3, WAV, OGG, FLAC, PCM, ALAW, MULAW
sample_rateENUMNein"24000"Die Ausgabe-Abtastrate in Hz. 24000 ist Inworlds Standardvorbild und entspricht dem Trainingsmaß ihrer Sprachmodelle; Erhöhung auf 48.000 für die Sendequalität. · Erlaubt: 8000, 16000, 22050, 24000, 32000, 44100, 48000
speedAnzahlNein1.0Sprechratemultiplikator. 0,5 = halbe Geschwindigkeit, 1,5 = 50 % schneller. · Reichweite: 0,5 – 1,5
temperatureAnzahlNein1.0Ausdrucksstärke / Variabilität der Stimme. Lower = konsistenter / “flach”; höher = ausdrucksstärker, aber mehr Variation zwischen den Renders. · Reichweite: 0,1 – 2,0
bit_rateAnzahlNein128000Bitrate in BPS für MP3 / OGG_OPUS. Ignoriert für andere Codierungen. · Reichweite: 32000 – 320000
apply_text_normalizationENUMNein"ON"Wenn ON ist, erweitert Inworld Zahlen, Abkürzungen und Daten in gesprochene Form (“5 USD” → “fünf US-Dollar”). · Erlaubt: ON, OFF
timestamp_typeENUMNein"NONE"Wenn kein Symbol ist, enthält die Antwort Zeitstempel pro Wort oder Zeichen in timestamp_info. Nützlich für Bildunterschriften und Highlight-UIs. · Erlaubt: NONE, WORD, CHARACTER

Anmerkungen

Grenzen

  • Maximale Eingabe: 2.000 Zeichen pro Anfrage (längere Textabschnitte an Satzgrenzen)
  • WebSocket: 20 gleichzeitige Verbindungen, 5 contexts/connection
  • Pro WS-Nachricht: 1.000 Zeichen

Latenz

  • p90 TTFB: unter 130 ms (Inworld-Benchmark)

Stimmen

  • 271+ benannte Presets in 15 Sprachen
  • 20 handverlesene Presets im Dropdown-Menü sichtbar; Übergebe jede andere Sprach-ID über voice_id

Machine-lesbares Schema: GET https://api.empiriolabs.ai/v1/models/tts-1-5-mini.