input | String | Ja | - | Text zur Synthese. Maximal 2.000 Zeichen pro Anfrage – längere Passage an Satzgrenzen beim Client. · Max: 2000 |
voice | ENUM | Nein | "Sarah" | Sprachvoreinstellung. 20 handverlesene Stimmen, die Englisch + Spanisch + Portugiesisch + Hindi + verschiedene Akzente abdecken. Für den vollständigen 271-stimmigen Katalog (einschließlich geklonter Stimmen) verwenden Sie stattdessen voice_id. · Erlaubt: Sarah, Olivia, Elizabeth, Ashley, Wendy, Julia, Priya, Pixie, Deborah, Alex, Mark, Edward, Theodore, Ronald, Dennis, Timothy, Shaun, Craig, Hades, Heitor |
voice_id | String | Nein | - | Freiformige Sprach-ID. Überschreibt die Sprache, wenn sie gesetzt ist. Nutzen Sie diese, um Stimmen außerhalb der kuratierten 20-voreingestellten Liste zu adressieren – Inworld TTS 1.5 liefert 271+ benannte Stimmen in 15 Sprachen (regionale Akzente, geschlechtsspezifische Varianten). Beispiel: Maitê, Olivia oder ein anderer Sprachname aus GET /v1/voices. |
language | ENUM | Nein | "en-US" | BCP-47 Sprachcode. Inworld TTS 1.5 umfasst 15 Sprachen. · Erlaubt: en-US, en-GB, es-ES, es-MX, fr-FR, de-DE, it-IT, pt-BR, pt-PT, nl-NL, pl-PL, ru-RU, ja-JP, ko-KR, zh-CN, hi-IN, ar-EG, he-IL |
output_format | ENUM | Nein | "WAV" | Audio-container/codec. WAV = LINEAR16 im RIFF (allgegenwärtig). MP3 / OGG = komprimiert. PCM = headerless raw - nützlich für chunked-real-time Playback. FLAC = verlustfrei. · Erlaubt: MP3, WAV, OGG, FLAC, PCM, ALAW, MULAW |
sample_rate | ENUM | Nein | "24000" | Die Ausgabe-Abtastrate in Hz. 24000 ist Inworlds Standardvorbild und entspricht dem Trainingsmaß ihrer Sprachmodelle; Erhöhung auf 48.000 für die Sendequalität. · Erlaubt: 8000, 16000, 22050, 24000, 32000, 44100, 48000 |
speed | Anzahl | Nein | 1.0 | Sprechratemultiplikator. 0,5 = halbe Geschwindigkeit, 1,5 = 50 % schneller. · Reichweite: 0,5 – 1,5 |
temperature | Anzahl | Nein | 1.0 | Ausdrucksstärke / Variabilität der Stimme. Lower = konsistenter / “flach”; höher = ausdrucksstärker, aber mehr Variation zwischen den Renders. · Reichweite: 0,1 – 2,0 |
bit_rate | Anzahl | Nein | 128000 | Bitrate in BPS für MP3 / OGG_OPUS. Ignoriert für andere Codierungen. · Reichweite: 32000 – 320000 |
apply_text_normalization | ENUM | Nein | "ON" | Wenn ON ist, erweitert Inworld Zahlen, Abkürzungen und Daten in gesprochene Form (“5 USD” → “fünf US-Dollar”). · Erlaubt: ON, OFF |
timestamp_type | ENUM | Nein | "NONE" | Wenn kein Symbol ist, enthält die Antwort Zeitstempel pro Wort oder Zeichen in timestamp_info. Nützlich für Bildunterschriften und Highlight-UIs. · Erlaubt: NONE, WORD, CHARACTER |