TTS 1.5 Mini | EmpirioLabs AI Docs

Inworld · Audio Generation

POST /v1/audio/speech

Synthèse vocale TTFB en moins de 130 ms avec 271+ voix réparties dans 15 langues, prosodie expressive et streaming SSE en temps réel pour agents vocaux à faible latence.

En un coup d’œil

Terrain	Valeur
Identifiant de modèle	`tts-1-5-mini`
Date de sortie du modèle	2026-05-05
Modalités d’entrée	Texte
Modalités de sortie	Audio
Fenêtre de contexte	-
Précision du poids	-
Caractéristiques	multi_speaker, real_time, low_latency, streaming, word_timestamps, character_timestamps, multilingue, expressive_prosody
Inférence autochtone	Non
Nouveau	Oui
Points de terminaison pris en charge	`POST /v1/audio/speech`, `POST /v1/audio/speech:stream`, `GET /v1/voices`

Tarification

Charge	Spec	Taux
Synthèse	par 1M de caractères	$17.50 (était $25.00)

Exemple de demande

$ curl https://api.empiriolabs.ai/v1/audio/speech \
>   -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
>   -H 'Content-Type: application/json' \
>   -d '{"model": "tts-1-5-mini", "input": "Hello from EmpirioLabs."}'

Paramètres

Paramètre	Type	Obligatoire	Par défaut	Description
`input`	Corde	Oui	-	Texte à synthèse. Maximum 2 000 caractères par demande - texte plus long aux limites de phrase sur le client. · Max: 2000
`voice`	enum	non	`"Sarah"`	Préréglage de voix. 20 voix soigneusement choisies couvrant anglais + espagnol + portugais + hindi + divers accents. Pour le catalogue complet de 271 voix (y compris les voix clonées), utilisez voice_id à la place. · Autorisé: `Sarah`, `Olivia`, `Elizabeth`, `Ashley`, `Wendy`, `Julia`, `Priya`, `Pixie`, `Deborah`, `Alex`, `Mark`, `Edward`, `Theodore`, `Ronald`, `Dennis`, `Timothy`, `Shaun`, `Craig`, `Hades`, `Heitor`
`voice_id`	Corde	non	-	ID vocal libre. Prend le dessus sur la voix une fois réglé. Utilisez cela pour traiter les voix en dehors de la liste sélectionnée de 20 présets - Inworld TTS 1.5 propose 271+ voix nommées dans 15 langues (accents régionaux, variantes genrées). Exemple: Maitê, Olivia, ou n’importe quel nom de voix de GET /v1/voices.
`language`	enum	non	`"en-US"`	Code de langage BCP-47. Inworld TTS 1.5 couvre 15 langues. · Autorisés: `en-US`, `en-GB`, `es-ES`, `es-MX`, `fr-FR`, `de-DE`, `it-IT`, `pt-BR`, `pt-PT`, `nl-NL`, `pl-PL`, `ru-RU`, `ja-JP`, `ko-KR`, `zh-CN`, `hi-IN`, `ar-EG`, `he-IL`
`output_format`	enum	non	`"WAV"`	Audio container/codec. WAV = LINEAR16 à l’intérieur du RIFF (omniprésent). MP3 / OGG = compressé. PCM = raw sans en-tête - utile pour la lecture chunked-real-time. FLAC = sans perte. · Autorisé: `MP3`, `WAV`, `OGG`, `FLAC`, `PCM`, `ALAW`, `MULAW`
`sample_rate`	enum	non	`"24000"`	La fréquence d’échantillonnage de sortie en Hz. 24000 est la valeur par défaut d’Inworld et celle à laquelle leurs modèles vocaux s’entraînent; Augmentez à 48000 pour la qualité diffusion. · Autorisés: `8000`, `16000`, `22050`, `24000`, `32000`, `44100`, `48000`
`speed`	Nombre	non	`1.0`	Multiplicateur de débit de parole. 0,5 = demi-vitesse, 1,5 = 50 % plus rapide. · Plage: 0,5 – 1,5
`temperature`	Nombre	non	`1.0`	L’expressivité / la variabilité de la voix. Plus bas = plus cohérent / « plat »; plus élevé = plus expressif mais plus varié entre les rendus. · Portée: 0,1 – 2,0
`bit_rate`	Nombre	non	`128000`	Débit binaire en bps pour MP3 / OGG_OPUS. Ignoré pour d’autres encodages. · Portée: 32000 – 320000
`apply_text_normalization`	enum	non	`"ON"`	Lors de ON, Inworld élargit les chiffres / abréviations / dates en forme orale (« 5 USD » → « cinq dollars US »). · Autorisé: `ON`, `OFF`
`timestamp_type`	enum	non	`"NONE"`	Si non AUCUNE FOIS, la réponse inclut des horodatages par mot ou par caractère dans timestamp_info. Utile pour les interfaces de légendes / surlignes. · Autorisé: `NONE`, `WORD`, `CHARACTER`

Notes

Limites

Entrée maximale: 2 000 caractères par requête (texte plus long aux limites de phrase)
WebSocket: 20 connexions simultanées, 5 contexts/connection
Message par WS: 1 000 caractères

Latence

p90 TTFB: moins de 130 ms (benchmark Inworld)

Voix

271+ préréglages nommés répartis dans 15 langues
20 préréglages choisis à la main exposés dans le menu déroulant; passer toute autre identification vocale via voice_id

_Machine schéma lisible: _ GET https://api.empiriolabs.ai/v1/models/tts-1-5-mini.