TTS 1.5 Mini

TTS 1.5 Mini
Inworld · Audio Generation
POST /v1/audio/speech

Synthèse vocale TTFB en moins de 130 ms avec 271+ voix réparties dans 15 langues, prosodie expressive et streaming SSE en temps réel pour agents vocaux à faible latence.

En un coup d’œil

TerrainValeur
Identifiant de modèletts-1-5-mini
Date de sortie du modèle2026-05-05
Modalités d’entréeTexte
Modalités de sortieAudio
Fenêtre de contexte-
Précision du poids-
Caractéristiquesmulti_speaker, real_time, low_latency, streaming, word_timestamps, character_timestamps, multilingue, expressive_prosody
Inférence autochtoneNon
NouveauOui
Points de terminaison pris en chargePOST /v1/audio/speech, POST /v1/audio/speech:stream, GET /v1/voices

Tarification

ChargeSpecTaux
Synthèsepar 1M de caractères$17.50 (était $25.00)

Exemple de demande

$curl https://api.empiriolabs.ai/v1/audio/speech \
> -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
> -H 'Content-Type: application/json' \
> -d '{"model": "tts-1-5-mini", "input": "Hello from EmpirioLabs."}'

Paramètres

ParamètreTypeObligatoirePar défautDescription
inputCordeOui-Texte à synthèse. Maximum 2 000 caractères par demande - texte plus long aux limites de phrase sur le client. · Max: 2000
voiceenumnon"Sarah"Préréglage de voix. 20 voix soigneusement choisies couvrant anglais + espagnol + portugais + hindi + divers accents. Pour le catalogue complet de 271 voix (y compris les voix clonées), utilisez voice_id à la place. · Autorisé: Sarah, Olivia, Elizabeth, Ashley, Wendy, Julia, Priya, Pixie, Deborah, Alex, Mark, Edward, Theodore, Ronald, Dennis, Timothy, Shaun, Craig, Hades, Heitor
voice_idCordenon-ID vocal libre. Prend le dessus sur la voix une fois réglé. Utilisez cela pour traiter les voix en dehors de la liste sélectionnée de 20 présets - Inworld TTS 1.5 propose 271+ voix nommées dans 15 langues (accents régionaux, variantes genrées). Exemple: Maitê, Olivia, ou n’importe quel nom de voix de GET /v1/voices.
languageenumnon"en-US"Code de langage BCP-47. Inworld TTS 1.5 couvre 15 langues. · Autorisés: en-US, en-GB, es-ES, es-MX, fr-FR, de-DE, it-IT, pt-BR, pt-PT, nl-NL, pl-PL, ru-RU, ja-JP, ko-KR, zh-CN, hi-IN, ar-EG, he-IL
output_formatenumnon"WAV"Audio container/codec. WAV = LINEAR16 à l’intérieur du RIFF (omniprésent). MP3 / OGG = compressé. PCM = raw sans en-tête - utile pour la lecture chunked-real-time. FLAC = sans perte. · Autorisé: MP3, WAV, OGG, FLAC, PCM, ALAW, MULAW
sample_rateenumnon"24000"La fréquence d’échantillonnage de sortie en Hz. 24000 est la valeur par défaut d’Inworld et celle à laquelle leurs modèles vocaux s’entraînent; Augmentez à 48000 pour la qualité diffusion. · Autorisés: 8000, 16000, 22050, 24000, 32000, 44100, 48000
speedNombrenon1.0Multiplicateur de débit de parole. 0,5 = demi-vitesse, 1,5 = 50 % plus rapide. · Plage: 0,5 – 1,5
temperatureNombrenon1.0L’expressivité / la variabilité de la voix. Plus bas = plus cohérent / « plat »; plus élevé = plus expressif mais plus varié entre les rendus. · Portée: 0,1 – 2,0
bit_rateNombrenon128000Débit binaire en bps pour MP3 / OGG_OPUS. Ignoré pour d’autres encodages. · Portée: 32000 – 320000
apply_text_normalizationenumnon"ON"Lors de ON, Inworld élargit les chiffres / abréviations / dates en forme orale (« 5 USD » → « cinq dollars US »). · Autorisé: ON, OFF
timestamp_typeenumnon"NONE"Si non AUCUNE FOIS, la réponse inclut des horodatages par mot ou par caractère dans timestamp_info. Utile pour les interfaces de légendes / surlignes. · Autorisé: NONE, WORD, CHARACTER

Notes

Limites

  • Entrée maximale: 2 000 caractères par requête (texte plus long aux limites de phrase)
  • WebSocket: 20 connexions simultanées, 5 contexts/connection
  • Message par WS: 1 000 caractères

Latence

  • p90 TTFB: moins de 130 ms (benchmark Inworld)

Voix

  • 271+ préréglages nommés répartis dans 15 langues
  • 20 préréglages choisis à la main exposés dans le menu déroulant; passer toute autre identification vocale via voice_id

_Machine schéma lisible: _ GET https://api.empiriolabs.ai/v1/models/tts-1-5-mini.