TTS 1.5 Max | EmpirioLabs AI Docs

Inworld · Audio Generation

POST /v1/audio/speech

Síntesis de voz de calidad de emisión con prosodia expresiva rica, 271+ voces en 15 idiomas y transmisión SSE en tiempo real con marcas de tiempo por palabra.

A simple vista

Campo	Valor
ID de modelo	`tts-1-5-max`
Fecha de lanzamiento del modelo	2026-05-05
Modalidades de entrada	Texto
Modalidades de salida	Audio
Ventana de contexto	-
Precisión del peso	-
Características	multi_speaker, real_time, streaming, word_timestamps, character_timestamps, multilingüe, expressive_prosody, broadcast_quality
Inferencia nativa	No
Nuevo	Sí
Puntos finales soportados	`POST /v1/audio/speech`, `POST /v1/audio/speech:stream`, `GET /v1/voices`

Precios

Carga	Especificaciones	Tarifa
Síntesis	por 1M de caracteres	$29.75 (era $35.00)

Solicitud de ejemplo

$ curl https://api.empiriolabs.ai/v1/audio/speech \
>   -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
>   -H 'Content-Type: application/json' \
>   -d '{"model": "tts-1-5-max", "input": "Hello from EmpirioLabs."}'

Parámetros

Parámetro	Tipo	Obligatorio	Default	Descripción
`input`	Cuerda	Sí	-	Texto para sintetizar. Máximo 2.000 caracteres por petición - copia más larga en los límites de frases del cliente. · Máximo: 2000
`voice`	enum	no	`"Sarah"`	Preajuste de voz. 20 voces seleccionadas a dedo que cubren inglés + español + portugués + hindi + varios acentos. Para el catálogo completo de 271 voces (incluyendo voces clonadas), usa voice_id en su lugar. · Permitidos: `Sarah`, `Olivia`, `Elizabeth`, `Ashley`, `Wendy`, `Julia`, `Priya`, `Pixie`, `Deborah`, `Alex`, `Mark`, `Edward`, `Theodore`, `Ronald`, `Dennis`, `Timothy`, `Shaun`, `Craig`, `Hades`, `Heitor`
`voice_id`	Cuerda	no	-	ID de voz libre. Anula la voz cuando está activado. Utilízalo para dirigirte a voces fuera de la lista seleccionada de 20 presets - Inworld TTS 1.5 incluye 271+ voces nombradas en 15 idiomas (acentos regionales, variantes de género). Ejemplo: Maitê, Olivia o cualquier nombre de voz de GET /v1/voices.
`language`	enum	no	`"en-US"`	Código del idioma BCP-47. Inworld TTS 1.5 abarca 15 idiomas. · Permitidos: `en-US`, `en-GB`, `es-ES`, `es-MX`, `fr-FR`, `de-DE`, `it-IT`, `pt-BR`, `pt-PT`, `nl-NL`, `pl-PL`, `ru-RU`, `ja-JP`, `ko-KR`, `zh-CN`, `hi-IN`, `ar-EG`, `he-IL`
`output_format`	enum	no	`"WAV"`	Audio container/codec. WAV = LINEAR16 dentro del RIFF (ubicuo). MP3 / OGG = comprimido. PCM = raw sin cabecera - útil para chunked-real-time reproducción. FLAC = sin pérdidas. · Permitidos: `MP3`, `WAV`, `OGG`, `FLAC`, `PCM`, `ALAW`, `MULAW`
`sample_rate`	enum	no	`"24000"`	La tasa de muestreo de salida en Hz. 24000 es la predeterminada de Inworld y es la que entrenan sus modelos de voz; sube a 48000 para calidad de radiodifusión. · Permitidos: `8000`, `16000`, `22050`, `24000`, `32000`, `44100`, `48000`
`speed`	Número	no	`1.0`	Multiplicador de tasa de conversación. 0,5 = media velocidad, 1,5 = 50% más rápido. · Rango: 0,5 – 1,5
`temperature`	Número	no	`1.0`	Expresividad / variabilidad de la voz. Más bajo = más consistente / “plano”; Más alto = más expresivo pero con más variación entre renders. · Rango: 0,1 – 2,0
`bit_rate`	Número	no	`128000`	Tasa de bits en bps para MP3 / OGG_OPUS. Ignorado por otras codificaciones. · Rango: 32000 – 320000
`apply_text_normalization`	enum	no	`"ON"`	Cuando es ON, Inworld amplía números / abreviaturas / fechas a forma hablada (“USD 5” → “cinco dólares estadounidenses”). · Permitidos: `ON`, `OFF`
`timestamp_type`	enum	no	`"NONE"`	Si no es NINGUNA, la respuesta incluye marcas de tiempo por palabra o por carácter en timestamp_info. Útil para interfaces de subtítulos y resaltos. · Permitidos: `NONE`, `WORD`, `CHARACTER`

Notas

Límites

Entrada máxima: 2.000 caracteres por petición (fragmentar texto más largo en los límites de las frases)
WebSocket: 20 conexiones concurrentes, 5 contexts/connection
Mensaje por WS: 1.000 caracteres

Latencia

p90 TTFB: menos de 250 ms (benchmark Inworld)

Voces

271+ presets nombrados en 15 idiomas
20 presets seleccionados a mano expuestos en el desplegable; pasa cualquier otro ID de voz a través de voice_id

Machine-legible esquema: GET https://api.empiriolabs.ai/v1/models/tts-1-5-max.