TTS 1.5 Max

TTS 1.5 Max
Inworld · Audio Generation
POST /v1/audio/speech

Síntesis de voz de calidad de emisión con prosodia expresiva rica, 271+ voces en 15 idiomas y transmisión SSE en tiempo real con marcas de tiempo por palabra.

A simple vista

CampoValor
ID de modelotts-1-5-max
Fecha de lanzamiento del modelo2026-05-05
Modalidades de entradaTexto
Modalidades de salidaAudio
Ventana de contexto-
Precisión del peso-
Característicasmulti_speaker, real_time, streaming, word_timestamps, character_timestamps, multilingüe, expressive_prosody, broadcast_quality
Inferencia nativaNo
Nuevo
Puntos finales soportadosPOST /v1/audio/speech, POST /v1/audio/speech:stream, GET /v1/voices

Precios

CargaEspecificacionesTarifa
Síntesispor 1M de caracteres$29.75 (era $35.00)

Solicitud de ejemplo

$curl https://api.empiriolabs.ai/v1/audio/speech \
> -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
> -H 'Content-Type: application/json' \
> -d '{"model": "tts-1-5-max", "input": "Hello from EmpirioLabs."}'

Parámetros

ParámetroTipoObligatorioDefaultDescripción
inputCuerda-Texto para sintetizar. Máximo 2.000 caracteres por petición - copia más larga en los límites de frases del cliente. · Máximo: 2000
voiceenumno"Sarah"Preajuste de voz. 20 voces seleccionadas a dedo que cubren inglés + español + portugués + hindi + varios acentos. Para el catálogo completo de 271 voces (incluyendo voces clonadas), usa voice_id en su lugar. · Permitidos: Sarah, Olivia, Elizabeth, Ashley, Wendy, Julia, Priya, Pixie, Deborah, Alex, Mark, Edward, Theodore, Ronald, Dennis, Timothy, Shaun, Craig, Hades, Heitor
voice_idCuerdano-ID de voz libre. Anula la voz cuando está activado. Utilízalo para dirigirte a voces fuera de la lista seleccionada de 20 presets - Inworld TTS 1.5 incluye 271+ voces nombradas en 15 idiomas (acentos regionales, variantes de género). Ejemplo: Maitê, Olivia o cualquier nombre de voz de GET /v1/voices.
languageenumno"en-US"Código del idioma BCP-47. Inworld TTS 1.5 abarca 15 idiomas. · Permitidos: en-US, en-GB, es-ES, es-MX, fr-FR, de-DE, it-IT, pt-BR, pt-PT, nl-NL, pl-PL, ru-RU, ja-JP, ko-KR, zh-CN, hi-IN, ar-EG, he-IL
output_formatenumno"WAV"Audio container/codec. WAV = LINEAR16 dentro del RIFF (ubicuo). MP3 / OGG = comprimido. PCM = raw sin cabecera - útil para chunked-real-time reproducción. FLAC = sin pérdidas. · Permitidos: MP3, WAV, OGG, FLAC, PCM, ALAW, MULAW
sample_rateenumno"24000"La tasa de muestreo de salida en Hz. 24000 es la predeterminada de Inworld y es la que entrenan sus modelos de voz; sube a 48000 para calidad de radiodifusión. · Permitidos: 8000, 16000, 22050, 24000, 32000, 44100, 48000
speedNúmerono1.0Multiplicador de tasa de conversación. 0,5 = media velocidad, 1,5 = 50% más rápido. · Rango: 0,5 – 1,5
temperatureNúmerono1.0Expresividad / variabilidad de la voz. Más bajo = más consistente / “plano”; Más alto = más expresivo pero con más variación entre renders. · Rango: 0,1 – 2,0
bit_rateNúmerono128000Tasa de bits en bps para MP3 / OGG_OPUS. Ignorado por otras codificaciones. · Rango: 32000 – 320000
apply_text_normalizationenumno"ON"Cuando es ON, Inworld amplía números / abreviaturas / fechas a forma hablada (“USD 5” → “cinco dólares estadounidenses”). · Permitidos: ON, OFF
timestamp_typeenumno"NONE"Si no es NINGUNA, la respuesta incluye marcas de tiempo por palabra o por carácter en timestamp_info. Útil para interfaces de subtítulos y resaltos. · Permitidos: NONE, WORD, CHARACTER

Notas

Límites

  • Entrada máxima: 2.000 caracteres por petición (fragmentar texto más largo en los límites de las frases)
  • WebSocket: 20 conexiones concurrentes, 5 contexts/connection
  • Mensaje por WS: 1.000 caracteres

Latencia

  • p90 TTFB: menos de 250 ms (benchmark Inworld)

Voces

  • 271+ presets nombrados en 15 idiomas
  • 20 presets seleccionados a mano expuestos en el desplegable; pasa cualquier otro ID de voz a través de voice_id

Machine-legible esquema: GET https://api.empiriolabs.ai/v1/models/tts-1-5-max.