input | Cuerda | Sí | - | Texto para sintetizar. Máximo 2.000 caracteres por petición - copia más larga en los límites de frases del cliente. · Máximo: 2000 |
voice | enum | no | "Sarah" | Preajuste de voz. 20 voces seleccionadas a dedo que cubren inglés + español + portugués + hindi + varios acentos. Para el catálogo completo de 271 voces (incluyendo voces clonadas), usa voice_id en su lugar. · Permitidos: Sarah, Olivia, Elizabeth, Ashley, Wendy, Julia, Priya, Pixie, Deborah, Alex, Mark, Edward, Theodore, Ronald, Dennis, Timothy, Shaun, Craig, Hades, Heitor |
voice_id | Cuerda | no | - | ID de voz libre. Anula la voz cuando está activado. Utilízalo para dirigirte a voces fuera de la lista seleccionada de 20 presets - Inworld TTS 1.5 incluye 271+ voces nombradas en 15 idiomas (acentos regionales, variantes de género). Ejemplo: Maitê, Olivia o cualquier nombre de voz de GET /v1/voices. |
language | enum | no | "en-US" | Código del idioma BCP-47. Inworld TTS 1.5 abarca 15 idiomas. · Permitidos: en-US, en-GB, es-ES, es-MX, fr-FR, de-DE, it-IT, pt-BR, pt-PT, nl-NL, pl-PL, ru-RU, ja-JP, ko-KR, zh-CN, hi-IN, ar-EG, he-IL |
output_format | enum | no | "WAV" | Audio container/codec. WAV = LINEAR16 dentro del RIFF (ubicuo). MP3 / OGG = comprimido. PCM = raw sin cabecera - útil para chunked-real-time reproducción. FLAC = sin pérdidas. · Permitidos: MP3, WAV, OGG, FLAC, PCM, ALAW, MULAW |
sample_rate | enum | no | "24000" | La tasa de muestreo de salida en Hz. 24000 es la predeterminada de Inworld y es la que entrenan sus modelos de voz; sube a 48000 para calidad de radiodifusión. · Permitidos: 8000, 16000, 22050, 24000, 32000, 44100, 48000 |
speed | Número | no | 1.0 | Multiplicador de tasa de conversación. 0,5 = media velocidad, 1,5 = 50% más rápido. · Rango: 0,5 – 1,5 |
temperature | Número | no | 1.0 | Expresividad / variabilidad de la voz. Más bajo = más consistente / “plano”; Más alto = más expresivo pero con más variación entre renders. · Rango: 0,1 – 2,0 |
bit_rate | Número | no | 128000 | Tasa de bits en bps para MP3 / OGG_OPUS. Ignorado por otras codificaciones. · Rango: 32000 – 320000 |
apply_text_normalization | enum | no | "ON" | Cuando es ON, Inworld amplía números / abreviaturas / fechas a forma hablada (“USD 5” → “cinco dólares estadounidenses”). · Permitidos: ON, OFF |
timestamp_type | enum | no | "NONE" | Si no es NINGUNA, la respuesta incluye marcas de tiempo por palabra o por carácter en timestamp_info. Útil para interfaces de subtítulos y resaltos. · Permitidos: NONE, WORD, CHARACTER |