input | String | sim | - | Texto para sintetizar. No máximo 2.000 caracteres por pedido - faça um texto maior nos limites das frases no cliente. · Máximo: 2000 |
voice | enum | Não | "Sarah" | Predefinição de voz. 20 vozes escolhidas a dedo cobrindo inglês + espanhol + português + hindi + vários sotaques. Para o catálogo completo de 271 vozes (incluindo vozes clonadas), use voice_id em vez disso. · Permitidos: Sarah, Olivia, Elizabeth, Ashley, Wendy, Julia, Priya, Pixie, Deborah, Alex, Mark, Edward, Theodore, Ronald, Dennis, Timothy, Shaun, Craig, Hades, Heitor |
voice_id | String | Não | - | ID de voz livre. Sobrepõe a voz quando ativado. Use isso para falar com vozes fora da lista selecionada de 20 pré-sets - O Inworld TTS 1.5 traz 271+ vozes nomeadas em 15 idiomas (sotaques regionais, variantes de gênero). Exemplo: Maitê, Olivia ou qualquer nome de voz do GET /v1/voices. |
language | enum | Não | "en-US" | Código da língua BCP-47. Inworld TTS 1.5 cobre 15 idiomas. · Permitidos: en-US, en-GB, es-ES, es-MX, fr-FR, de-DE, it-IT, pt-BR, pt-PT, nl-NL, pl-PL, ru-RU, ja-JP, ko-KR, zh-CN, hi-IN, ar-EG, he-IL |
output_format | enum | Não | "WAV" | Áudio container/codec. WAV = LINEAR16 dentro do RIFF (onipresente). MP3 / OGG = comprimido. PCM = raw sem cabeçalho - útil para reprodução chunked-real-time. FLAC = sem perdas. · Permitidos: MP3, WAV, OGG, FLAC, PCM, ALAW, MULAW |
sample_rate | enum | Não | "24000" | A taxa de amostragem de saída em Hz. 24000 é o padrão da Inworld e o que seus modelos de voz treinam; Aumento para 48000 para qualidade de transmissão. · Permitidos: 8000, 16000, 22050, 24000, 32000, 44100, 48000 |
speed | Número | Não | 1.0 | Multiplicador de taxa de fala. 0,5 = metade da velocidade, 1,5 = 50% mais rápido. · Alcance: 0,5 – 1,5 |
temperature | Número | Não | 1.0 | Expressividade / variabilidade da voz. Lower = mais consistente / “plano”; mais alto = mais expressivo, mas com mais variação entre os renders. · Alcance: 0,1 – 2,0 |
bit_rate | Número | Não | 128000 | Bitrate em bps para MP3 / OGG_OPUS. Ignorado por outras codificações. · Intervalo: 32000 – 320000 |
apply_text_normalization | enum | Não | "ON" | Quando ON, o Inworld expande números / abreviações / datas para a forma falada (“USD 5” → “cinco dólares americanos”). · Permitido: ON, OFF |
timestamp_type | enum | Não | "NONE" | Se não for NENHUMA, a resposta inclui carimbos de tempo por palavra ou por caractere em timestamp_info. Útil para interfaces de legendas / destaques. · Permitido: NONE, WORD, CHARACTER |