TTS 1.5 Mini

TTS 1.5 Mini
Inworld · Audio Generation
POST /v1/audio/speech

Síntese de voz TTFB abaixo de 130ms com 271+ vozes em 15 idiomas, prosódia expressiva e streaming SSE em tempo real para agentes de voz de baixa latência.

De um olhar

CampoValor
ID do modelotts-1-5-mini
Data de lançamento do modelo2026-05-05
Modalidades de entradaTexto
Modalidades de saídaÁudio
Janela de contexto-
Precisão do peso-
Característicasmulti_speaker, real_time, low_latency, streaming, word_timestamps, character_timestamps, multilíngue, expressive_prosody
Inferência nativaNão
NovoSim
Endpoints suportadosPOST /v1/audio/speech, POST /v1/audio/speech:stream, GET /v1/voices

Precificação

CargaEspecificaçãoTaxa
Síntesepor 1M de caracteres$17.50 (era $25.00)

Exemplo de pedido

$curl https://api.empiriolabs.ai/v1/audio/speech \
> -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
> -H 'Content-Type: application/json' \
> -d '{"model": "tts-1-5-mini", "input": "Hello from EmpirioLabs."}'

Parâmetros

ParâmetroTipoObrigatórioPadrãoDescrição
inputStringsim-Texto para sintetizar. No máximo 2.000 caracteres por pedido - faça um texto maior nos limites das frases no cliente. · Máximo: 2000
voiceenumNão"Sarah"Predefinição de voz. 20 vozes escolhidas a dedo cobrindo inglês + espanhol + português + hindi + vários sotaques. Para o catálogo completo de 271 vozes (incluindo vozes clonadas), use voice_id em vez disso. · Permitidos: Sarah, Olivia, Elizabeth, Ashley, Wendy, Julia, Priya, Pixie, Deborah, Alex, Mark, Edward, Theodore, Ronald, Dennis, Timothy, Shaun, Craig, Hades, Heitor
voice_idStringNão-ID de voz livre. Sobrepõe a voz quando ativado. Use isso para falar com vozes fora da lista selecionada de 20 pré-sets - O Inworld TTS 1.5 traz 271+ vozes nomeadas em 15 idiomas (sotaques regionais, variantes de gênero). Exemplo: Maitê, Olivia ou qualquer nome de voz do GET /v1/voices.
languageenumNão"en-US"Código da língua BCP-47. Inworld TTS 1.5 cobre 15 idiomas. · Permitidos: en-US, en-GB, es-ES, es-MX, fr-FR, de-DE, it-IT, pt-BR, pt-PT, nl-NL, pl-PL, ru-RU, ja-JP, ko-KR, zh-CN, hi-IN, ar-EG, he-IL
output_formatenumNão"WAV"Áudio container/codec. WAV = LINEAR16 dentro do RIFF (onipresente). MP3 / OGG = comprimido. PCM = raw sem cabeçalho - útil para reprodução chunked-real-time. FLAC = sem perdas. · Permitidos: MP3, WAV, OGG, FLAC, PCM, ALAW, MULAW
sample_rateenumNão"24000"A taxa de amostragem de saída em Hz. 24000 é o padrão da Inworld e o que seus modelos de voz treinam; Aumento para 48000 para qualidade de transmissão. · Permitidos: 8000, 16000, 22050, 24000, 32000, 44100, 48000
speedNúmeroNão1.0Multiplicador de taxa de fala. 0,5 = metade da velocidade, 1,5 = 50% mais rápido. · Alcance: 0,5 – 1,5
temperatureNúmeroNão1.0Expressividade / variabilidade da voz. Lower = mais consistente / “plano”; mais alto = mais expressivo, mas com mais variação entre os renders. · Alcance: 0,1 – 2,0
bit_rateNúmeroNão128000Bitrate em bps para MP3 / OGG_OPUS. Ignorado por outras codificações. · Intervalo: 32000 – 320000
apply_text_normalizationenumNão"ON"Quando ON, o Inworld expande números / abreviações / datas para a forma falada (“USD 5” → “cinco dólares americanos”). · Permitido: ON, OFF
timestamp_typeenumNão"NONE"Se não for NENHUMA, a resposta inclui carimbos de tempo por palavra ou por caractere em timestamp_info. Útil para interfaces de legendas / destaques. · Permitido: NONE, WORD, CHARACTER

Notas

Limites

  • Entrada máxima: 2.000 caracteres por solicitação (pedaço de texto maior nos limites das frases)
  • WebSocket: 20 conexões simultâneas, 5 contexts/connection
  • Mensagem por WS: 1.000 caracteres

Latência

  • P90 TTFB: abaixo de 130 ms (Benchmark Inworld)

Vozes

  • 271+ presets nomeados em 15 idiomas
  • 20 presets selecionados a dedo expostos no menu suspenso; passe qualquer outro ID de voz via voice_id

Machine esquema legível: GET https://api.empiriolabs.ai/v1/models/tts-1-5-mini.