TTS 1.5 Mini | EmpirioLabs AI Docs

Inworld · Audio Generation

POST /v1/audio/speech

Síntese de voz TTFB abaixo de 130ms com 271+ vozes em 15 idiomas, prosódia expressiva e streaming SSE em tempo real para agentes de voz de baixa latência.

De um olhar

Campo	Valor
ID do modelo	`tts-1-5-mini`
Data de lançamento do modelo	2026-05-05
Modalidades de entrada	Texto
Modalidades de saída	Áudio
Janela de contexto	-
Precisão do peso	-
Características	multi_speaker, real_time, low_latency, streaming, word_timestamps, character_timestamps, multilíngue, expressive_prosody
Inferência nativa	Não
Novo	Sim
Endpoints suportados	`POST /v1/audio/speech`, `POST /v1/audio/speech:stream`, `GET /v1/voices`

Precificação

Carga	Especificação	Taxa
Síntese	por 1M de caracteres	$17.50 (era $25.00)

Exemplo de pedido

$ curl https://api.empiriolabs.ai/v1/audio/speech \
>   -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
>   -H 'Content-Type: application/json' \
>   -d '{"model": "tts-1-5-mini", "input": "Hello from EmpirioLabs."}'

Parâmetros

Parâmetro	Tipo	Obrigatório	Padrão	Descrição
`input`	String	sim	-	Texto para sintetizar. No máximo 2.000 caracteres por pedido - faça um texto maior nos limites das frases no cliente. · Máximo: 2000
`voice`	enum	Não	`"Sarah"`	Predefinição de voz. 20 vozes escolhidas a dedo cobrindo inglês + espanhol + português + hindi + vários sotaques. Para o catálogo completo de 271 vozes (incluindo vozes clonadas), use voice_id em vez disso. · Permitidos: `Sarah`, `Olivia`, `Elizabeth`, `Ashley`, `Wendy`, `Julia`, `Priya`, `Pixie`, `Deborah`, `Alex`, `Mark`, `Edward`, `Theodore`, `Ronald`, `Dennis`, `Timothy`, `Shaun`, `Craig`, `Hades`, `Heitor`
`voice_id`	String	Não	-	ID de voz livre. Sobrepõe a voz quando ativado. Use isso para falar com vozes fora da lista selecionada de 20 pré-sets - O Inworld TTS 1.5 traz 271+ vozes nomeadas em 15 idiomas (sotaques regionais, variantes de gênero). Exemplo: Maitê, Olivia ou qualquer nome de voz do GET /v1/voices.
`language`	enum	Não	`"en-US"`	Código da língua BCP-47. Inworld TTS 1.5 cobre 15 idiomas. · Permitidos: `en-US`, `en-GB`, `es-ES`, `es-MX`, `fr-FR`, `de-DE`, `it-IT`, `pt-BR`, `pt-PT`, `nl-NL`, `pl-PL`, `ru-RU`, `ja-JP`, `ko-KR`, `zh-CN`, `hi-IN`, `ar-EG`, `he-IL`
`output_format`	enum	Não	`"WAV"`	Áudio container/codec. WAV = LINEAR16 dentro do RIFF (onipresente). MP3 / OGG = comprimido. PCM = raw sem cabeçalho - útil para reprodução chunked-real-time. FLAC = sem perdas. · Permitidos: `MP3`, `WAV`, `OGG`, `FLAC`, `PCM`, `ALAW`, `MULAW`
`sample_rate`	enum	Não	`"24000"`	A taxa de amostragem de saída em Hz. 24000 é o padrão da Inworld e o que seus modelos de voz treinam; Aumento para 48000 para qualidade de transmissão. · Permitidos: `8000`, `16000`, `22050`, `24000`, `32000`, `44100`, `48000`
`speed`	Número	Não	`1.0`	Multiplicador de taxa de fala. 0,5 = metade da velocidade, 1,5 = 50% mais rápido. · Alcance: 0,5 – 1,5
`temperature`	Número	Não	`1.0`	Expressividade / variabilidade da voz. Lower = mais consistente / “plano”; mais alto = mais expressivo, mas com mais variação entre os renders. · Alcance: 0,1 – 2,0
`bit_rate`	Número	Não	`128000`	Bitrate em bps para MP3 / OGG_OPUS. Ignorado por outras codificações. · Intervalo: 32000 – 320000
`apply_text_normalization`	enum	Não	`"ON"`	Quando ON, o Inworld expande números / abreviações / datas para a forma falada (“USD 5” → “cinco dólares americanos”). · Permitido: `ON`, `OFF`
`timestamp_type`	enum	Não	`"NONE"`	Se não for NENHUMA, a resposta inclui carimbos de tempo por palavra ou por caractere em timestamp_info. Útil para interfaces de legendas / destaques. · Permitido: `NONE`, `WORD`, `CHARACTER`

Notas

Limites

Entrada máxima: 2.000 caracteres por solicitação (pedaço de texto maior nos limites das frases)
WebSocket: 20 conexões simultâneas, 5 contexts/connection
Mensagem por WS: 1.000 caracteres

Latência

P90 TTFB: abaixo de 130 ms (Benchmark Inworld)

Vozes

271+ presets nomeados em 15 idiomas
20 presets selecionados a dedo expostos no menu suspenso; passe qualquer outro ID de voz via voice_id

Machine esquema legível: GET https://api.empiriolabs.ai/v1/models/tts-1-5-mini.