Gemini 3.1 Flash TTS | EmpirioLabs AI Docs

Google · Audio Generation

POST /v1/audio/speech

TTS altamente controlável com novas Tags de Áudio para estilo, tom, ritmo e entrega precisos em narração, assistentes e aplicativos de voz.

De um olhar

Campo	Valor
ID do modelo	`gemini-3-1-flash-tts`
Data de lançamento do modelo	2026-04-13
Modalidades de entrada	Texto
Modalidades de saída	Áudio
Janela de contexto	-
Precisão do peso	-
Características	text_to_speech, multi_speaker, multilíngue
Inferência nativa	Não
Novo	Sim
Endpoints suportados	`POST /v1/audio/speech`

Precificação

Carga	Especificação	Taxa
Entrada	por 1M de tokens de prompt	$2.60
Produção	por 1M de tokens gerados	$52.00

Exemplo de pedido

$ curl https://api.empiriolabs.ai/v1/audio/speech \
>   -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
>   -H 'Content-Type: application/json' \
>   -d '{"model": "gemini-3-1-flash-tts", "input": "Hello from EmpirioLabs."}'

Parâmetros

Parâmetro	Tipo	Obrigatório	Padrão	Descrição
`input`	String	sim	-	Texto para converter em fala. Para o modo multi-alto-falante, prefixe as linhas com Alto-falante1: / Alto-falante2:.
`mode`	enum	Não	`"single"`	Single = uma voz, multi = diálogo a duas vozes (usa voz + voz2 + nomes dos falantes). · Permitido: `single`, `multi`
`language`	String	Não	`"en-US"`	Etiqueta de idioma BCP-47 (en-US, es-ES, etc.) para pistas de pronúncia.
`voice`	enum	Não	`"Charon"`	Nome principal da voz (ex.: Kore, Puck, Aoede). Deixe em branco para o padrão. · Permitidos: `Zephyr`, `Puck`, `Charon`, `Kore`, `Fenrir`, `Leda`, `Orus`, `Aoede`, `Callirrhoe`, `Autonoe`, `Enceladus`, `Iapetus`, `Umbriel`, `Algieba`, `Despina`, `Erinome`, `Algenib`, `Rasalgethi`, `Laomedeia`, `Achernar`, `Alnilam`, `Schedar`, `Gacrux`, `Pulcherrima`, `Achird`, `Zubenelgenubi`, `Vindemiatrix`, `Sadachbia`, `Sadaltager`, `Sulafat`
`voice2`	enum	Não	`"Kore"`	Segundo nome de voz para modo multi-alto-falante. · Permitidos: `Zephyr`, `Puck`, `Charon`, `Kore`, `Fenrir`, `Leda`, `Orus`, `Aoede`, `Callirrhoe`, `Autonoe`, `Enceladus`, `Iapetus`, `Umbriel`, `Algieba`, `Despina`, `Erinome`, `Algenib`, `Rasalgethi`, `Laomedeia`, `Achernar`, `Alnilam`, `Schedar`, `Gacrux`, `Pulcherrima`, `Achird`, `Zubenelgenubi`, `Vindemiatrix`, `Sadachbia`, `Sadaltager`, `Sulafat`
`speaker1_name`	String	Não	`"Speaker1"`	Nome de exibição usado no prefixo de entrada para o alto-falante 1 (padrão: Alto-falante 1).
`speaker2_name`	String	Não	`"Speaker2"`	Nome de exibição usado no prefixo de entrada do alto-falante 2 (padrão: Alto-falante2).
`output_format`	enum	Não	`"WAV"`	Formato de arquivo de áudio (mp3, wav, opus, flac, etc.). · Permitido: `WAV`, `MP3`, `OGG`, `ALAW`, `MULAW`
`speed`	Número	Não	`1.0`	Taxa de reprodução. 1.0 = natural; <1 mais devagar, >1 mais rápido. · Alcance: 0,25 – 2,0
`volume_gain`	Número	Não	`0`	Ganho de saída em dB. 0 = inalterado. · Intervalo: -96 – 16
`sample_rate`	enum	Não	`"24000"`	Taxa de amostragem de saída em Hz (8000, 16000, 24000, 44100, 48000). · Permitidos: `8000`, `16000`, `22050`, `24000`, `44100`, `48000`
`style_prompt`	String	Não	-	Direção de estilo em linguagem natural (por exemplo, “caloroso, conversacional” ou “apresentador de notícias, sério”).

Notas

O TTS Gemini mais controlável até hoje.

Limites

Prompt de texto + estilo: 4.000 bytes cada (8.000 combinados)
Saída máxima: ~10 minutos
Faturamento de áudio: ~25 tokens por segundo (~15 chars/s)
A linguagem é autodetectada; A configuração de idioma é uma dica, não uma restrição

Tags de áudio inline (entrega de controle)

Emoção: [whispers], [shouts], [laughs], [sighs], [cheerful], [sad], [angry], etc.
Ritmo: [slow], [fast], [extremely fast], [normal pace]
Pausas: [short pause], [long pause], [breath]
Ênfase: [softly], [loudly], [high pitch], [low pitch], [rising tone], [falling tone]

Machine esquema legível: GET https://api.empiriolabs.ai/v1/models/gemini-3-1-flash-tts.