Gemini 3.1 Flash TTS

Gemini 3.1 Flash TTS
Google · Audio Generation
POST /v1/audio/speech

TTS altamente controlável com novas Tags de Áudio para estilo, tom, ritmo e entrega precisos em narração, assistentes e aplicativos de voz.

De um olhar

CampoValor
ID do modelogemini-3-1-flash-tts
Data de lançamento do modelo2026-04-13
Modalidades de entradaTexto
Modalidades de saídaÁudio
Janela de contexto-
Precisão do peso-
Característicastext_to_speech, multi_speaker, multilíngue
Inferência nativaNão
NovoSim
Endpoints suportadosPOST /v1/audio/speech

Precificação

CargaEspecificaçãoTaxa
Entradapor 1M de tokens de prompt$2.60
Produçãopor 1M de tokens gerados$52.00

Exemplo de pedido

$curl https://api.empiriolabs.ai/v1/audio/speech \
> -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
> -H 'Content-Type: application/json' \
> -d '{"model": "gemini-3-1-flash-tts", "input": "Hello from EmpirioLabs."}'

Parâmetros

ParâmetroTipoObrigatórioPadrãoDescrição
inputStringsim-Texto para converter em fala. Para o modo multi-alto-falante, prefixe as linhas com Alto-falante1: / Alto-falante2:.
modeenumNão"single"Single = uma voz, multi = diálogo a duas vozes (usa voz + voz2 + nomes dos falantes). · Permitido: single, multi
languageStringNão"en-US"Etiqueta de idioma BCP-47 (en-US, es-ES, etc.) para pistas de pronúncia.
voiceenumNão"Charon"Nome principal da voz (ex.: Kore, Puck, Aoede). Deixe em branco para o padrão. · Permitidos: Zephyr, Puck, Charon, Kore, Fenrir, Leda, Orus, Aoede, Callirrhoe, Autonoe, Enceladus, Iapetus, Umbriel, Algieba, Despina, Erinome, Algenib, Rasalgethi, Laomedeia, Achernar, Alnilam, Schedar, Gacrux, Pulcherrima, Achird, Zubenelgenubi, Vindemiatrix, Sadachbia, Sadaltager, Sulafat
voice2enumNão"Kore"Segundo nome de voz para modo multi-alto-falante. · Permitidos: Zephyr, Puck, Charon, Kore, Fenrir, Leda, Orus, Aoede, Callirrhoe, Autonoe, Enceladus, Iapetus, Umbriel, Algieba, Despina, Erinome, Algenib, Rasalgethi, Laomedeia, Achernar, Alnilam, Schedar, Gacrux, Pulcherrima, Achird, Zubenelgenubi, Vindemiatrix, Sadachbia, Sadaltager, Sulafat
speaker1_nameStringNão"Speaker1"Nome de exibição usado no prefixo de entrada para o alto-falante 1 (padrão: Alto-falante 1).
speaker2_nameStringNão"Speaker2"Nome de exibição usado no prefixo de entrada do alto-falante 2 (padrão: Alto-falante2).
output_formatenumNão"WAV"Formato de arquivo de áudio (mp3, wav, opus, flac, etc.). · Permitido: WAV, MP3, OGG, ALAW, MULAW
speedNúmeroNão1.0Taxa de reprodução. 1.0 = natural; <1 mais devagar, >1 mais rápido. · Alcance: 0,25 – 2,0
volume_gainNúmeroNão0Ganho de saída em dB. 0 = inalterado. · Intervalo: -96 – 16
sample_rateenumNão"24000"Taxa de amostragem de saída em Hz (8000, 16000, 24000, 44100, 48000). · Permitidos: 8000, 16000, 22050, 24000, 44100, 48000
style_promptStringNão-Direção de estilo em linguagem natural (por exemplo, “caloroso, conversacional” ou “apresentador de notícias, sério”).

Notas

O TTS Gemini mais controlável até hoje.

Limites

  • Prompt de texto + estilo: 4.000 bytes cada (8.000 combinados)
  • Saída máxima: ~10 minutos
  • Faturamento de áudio: ~25 tokens por segundo (~15 chars/s)
  • A linguagem é autodetectada; A configuração de idioma é uma dica, não uma restrição

Tags de áudio inline (entrega de controle)

  • Emoção: [whispers], [shouts], [laughs], [sighs], [cheerful], [sad], [angry], etc.
  • Ritmo: [slow], [fast], [extremely fast], [normal pace]
  • Pausas: [short pause], [long pause], [breath]
  • Ênfase: [softly], [loudly], [high pitch], [low pitch], [rising tone], [falling tone]

Machine esquema legível: GET https://api.empiriolabs.ai/v1/models/gemini-3-1-flash-tts.