GLM TTS | EmpirioLabs AI Docs

Z.ai · Audio Generation

POST /v1/audio/speech

text-to-speech baseadas em LLM, com clonagem de voz zero-shot de 3 a 10 segundos de áudio e saída controlável e expressiva emocionalmente via RL multi-recompensa.

De um olhar

Campo	Valor
ID do modelo	`glm-tts`
Data de lançamento do modelo	2025-12-11
Modalidades de entrada	Texto, Áudio
Modalidades de saída	Áudio
Janela de contexto	-
Precisão do peso	INT8 / FP16
Características	voice_cloning, emotion_control
Inferência nativa	Sim
Novo	Não
Endpoints suportados	`POST /v1/audio/speech`

Precificação

Carga	Especificação	Taxa
Rápido (INT8)	por 1k caracteres	$0.20
Qualidade (FP16)	por 1k caracteres	$0.21

Exemplo de pedido

$ curl https://api.empiriolabs.ai/v1/audio/speech \
>   -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
>   -H 'Content-Type: application/json' \
>   -d '{"model": "glm-tts", "input": "Hello from EmpirioLabs."}'

Parâmetros

Parâmetro	Tipo	Obrigatório	Padrão	Descrição
`input`	String	sim	-	Texto para sintetizar. Para múltiplos alto-falantes, use tags [S1] / [S2] ou linhas ‘Alto-falante N:’.
`voice`	enum	Não	`"emma"`	emma=Inglês feminino, james=US Male, arthur=US Male alt, xiaomei=Chinese Female, zhigang=Chinese Male, custom=upload reference via voice_audio_url. · Permitidos: `emma`, `james`, `arthur`, `xiaomei`, `zhigang`, `custom`
`voice_audio_url`	String	Não	-	Consulte a URL de áudio para clonagem de voz personalizada. A gravação de referência deve conter o falante lendo exatamente essa frase de consentimento em voz alta, em sua própria voz: “Eu consinto que os Laboratórios Empirio clonem minha voz com o propósito de gerar fala sintética. Entendo que minha amostra de voz será usada para criar conteúdo de áudio personalizado.” Áudio de referência sem a frase é rejeitado.
`output_format`	enum	Não	`"mp3"`	Formato de arquivo de mídia de saída (mp3, wav, mp4, png, jpg, etc., dependendo do endpoint). · Permitido: `mp3`, `wav`
`speed`	Número	Não	`1.0`	Multiplicador de taxa de fala. · Alcance: 0,5 – 2,0
`model_quality`	enum	Não	`"quality"`	qualidade=FP16 (melhor), rápido=INT8 (mais rápido) · Permitido: `quality`, `fast`
`sample_rate`	enum	Não	`"24000"`	Taxa de amostragem de saída em Hz. · Permitido: `24000`, `16000`
`volume`	Número	Não	`1.0`	Multiplicador de ganho de saída. · Alcance: 0,1 – 2,0
`use_cache`	Booleano	Não	Verdade	Acelera gerações idênticas repetidas.
`optimize_input`	Booleano	Não	Verdade	Pronúncia auto-fixa de termos técnicos, siglas e caracteres especiais.
`seed`	Número	Não	-	Semente de reprodutibilidade.

Notas

Limites

Entrada máxima: 5.000 caracteres
Geração: 5-10 minutos

Clonagem de voz

Áudio de referência: 3-10 segundos
Formatos aceitos: WAV, MP3, OGG, FLAC, AAC, M4A, WebM

Vozes pré-definidas

emma (F em inglês)
James (EUA M)
Arthur (masculino do Reino Unido)
xiaomei (F chinês)
zhigang (M chinês)

Machine esquema legível: GET https://api.empiriolabs.ai/v1/models/glm-tts.