GLM TTS

GLM TTS
Z.ai · Audio Generation
POST /v1/audio/speech

text-to-speech baseadas em LLM, com clonagem de voz zero-shot de 3 a 10 segundos de áudio e saída controlável e expressiva emocionalmente via RL multi-recompensa.

De um olhar

CampoValor
ID do modeloglm-tts
Data de lançamento do modelo2025-12-11
Modalidades de entradaTexto, Áudio
Modalidades de saídaÁudio
Janela de contexto-
Precisão do pesoINT8 / FP16
Característicasvoice_cloning, emotion_control
Inferência nativaSim
NovoNão
Endpoints suportadosPOST /v1/audio/speech

Precificação

CargaEspecificaçãoTaxa
Rápido (INT8)por 1k caracteres$0.20
Qualidade (FP16)por 1k caracteres$0.21

Exemplo de pedido

$curl https://api.empiriolabs.ai/v1/audio/speech \
> -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
> -H 'Content-Type: application/json' \
> -d '{"model": "glm-tts", "input": "Hello from EmpirioLabs."}'

Parâmetros

ParâmetroTipoObrigatórioPadrãoDescrição
inputStringsim-Texto para sintetizar. Para múltiplos alto-falantes, use tags [S1] / [S2] ou linhas ‘Alto-falante N:’.
voiceenumNão"emma"emma=Inglês feminino, james=US Male, arthur=US Male alt, xiaomei=Chinese Female, zhigang=Chinese Male, custom=upload reference via voice_audio_url. · Permitidos: emma, james, arthur, xiaomei, zhigang, custom
voice_audio_urlStringNão-Consulte a URL de áudio para clonagem de voz personalizada. A gravação de referência deve conter o falante lendo exatamente essa frase de consentimento em voz alta, em sua própria voz: “Eu consinto que os Laboratórios Empirio clonem minha voz com o propósito de gerar fala sintética. Entendo que minha amostra de voz será usada para criar conteúdo de áudio personalizado.” Áudio de referência sem a frase é rejeitado.
output_formatenumNão"mp3"Formato de arquivo de mídia de saída (mp3, wav, mp4, png, jpg, etc., dependendo do endpoint). · Permitido: mp3, wav
speedNúmeroNão1.0Multiplicador de taxa de fala. · Alcance: 0,5 – 2,0
model_qualityenumNão"quality"qualidade=FP16 (melhor), rápido=INT8 (mais rápido) · Permitido: quality, fast
sample_rateenumNão"24000"Taxa de amostragem de saída em Hz. · Permitido: 24000, 16000
volumeNúmeroNão1.0Multiplicador de ganho de saída. · Alcance: 0,1 – 2,0
use_cacheBooleanoNãoVerdadeAcelera gerações idênticas repetidas.
optimize_inputBooleanoNãoVerdadePronúncia auto-fixa de termos técnicos, siglas e caracteres especiais.
seedNúmeroNão-Semente de reprodutibilidade.

Notas

Limites

  • Entrada máxima: 5.000 caracteres
  • Geração: 5-10 minutos

Clonagem de voz

  • Áudio de referência: 3-10 segundos
  • Formatos aceitos: WAV, MP3, OGG, FLAC, AAC, M4A, WebM

Vozes pré-definidas

  • emma (F em inglês)
  • James (EUA M)
  • Arthur (masculino do Reino Unido)
  • xiaomei (F chinês)
  • zhigang (M chinês)

Machine esquema legível: GET https://api.empiriolabs.ai/v1/models/glm-tts.