GLM TTS

GLM TTS
Z.ai · Audio Generation
POST /v1/audio/speech

text-to-speech basado en LLM con clonación de voz sin disparo a partir de 3-10 segundos de audio y salida expresiva emocionalmente controlable mediante RL multi-recompensa.

A simple vista

CampoValor
ID de modeloglm-tts
Fecha de lanzamiento del modelo2025-12-11
Modalidades de entradaTexto, Audio
Modalidades de salidaAudio
Ventana de contexto-
Precisión del pesoINT8 / FP16
Característicasvoice_cloning, emotion_control
Inferencia nativa
NuevoNo
Puntos finales soportadosPOST /v1/audio/speech

Precios

CargaEspecificacionesTarifa
Rápido (INT8)por cada 1.000 caracteres$0.20
Calidad (FP16)por cada 1.000 caracteres$0.21

Solicitud de ejemplo

$curl https://api.empiriolabs.ai/v1/audio/speech \
> -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
> -H 'Content-Type: application/json' \
> -d '{"model": "glm-tts", "input": "Hello from EmpirioLabs."}'

Parámetros

ParámetroTipoObligatorioDefaultDescripción
inputCuerda-Texto para sintetizar. Para múltiples altavoces usa etiquetas [S1] / [S2] o líneas ‘Speaker N:’.
voiceenumno"emma"emma=Inglés femenino, james=Hombre estadounidense, arthur=Alt masculino estadounidense, xiaomei=chino femenino, zhigang=chino masculino, personalizado=subido referencia vía voice_audio_url. · Permitidos: emma, james, arthur, xiaomei, zhigang, custom
voice_audio_urlCuerdano-Consulta la URL de audio para clonación de voz personalizada. La grabación de referencia debe contener al hablante leyendo en voz alta esta misma frase de consentimiento, con su propia voz: “Consiento que Empirio Labs clone mi voz con el propósito de generar un habla sintética. Entiendo que mi muestra de voz se utilizará para crear contenido de audio personalizado.” El audio de referencia sin la frase es rechazado.
output_formatenumno"mp3"Formato de archivo multimedia de salida (mp3, wav, mp4, png, jpg, etc., dependiendo del punto final). · Permitidos: mp3, wav
speedNúmerono1.0Multiplicador de tasa de conversación. · Rango: 0,5 – 2,0
model_qualityenumno"quality"calidad=FP16 (mejor), rápido=INT8 (más rápido) · Permitidos: quality, fast
sample_rateenumno"24000"Tasa de muestreo de salida en Hz. · Permitidos: 24000, 16000
volumeNúmerono1.0Multiplicador de ganancia de salida. · Rango: 0,1 – 2,0
use_cacheBooleanonoCiertoAcelera generaciones idénticas y repetidas.
optimize_inputBooleanonoCiertoPronunciación automática de términos técnicos, acrónimos y caracteres especiales.
seedNúmerono-Semilla de reproducibilidad.

Notas

Límites

  • Entrada máxima: 5.000 caracteres
  • Generación: 5-10 minutos

Clonación de voz

  • Audio de referencia: 3-10 segundos
  • Formatos aceptados: WAV, MP3, OGG, FLAC, AAC, M4A, WebM

Voces predefinidas

  • emma (F inglesa)
  • James (EE. UU.)
  • Arthur (Reino Unido M)
  • xiaomei (F china)
  • zhigang (chino M)

Machine-legible esquema: GET https://api.empiriolabs.ai/v1/models/glm-tts.