GLM TTS

Z.ai · Audio Generation

POST /v1/audio/speech

text-to-speech basado en LLM con clonación de voz sin disparo a partir de 3-10 segundos de audio y salida expresiva emocionalmente controlable mediante RL multi-recompensa.

A simple vista

Campo	Valor
ID de modelo	`glm-tts`
Fecha de lanzamiento del modelo	2025-12-11
Modalidades de entrada	Texto, Audio
Modalidades de salida	Audio
Ventana de contexto	-
Precisión del peso	INT8 / FP16
Características	voice_cloning, emotion_control
Inferencia nativa	Sí
Nuevo	No
Puntos finales soportados	`POST /v1/audio/speech`

Precios

Carga	Especificaciones	Tarifa
Rápido (INT8)	por cada 1.000 caracteres	$0.20
Calidad (FP16)	por cada 1.000 caracteres	$0.21

Solicitud de ejemplo

$ curl https://api.empiriolabs.ai/v1/audio/speech \
>   -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
>   -H 'Content-Type: application/json' \
>   -d '{"model": "glm-tts", "input": "Hello from EmpirioLabs."}'

Parámetros

Parámetro	Tipo	Obligatorio	Default	Descripción
`input`	Cuerda	Sí	-	Texto para sintetizar. Para múltiples altavoces usa etiquetas [S1] / [S2] o líneas ‘Speaker N:’.
`voice`	enum	no	`"emma"`	emma=Inglés femenino, james=Hombre estadounidense, arthur=Alt masculino estadounidense, xiaomei=chino femenino, zhigang=chino masculino, personalizado=subido referencia vía voice_audio_url. · Permitidos: `emma`, `james`, `arthur`, `xiaomei`, `zhigang`, `custom`
`voice_audio_url`	Cuerda	no	-	Consulta la URL de audio para clonación de voz personalizada. La grabación de referencia debe contener al hablante leyendo en voz alta esta misma frase de consentimiento, con su propia voz: “Consiento que Empirio Labs clone mi voz con el propósito de generar un habla sintética. Entiendo que mi muestra de voz se utilizará para crear contenido de audio personalizado.” El audio de referencia sin la frase es rechazado.
`output_format`	enum	no	`"mp3"`	Formato de archivo multimedia de salida (mp3, wav, mp4, png, jpg, etc., dependiendo del punto final). · Permitidos: `mp3`, `wav`
`speed`	Número	no	`1.0`	Multiplicador de tasa de conversación. · Rango: 0,5 – 2,0
`model_quality`	enum	no	`"quality"`	calidad=FP16 (mejor), rápido=INT8 (más rápido) · Permitidos: `quality`, `fast`
`sample_rate`	enum	no	`"24000"`	Tasa de muestreo de salida en Hz. · Permitidos: `24000`, `16000`
`volume`	Número	no	`1.0`	Multiplicador de ganancia de salida. · Rango: 0,1 – 2,0
`use_cache`	Booleano	no	Cierto	Acelera generaciones idénticas y repetidas.
`optimize_input`	Booleano	no	Cierto	Pronunciación automática de términos técnicos, acrónimos y caracteres especiales.
`seed`	Número	no	-	Semilla de reproducibilidad.

Notas

Límites

Entrada máxima: 5.000 caracteres
Generación: 5-10 minutos

Clonación de voz

Audio de referencia: 3-10 segundos
Formatos aceptados: WAV, MP3, OGG, FLAC, AAC, M4A, WebM

Voces predefinidas

emma (F inglesa)
James (EE. UU.)
Arthur (Reino Unido M)
xiaomei (F china)
zhigang (chino M)

Machine-legible esquema: GET https://api.empiriolabs.ai/v1/models/glm-tts.