GLM TTS

Z.ai · Audio Generation

POST /v1/audio/speech

text-to-speech basées sur LLM avec clonage vocal zéro shot de 3 à 10 secondes d’audio et une sortie contrôlable et expressive émotionnelle via RL multi-récompenses.

En un coup d’œil

Terrain	Valeur
Identifiant de modèle	`glm-tts`
Date de sortie du modèle	2025-12-11
Modalités d’entrée	Texte, Audio
Modalités de sortie	Audio
Fenêtre de contexte	-
Précision du poids	INT8 / FP16
Caractéristiques	voice_cloning, emotion_control
Inférence autochtone	Oui
Nouveau	Non
Points de terminaison pris en charge	`POST /v1/audio/speech`

Tarification

Charge	Spec	Taux
Rapide (INT8)	par 1k caractères	$0.20
Qualité (FP16)	par 1k caractères	$0.21

Exemple de demande

$ curl https://api.empiriolabs.ai/v1/audio/speech \
>   -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
>   -H 'Content-Type: application/json' \
>   -d '{"model": "glm-tts", "input": "Hello from EmpirioLabs."}'

Paramètres

Paramètre	Type	Obligatoire	Par défaut	Description
`input`	Corde	Oui	-	Texte à synthèse. Pour les haut-parleurs multiples, utilisez les tags [S1] / [S2] ou les lignes « Speaker N:. »
`voice`	enum	non	`"emma"`	emma = Anglais féminin, james=US Masculin, arthur=US Masculin alt, xiaomei=Chinoise féminine, zhigang=Chinois Homme, custom=upload reference via voice_audio_url. · Autorisé: `emma`, `james`, `arthur`, `xiaomei`, `zhigang`, `custom`
`voice_audio_url`	Corde	non	-	Référence à l’URL audio pour le clonage vocal personnalisé. L’enregistrement de référence doit contenir le locuteur lisant à voix haute cette phrase de consentement exacte: « J’accepte qu’Empirio Labs clone ma voix dans le but de générer un discours synthétique. Je comprends que mon échantillon vocal sera utilisé pour créer du contenu audio personnalisé. » L’audio de référence sans la phrase est rejeté.
`output_format`	enum	non	`"mp3"`	Format de fichier média de sortie (mp3, wav, mp4, png, jpg, etc., selon le point d’arrivée). · Autorisé: `mp3`, `wav`
`speed`	Nombre	non	`1.0`	Multiplicateur de débit de parole. · Plage: 0,5 – 2,0
`model_quality`	enum	non	`"quality"`	qualité = FP16 (mieux), rapide = INT8 (plus rapide) · Autorisé: `quality`, `fast`
`sample_rate`	enum	non	`"24000"`	Taux d’échantillonnage de sortie en Hz. · Autorisé: `24000`, `16000`
`volume`	Nombre	non	`1.0`	Multiplicateur de gain de sortie. · Portée: 0,1 – 2,0
`use_cache`	Booléen	non	Vrai	Cela accélère les générations identiques répétées.
`optimize_input`	Booléen	non	Vrai	Prononciation auto-fixée des termes techniques, acronymes et caractères spéciaux.
`seed`	Nombre	non	-	Graine de reproductibilité.

Notes

Limites

Entrée maximale: 5 000 caractères
Génération: 5-10 minutes

Clonage de voix

Audio de référence: 3 à 10 secondes
Formats acceptés: WAV, MP3, OGG, FLAC, AAC, M4A, WebM

Voix prédéfinies

emma (F anglaise)
James (US M)
Arthur (Royaume-Uni, homme)
xiaomei (F chinois)
zhigang (chinois M)

_Machine schéma lisible: _ GET https://api.empiriolabs.ai/v1/models/glm-tts.