GLM TTS

GLM TTS
Z.ai · Audio Generation
POST /v1/audio/speech

text-to-speech basées sur LLM avec clonage vocal zéro shot de 3 à 10 secondes d’audio et une sortie contrôlable et expressive émotionnelle via RL multi-récompenses.

En un coup d’œil

TerrainValeur
Identifiant de modèleglm-tts
Date de sortie du modèle2025-12-11
Modalités d’entréeTexte, Audio
Modalités de sortieAudio
Fenêtre de contexte-
Précision du poidsINT8 / FP16
Caractéristiquesvoice_cloning, emotion_control
Inférence autochtoneOui
NouveauNon
Points de terminaison pris en chargePOST /v1/audio/speech

Tarification

ChargeSpecTaux
Rapide (INT8)par 1k caractères$0.20
Qualité (FP16)par 1k caractères$0.21

Exemple de demande

$curl https://api.empiriolabs.ai/v1/audio/speech \
> -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
> -H 'Content-Type: application/json' \
> -d '{"model": "glm-tts", "input": "Hello from EmpirioLabs."}'

Paramètres

ParamètreTypeObligatoirePar défautDescription
inputCordeOui-Texte à synthèse. Pour les haut-parleurs multiples, utilisez les tags [S1] / [S2] ou les lignes « Speaker N:. »
voiceenumnon"emma"emma = Anglais féminin, james=US Masculin, arthur=US Masculin alt, xiaomei=Chinoise féminine, zhigang=Chinois Homme, custom=upload reference via voice_audio_url. · Autorisé: emma, james, arthur, xiaomei, zhigang, custom
voice_audio_urlCordenon-Référence à l’URL audio pour le clonage vocal personnalisé. L’enregistrement de référence doit contenir le locuteur lisant à voix haute cette phrase de consentement exacte: « J’accepte qu’Empirio Labs clone ma voix dans le but de générer un discours synthétique. Je comprends que mon échantillon vocal sera utilisé pour créer du contenu audio personnalisé. » L’audio de référence sans la phrase est rejeté.
output_formatenumnon"mp3"Format de fichier média de sortie (mp3, wav, mp4, png, jpg, etc., selon le point d’arrivée). · Autorisé: mp3, wav
speedNombrenon1.0Multiplicateur de débit de parole. · Plage: 0,5 – 2,0
model_qualityenumnon"quality"qualité = FP16 (mieux), rapide = INT8 (plus rapide) · Autorisé: quality, fast
sample_rateenumnon"24000"Taux d’échantillonnage de sortie en Hz. · Autorisé: 24000, 16000
volumeNombrenon1.0Multiplicateur de gain de sortie. · Portée: 0,1 – 2,0
use_cacheBooléennonVraiCela accélère les générations identiques répétées.
optimize_inputBooléennonVraiPrononciation auto-fixée des termes techniques, acronymes et caractères spéciaux.
seedNombrenon-Graine de reproductibilité.

Notes

Limites

  • Entrée maximale: 5 000 caractères
  • Génération: 5-10 minutes

Clonage de voix

  • Audio de référence: 3 à 10 secondes
  • Formats acceptés: WAV, MP3, OGG, FLAC, AAC, M4A, WebM

Voix prédéfinies

  • emma (F anglaise)
  • James (US M)
  • Arthur (Royaume-Uni, homme)
  • xiaomei (F chinois)
  • zhigang (chinois M)

_Machine schéma lisible: _ GET https://api.empiriolabs.ai/v1/models/glm-tts.