GLM TTS | EmpirioLabs AI Docs

Z.ai · Audio Generation

POST /v1/audio/speech

LLM-basierte text-to-speech mit Zero-Shot-Sprachklonen aus 3-10 Sekunden Audio und emotionsausdrucksstarkem, steuerbarem Output über Multi-Reward RL.

Auf einen Blick

Spielfeld	Wert
Modell-ID	`glm-tts`
Modell-Veröffentlichungsdatum	2025-12-11
Eingabemodalitäten	Text, Audio
Ausgabemodalitäten	Audio
Kontextfenster	-
Gewichtspräzision	INT8 / FP16
Merkmale	voice_cloning, emotion_control
Native Schlussfolgerung	Ja
Neu	Nein
Unterstützte Endpunkte	`POST /v1/audio/speech`

Preisgestaltung

Berechnen	Spezifikation	Zinssatz
Schnell (INT8)	pro 1.000 Zeichen	$0.20
Qualität (FP16)	pro 1.000 Zeichen	$0.21

Beispielanfrage

$ curl https://api.empiriolabs.ai/v1/audio/speech \
>   -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
>   -H 'Content-Type: application/json' \
>   -d '{"model": "glm-tts", "input": "Hello from EmpirioLabs."}'

Parameter

Parameter	Typ	Erforderlich	Default	Beschreibung
`input`	String	Ja	-	Text zur Synthese. Für die Nutzung mit mehreren Lautsprechern [S1] / [S2]-Tags oder ‘Speaker N:’-Zeilen.
`voice`	ENUM	Nein	`"emma"`	emma=Englisch weiblich, james=US männlich, arthur=US männlich alt, xiaomei=chinesisch weiblich, zhigang=chinesisch männlich, benutzerdefiniert=Referenz hochladen über voice_audio_url. · Erlaubt: `emma`, `james`, `arthur`, `xiaomei`, `zhigang`, `custom`
`voice_audio_url`	String	Nein	-	Referenz auf Audio-URL für benutzerdefiniertes Sprachklonen. Die Referenzaufnahme muss zeigen, dass der Sprecher genau diese Einwilligungsphrase laut in seiner eigenen Stimme vorliest: “Ich stimme dem Klonen meiner Stimme durch Empirio Labs zu, um synthetische Sprache zu erzeugen. Ich verstehe, dass meine Sprachprobe verwendet wird, um personalisierte Audioinhalte zu erstellen.” Referenzaudio ohne Phrase wird abgelehnt.
`output_format`	ENUM	Nein	`"mp3"`	Ausgabe des Mediendateiformats (mp3, wav, mp4, png, jpg usw., je nach Endpunkt). · Erlaubt: `mp3`, `wav`
`speed`	Anzahl	Nein	`1.0`	Sprechratemultiplikator. · Reichweite: 0,5 – 2,0
`model_quality`	ENUM	Nein	`"quality"`	quality=FP16 (besser), schnell=INT8 (schneller) · Erlaubt: `quality`, `fast`
`sample_rate`	ENUM	Nein	`"24000"`	Ausgabe-Abtastrate in Hz. · Erlaubt: `24000`, `16000`
`volume`	Anzahl	Nein	`1.0`	Ausgangsverstärkungsmultiplikator. · Reichweite: 0,1 – 2,0
`use_cache`	Boolean	Nein	Stimmt	Beschleunigt wiederholte identische Generationen.
`optimize_input`	Boolean	Nein	Stimmt	Autofix-Aussprache von Fachbegriffen, Abkürzungen und Sonderzeichen.
`seed`	Anzahl	Nein	-	Reproduzierbarkeitssamen.

Anmerkungen

Grenzen

Maximale Eingabe: 5.000 Zeichen
Erzeugung: 5–10 Minuten

Stimmklonen

Referenz-Audio: 3–10 Sekunden
Akzeptierte Formate: WAV, MP3, OGG, FLAC, AAC, M4A, WebM

Voreingestellte Stimmen

emma (Englisch F)
James (US M)
arthur (UK M)
xiaomei (Chinesisch F)
zhigang (chinesisches M)

Machine-lesbares Schema: GET https://api.empiriolabs.ai/v1/models/glm-tts.