GLM TTS

GLM TTS
Z.ai · Audio Generation
POST /v1/audio/speech

LLM-basierte text-to-speech mit Zero-Shot-Sprachklonen aus 3-10 Sekunden Audio und emotionsausdrucksstarkem, steuerbarem Output über Multi-Reward RL.

Auf einen Blick

SpielfeldWert
Modell-IDglm-tts
Modell-Veröffentlichungsdatum2025-12-11
EingabemodalitätenText, Audio
AusgabemodalitätenAudio
Kontextfenster-
GewichtspräzisionINT8 / FP16
Merkmalevoice_cloning, emotion_control
Native SchlussfolgerungJa
NeuNein
Unterstützte EndpunktePOST /v1/audio/speech

Preisgestaltung

BerechnenSpezifikationZinssatz
Schnell (INT8)pro 1.000 Zeichen$0.20
Qualität (FP16)pro 1.000 Zeichen$0.21

Beispielanfrage

$curl https://api.empiriolabs.ai/v1/audio/speech \
> -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
> -H 'Content-Type: application/json' \
> -d '{"model": "glm-tts", "input": "Hello from EmpirioLabs."}'

Parameter

ParameterTypErforderlichDefaultBeschreibung
inputStringJa-Text zur Synthese. Für die Nutzung mit mehreren Lautsprechern [S1] / [S2]-Tags oder ‘Speaker N:’-Zeilen.
voiceENUMNein"emma"emma=Englisch weiblich, james=US männlich, arthur=US männlich alt, xiaomei=chinesisch weiblich, zhigang=chinesisch männlich, benutzerdefiniert=Referenz hochladen über voice_audio_url. · Erlaubt: emma, james, arthur, xiaomei, zhigang, custom
voice_audio_urlStringNein-Referenz auf Audio-URL für benutzerdefiniertes Sprachklonen. Die Referenzaufnahme muss zeigen, dass der Sprecher genau diese Einwilligungsphrase laut in seiner eigenen Stimme vorliest: “Ich stimme dem Klonen meiner Stimme durch Empirio Labs zu, um synthetische Sprache zu erzeugen. Ich verstehe, dass meine Sprachprobe verwendet wird, um personalisierte Audioinhalte zu erstellen.” Referenzaudio ohne Phrase wird abgelehnt.
output_formatENUMNein"mp3"Ausgabe des Mediendateiformats (mp3, wav, mp4, png, jpg usw., je nach Endpunkt). · Erlaubt: mp3, wav
speedAnzahlNein1.0Sprechratemultiplikator. · Reichweite: 0,5 – 2,0
model_qualityENUMNein"quality"quality=FP16 (besser), schnell=INT8 (schneller) · Erlaubt: quality, fast
sample_rateENUMNein"24000"Ausgabe-Abtastrate in Hz. · Erlaubt: 24000, 16000
volumeAnzahlNein1.0Ausgangsverstärkungsmultiplikator. · Reichweite: 0,1 – 2,0
use_cacheBooleanNeinStimmtBeschleunigt wiederholte identische Generationen.
optimize_inputBooleanNeinStimmtAutofix-Aussprache von Fachbegriffen, Abkürzungen und Sonderzeichen.
seedAnzahlNein-Reproduzierbarkeitssamen.

Anmerkungen

Grenzen

  • Maximale Eingabe: 5.000 Zeichen
  • Erzeugung: 5–10 Minuten

Stimmklonen

  • Referenz-Audio: 3–10 Sekunden
  • Akzeptierte Formate: WAV, MP3, OGG, FLAC, AAC, M4A, WebM

Voreingestellte Stimmen

  • emma (Englisch F)
  • James (US M)
  • arthur (UK M)
  • xiaomei (Chinesisch F)
  • zhigang (chinesisches M)

Machine-lesbares Schema: GET https://api.empiriolabs.ai/v1/models/glm-tts.