GLM 5.2

GLM 5.2
Z.ai · Text Generation
/v1/chat/completions

Logik- und Codierungsmodell mit einem 1M Token-Kontext, 128K-Ausgabe, anpassbarem Schlussfolgerungsaufwand, nativer Websuche und Werkzeugaufrufen.

Auf einen Blick

SpielfeldWert
Modell-IDglm-5-2
Modell-Veröffentlichungsdatum2026-06-16
EingabemodalitätenText
AusgabemodalitätenText
Kontextfenster1M
Gewichtspräzision-
Maximale Ausgabetoken131,072
RegionSingapur
MerkmaleArgumentation, function_calling, structured_output, web_search
Native SchlussfolgerungNein
NeuJa
Unterstützte Endpunkte/v1/chat/completions, /v1/responses, /v1/messages

Preisgestaltung

BerechnenSpezifikationZinssatz
Eingabepro 1M Prompt-Token$1.40
Ausgabepro 1 Million generierter Token$4.40
Websucheauf Wunsch$0.033

Beispielanfrage

$curl https://api.empiriolabs.ai/v1/chat/completions \
> -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
> -H 'Content-Type: application/json' \
> -d '{"model": "glm-5-2", "messages": [{"role":"user","content":"Hello"}]}'

Parameter

ParameterTypErforderlichDefaultBeschreibung
max_tokensGanzzahlNein65536Maximale Anzahl der zu generierenden Ausgabetoken. · Reichweite: 1 – 131072
temperatureAnzahlNein1Kontrolliert Zufall. Niedrigere Werte machen die Antworten deterministischer. · Reichweite: 0 – 1
top_pAnzahlNein0.95Kernproben-Cutoff. · Reichweite: 0,01 – 1
reasoning_effortENUMNein"max"GLM-5.2 Schlussfolgerung. keines verhindert das Denken; Minimal bis maximal geben Sie an, wie stark das Modell argumentiert, bevor Sie antworten. Max wird für komplexes Programmieren empfohlen. · Erlaubt: none, minimal, low, medium, high, xhigh, max
enable_thinkingBooleanNeinStimmtLass das Modell überlegen, bevor du antwortest. Schalten Sie sie für Antworten mit niedrigster Latenz oder streng strukturierte Ausgaben aus.
do_sampleBooleanNeinStimmtAktivieren Sie das Sampling. Schalten Sie es für gierige deterministische Ausgaben aus (Temperatur und top_p werden ignoriert).
tool_web_searchBooleanNeinfalschAktivieren Sie die integrierte Websuche. Fügt $0.033 pro Anfrage hinzu, wenn man es nutzt.
search_recency_filterENUMNein"noLimit"Beschränke die Websuchergebnisse auf ein aktuelles Fenster. · Erlaubt: oneDay, oneWeek, oneMonth, oneYear, noLimit
countGanzzahlNein10Anzahl der Websuchergebnisse, die abgerufen werden müssen, wenn die Websuche aktiviert ist. · Reichweite: 1 – 50
search_domain_filterStringNein-Beschränke die Websuche auf eine bestimmte Domäne.
search_promptStringNein-Optionaler Prompt, der verwendet wird, um abgerufene Websuchergebnisse zusammenzufassen.
search_resultBooleanNeinStimmtGeben Sie die Metadaten der Websuchergebnisse in der Antwort zurück, wenn die Websuche aktiviert ist.
tool_streamBooleanNeinfalschStreame Funktionsaufruf-Argumente inkrementell, wenn du streamst.
toolsAnordnungNein[]OpenAI-kompatible Funktionsaufruf-Werkzeugdefinitionen.
tool_choiceGegenstandNein-OpenAI-kompatible Werkzeugwahlsteuerung.
response_formatGegenstandNein-OpenAI-kompatibler JSON-Modus. Nutze Denkbehinderung für streng strukturierte Ausgaben.
stopAnordnungNein-Optionale Stop-Sequenzen (bis zu 4).

Varianten

:variant1

SpielfeldWert
Modell-IDglm-5-2:variant1
Modell-Veröffentlichungsdatum2026-06-16
RegionDeutschland
Kontextfenster1M
Gewichtspräzision-
Maximale Ausgabetoken131,072
MerkmaleReasoning, function_calling, structured_output, Cache
Native SchlussfolgerungNein
Unterstützte EndpunktePOST /v1/chat/completions, POST /v1/responses, POST /v1/messages

Preisgestaltung

BerechnenSpezifikationZinssatz
Eingabepro 1M Prompt-Token$1.10 (war $1.40)
Ausgabepro 1 Million generierter Token$3.851 (war $4.40)
Implizite Cache-Leseartpro 1M zwischengespeicherten Eingabetoken$0.275

Parameter

ParameterTypErforderlichDefaultBeschreibung
temperatureAnzahlNein0.7Temperatur wird geprochen. 0 = deterministisch, 2 = maximale Zufälligkeit. · Reichweite: 0 – 2
top_pAnzahlNein0.9Kernprobenwahrscheinlichkeitsmasse. Niedriger = fokussierter. · Reichweite: 0 – 1
max_tokensAnzahlNein4096Maximale Ausgabe-Token. · Reichweite: 1 – 131072
stopStringNein-Bis zu 4 Zeichenketten, bei denen das Modell aufhört, weitere Token zu generieren.
enable_thinkingBooleanNeinStimmtAktiviere step-by-step Argumentation, bevor du antwortest.
reasoning_effortENUMNein"medium"Der Aufwand des Schlussfolgerungsaufwands. Keiner verhindert das Denken. Niedrige, mittlere, hohe und maximale begrenzte Denkbudgets, die auf das gewählte Modell zugeschnitten sind. Gesendet als OpenAI-ähnliches reasoning_effort Feld, übersetzt in enable_thinking und thinking_budget für den Modelldienst. · Erlaubt: none, low, medium, high, max
thinking_budgetAnzahlNein32768Maximale Token, die für den Schlussfolgerungsprozess reserviert sind. Bis 131072. · Reichweite: 1 – 131072

Machine-lesbares Schema: GET https://api.empiriolabs.ai/v1/models/glm-5-2.