GLM 5.2 | EmpirioLabs AI Docs

Z.ai · Text Generation

/v1/chat/completions

Logik- und Codierungsmodell mit einem 1M Token-Kontext, 128K-Ausgabe, anpassbarem Schlussfolgerungsaufwand, nativer Websuche und Werkzeugaufrufen.

Auf einen Blick

Spielfeld	Wert
Modell-ID	`glm-5-2`
Modell-Veröffentlichungsdatum	2026-06-16
Eingabemodalitäten	Text
Ausgabemodalitäten	Text
Kontextfenster	1M
Gewichtspräzision	-
Maximale Ausgabetoken	131,072
Region	Singapur
Merkmale	Argumentation, function_calling, structured_output, web_search
Native Schlussfolgerung	Nein
Neu	Ja
Unterstützte Endpunkte	`/v1/chat/completions`, `/v1/responses`, `/v1/messages`

Preisgestaltung

Berechnen	Spezifikation	Zinssatz
Eingabe	pro 1M Prompt-Token	$1.40
Ausgabe	pro 1 Million generierter Token	$4.40
Websuche	auf Wunsch	$0.033

Beispielanfrage

$ curl https://api.empiriolabs.ai/v1/chat/completions \
>   -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
>   -H 'Content-Type: application/json' \
>   -d '{"model": "glm-5-2", "messages": [{"role":"user","content":"Hello"}]}'

Parameter

Parameter	Typ	Erforderlich	Default	Beschreibung
`max_tokens`	Ganzzahl	Nein	`65536`	Maximale Anzahl der zu generierenden Ausgabetoken. · Reichweite: 1 – 131072
`temperature`	Anzahl	Nein	`1`	Kontrolliert Zufall. Niedrigere Werte machen die Antworten deterministischer. · Reichweite: 0 – 1
`top_p`	Anzahl	Nein	`0.95`	Kernproben-Cutoff. · Reichweite: 0,01 – 1
`reasoning_effort`	ENUM	Nein	`"max"`	GLM-5.2 Schlussfolgerung. keines verhindert das Denken; Minimal bis maximal geben Sie an, wie stark das Modell argumentiert, bevor Sie antworten. Max wird für komplexes Programmieren empfohlen. · Erlaubt: `none`, `minimal`, `low`, `medium`, `high`, `xhigh`, `max`
`enable_thinking`	Boolean	Nein	Stimmt	Lass das Modell überlegen, bevor du antwortest. Schalten Sie sie für Antworten mit niedrigster Latenz oder streng strukturierte Ausgaben aus.
`do_sample`	Boolean	Nein	Stimmt	Aktivieren Sie das Sampling. Schalten Sie es für gierige deterministische Ausgaben aus (Temperatur und top_p werden ignoriert).
`tool_web_search`	Boolean	Nein	falsch	Aktivieren Sie die integrierte Websuche. Fügt $0.033 pro Anfrage hinzu, wenn man es nutzt.
`search_recency_filter`	ENUM	Nein	`"noLimit"`	Beschränke die Websuchergebnisse auf ein aktuelles Fenster. · Erlaubt: `oneDay`, `oneWeek`, `oneMonth`, `oneYear`, `noLimit`
`count`	Ganzzahl	Nein	`10`	Anzahl der Websuchergebnisse, die abgerufen werden müssen, wenn die Websuche aktiviert ist. · Reichweite: 1 – 50
`search_domain_filter`	String	Nein	-	Beschränke die Websuche auf eine bestimmte Domäne.
`search_prompt`	String	Nein	-	Optionaler Prompt, der verwendet wird, um abgerufene Websuchergebnisse zusammenzufassen.
`search_result`	Boolean	Nein	Stimmt	Geben Sie die Metadaten der Websuchergebnisse in der Antwort zurück, wenn die Websuche aktiviert ist.
`tool_stream`	Boolean	Nein	falsch	Streame Funktionsaufruf-Argumente inkrementell, wenn du streamst.
`tools`	Anordnung	Nein	`[]`	OpenAI-kompatible Funktionsaufruf-Werkzeugdefinitionen.
`tool_choice`	Gegenstand	Nein	-	OpenAI-kompatible Werkzeugwahlsteuerung.
`response_format`	Gegenstand	Nein	-	OpenAI-kompatibler JSON-Modus. Nutze Denkbehinderung für streng strukturierte Ausgaben.
`stop`	Anordnung	Nein	-	Optionale Stop-Sequenzen (bis zu 4).

Varianten

`:variant1`

Spielfeld	Wert
Modell-ID	`glm-5-2:variant1`
Modell-Veröffentlichungsdatum	2026-06-16
Region	Deutschland
Kontextfenster	1M
Gewichtspräzision	-
Maximale Ausgabetoken	131,072
Merkmale	Reasoning, function_calling, structured_output, Cache
Native Schlussfolgerung	Nein
Unterstützte Endpunkte	`POST /v1/chat/completions`, `POST /v1/responses`, `POST /v1/messages`

Preisgestaltung

Berechnen	Spezifikation	Zinssatz
Eingabe	pro 1M Prompt-Token	$1.10 (war $1.40)
Ausgabe	pro 1 Million generierter Token	$3.851 (war $4.40)
Implizite Cache-Leseart	pro 1M zwischengespeicherten Eingabetoken	$0.275

Parameter

Parameter	Typ	Erforderlich	Default	Beschreibung
`temperature`	Anzahl	Nein	`0.7`	Temperatur wird geprochen. 0 = deterministisch, 2 = maximale Zufälligkeit. · Reichweite: 0 – 2
`top_p`	Anzahl	Nein	`0.9`	Kernprobenwahrscheinlichkeitsmasse. Niedriger = fokussierter. · Reichweite: 0 – 1
`max_tokens`	Anzahl	Nein	`4096`	Maximale Ausgabe-Token. · Reichweite: 1 – 131072
`stop`	String	Nein	-	Bis zu 4 Zeichenketten, bei denen das Modell aufhört, weitere Token zu generieren.
`enable_thinking`	Boolean	Nein	Stimmt	Aktiviere step-by-step Argumentation, bevor du antwortest.
`reasoning_effort`	ENUM	Nein	`"medium"`	Der Aufwand des Schlussfolgerungsaufwands. Keiner verhindert das Denken. Niedrige, mittlere, hohe und maximale begrenzte Denkbudgets, die auf das gewählte Modell zugeschnitten sind. Gesendet als OpenAI-ähnliches reasoning_effort Feld, übersetzt in enable_thinking und thinking_budget für den Modelldienst. · Erlaubt: `none`, `low`, `medium`, `high`, `max`
`thinking_budget`	Anzahl	Nein	`32768`	Maximale Token, die für den Schlussfolgerungsprozess reserviert sind. Bis 131072. · Reichweite: 1 – 131072

Machine-lesbares Schema: GET https://api.empiriolabs.ai/v1/models/glm-5-2.