GLM 5.1 | EmpirioLabs AI Docs

Z.ai · Text Generation

/v1/chat/completions

Langkontext-Zhipu-KI-Schlussfolgerungsmodell mit 202K-Kontext, 128K-Ausgabe, Werkzeugaufruf, strukturierter Ausgabe und Cache-Unterstützung.

Auf einen Blick

Spielfeld	Wert
Modell-ID	`glm-5-1`
Modell-Veröffentlichungsdatum	2026-04-07
Eingabemodalitäten	Text
Ausgabemodalitäten	Text
Kontextfenster	202K
Gewichtspräzision	-
Region	China
Merkmale	Reasoning, function_calling, structured_output, Cache
Native Schlussfolgerung	Nein
Neu	Ja
Unterstützte Endpunkte	`/v1/chat/completions`, `/v1/responses`, `/v1/messages`

Preisgestaltung

Berechnen	Spezifikation	Zinssatz
Eingabe	pro 1M Prompt-Token	<=32K $0.825 (war $1.40); 32K-200K $1.10 (war $1.40)
Ausgabe	pro 1 Million generierter Token	<=32K $3.301 (war $4.40); 32K-200K $3.851 (war $4.40)
Implizite Cache-Leseart	pro 1M zwischengespeicherten Eingabetoken	<=32K $0.165 (war $0.26); 32K-200K $0.22 (war $0.26)
Websuche (Linkup)	pro Aufruf beim Aufruf	$0.013

Beispielanfrage

$ curl https://api.empiriolabs.ai/v1/chat/completions \
>   -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
>   -H 'Content-Type: application/json' \
>   -d '{"model": "glm-5-1", "messages": [{"role":"user","content":"Hello"}]}'

Parameter

Parameter	Typ	Erforderlich	Default	Beschreibung
`max_tokens`	Ganzzahl	Nein	`4096`	Maximale Anzahl der zu generierenden Ausgabetoken. · Reichweite: 1 – 128.000
`temperature`	Anzahl	Nein	`1`	Kontrolliert Zufall. Niedrigere Werte machen die Antworten deterministischer. · Reichweite: 0 – 2
`top_p`	Anzahl	Nein	`0.95`	Kernproben-Cutoff. · Reichweite: 0 – 1
`top_k`	Ganzzahl	Nein	`20`	Begrenzt das Sampling auf die höchsten K Token. · Reichweite: 1 – 100
`repetition_penalty`	Anzahl	Nein	`1`	Wiederholte Tokens werden bestraft. · Reichweite: 0,1 – 2
`reasoning_effort`	ENUM	Nein	`"medium"`	Der Aufwand des Schlussfolgerungsaufwands. Keiner verhindert das Denken. Niedrige, mittlere, hohe und maximale begrenzte Denkbudgets, die auf das gewählte Modell zugeschnitten sind. Gesendet als OpenAI-ähnliches reasoning_effort Feld, übersetzt in enable_thinking und thinking_budget für den Modelldienst. · Erlaubt: `none`, `low`, `medium`, `high`, `max`
`enable_thinking`	Boolean	Nein	Stimmt	Lass das Modell überlegen, bevor du antwortest. Deaktivieren Sie dies für streng strukturierte Ausgaben.
`thinking_budget`	Ganzzahl	Nein	`32768`	Maximal verfügbare Tokens zum Denken von Inhalten beim Denken sind aktiviert. · Reichweite: 1 – 38912
`tool_stream`	Boolean	Nein	falsch	Streame Funktionsaufruf-Argumente inkrementell, wenn du streamst.
`tools`	Anordnung	Nein	`[]`	OpenAI-kompatible Funktionsaufruf-Werkzeugdefinitionen.
`tool_choice`	Gegenstand	Nein	-	OpenAI-kompatible Werkzeugwahlsteuerung.
`parallel_tool_calls`	Boolean	Nein	Stimmt	Erlauben Sie mehrere Werkzeugaufrufe in einem einzigen Assistentenzug, wenn dies unterstützt wird.
`response_format`	Gegenstand	Nein	-	OpenAI-kompatibler JSON-Modus oder JSON-Schema-Antwortformat. Nutze den nicht-denkenden Modus für strenge Schemata.
`stop`	Anordnung	Nein	-	Optionale Stop-Sequenzen.
`web_search_linkup`	Boolean	Nein	falsch	Optionale Websuche, betrieben von Linkup. Wenn aktiviert, werden aktuelle Webquellen mit Ihrer neuesten Benutzernachricht als Abfrage abgerufen und dem Modell als zusätzlicher Kontext bereitgestellt. Fügt pro Anfrage ein festes $0.013 zu den normalen Tokenkosten des Modells hinzu. Standardmäßig deaktiviert.
`disable_formatting`	Boolean	Nein	falsch	Wenn aktiviert, fügt das Gateway den “Sources”-Footer nicht an Assistant-Antworten an, die die Linkup-Websuche verwendet haben. Nützlich, wenn die Modellausgabe an ein anderes System weitergeleitet wird, das keine Dekoration erwartet.

Machine-lesbares Schema: GET https://api.empiriolabs.ai/v1/models/glm-5-1.