GLM 5.1

GLM 5.1
Z.ai · Text Generation
/v1/chat/completions

Langkontext-Zhipu-KI-Schlussfolgerungsmodell mit 202K-Kontext, 128K-Ausgabe, Werkzeugaufruf, strukturierter Ausgabe und Cache-Unterstützung.

Auf einen Blick

SpielfeldWert
Modell-IDglm-5-1
Modell-Veröffentlichungsdatum2026-04-07
EingabemodalitätenText
AusgabemodalitätenText
Kontextfenster202K
Gewichtspräzision-
RegionChina
MerkmaleReasoning, function_calling, structured_output, Cache
Native SchlussfolgerungNein
NeuJa
Unterstützte Endpunkte/v1/chat/completions, /v1/responses, /v1/messages

Preisgestaltung

BerechnenSpezifikationZinssatz
Eingabepro 1M Prompt-Token<=32K $0.825 (war $1.40); 32K-200K $1.10 (war $1.40)
Ausgabepro 1 Million generierter Token<=32K $3.301 (war $4.40); 32K-200K $3.851 (war $4.40)
Implizite Cache-Leseartpro 1M zwischengespeicherten Eingabetoken<=32K $0.165 (war $0.26); 32K-200K $0.22 (war $0.26)
Websuche (Linkup)pro Aufruf beim Aufruf$0.013

Beispielanfrage

$curl https://api.empiriolabs.ai/v1/chat/completions \
> -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
> -H 'Content-Type: application/json' \
> -d '{"model": "glm-5-1", "messages": [{"role":"user","content":"Hello"}]}'

Parameter

ParameterTypErforderlichDefaultBeschreibung
max_tokensGanzzahlNein4096Maximale Anzahl der zu generierenden Ausgabetoken. · Reichweite: 1 – 128.000
temperatureAnzahlNein1Kontrolliert Zufall. Niedrigere Werte machen die Antworten deterministischer. · Reichweite: 0 – 2
top_pAnzahlNein0.95Kernproben-Cutoff. · Reichweite: 0 – 1
top_kGanzzahlNein20Begrenzt das Sampling auf die höchsten K Token. · Reichweite: 1 – 100
repetition_penaltyAnzahlNein1Wiederholte Tokens werden bestraft. · Reichweite: 0,1 – 2
reasoning_effortENUMNein"medium"Der Aufwand des Schlussfolgerungsaufwands. Keiner verhindert das Denken. Niedrige, mittlere, hohe und maximale begrenzte Denkbudgets, die auf das gewählte Modell zugeschnitten sind. Gesendet als OpenAI-ähnliches reasoning_effort Feld, übersetzt in enable_thinking und thinking_budget für den Modelldienst. · Erlaubt: none, low, medium, high, max
enable_thinkingBooleanNeinStimmtLass das Modell überlegen, bevor du antwortest. Deaktivieren Sie dies für streng strukturierte Ausgaben.
thinking_budgetGanzzahlNein32768Maximal verfügbare Tokens zum Denken von Inhalten beim Denken sind aktiviert. · Reichweite: 1 – 38912
tool_streamBooleanNeinfalschStreame Funktionsaufruf-Argumente inkrementell, wenn du streamst.
toolsAnordnungNein[]OpenAI-kompatible Funktionsaufruf-Werkzeugdefinitionen.
tool_choiceGegenstandNein-OpenAI-kompatible Werkzeugwahlsteuerung.
parallel_tool_callsBooleanNeinStimmtErlauben Sie mehrere Werkzeugaufrufe in einem einzigen Assistentenzug, wenn dies unterstützt wird.
response_formatGegenstandNein-OpenAI-kompatibler JSON-Modus oder JSON-Schema-Antwortformat. Nutze den nicht-denkenden Modus für strenge Schemata.
stopAnordnungNein-Optionale Stop-Sequenzen.
web_search_linkupBooleanNeinfalschOptionale Websuche, betrieben von Linkup. Wenn aktiviert, werden aktuelle Webquellen mit Ihrer neuesten Benutzernachricht als Abfrage abgerufen und dem Modell als zusätzlicher Kontext bereitgestellt. Fügt pro Anfrage ein festes $0.013 zu den normalen Tokenkosten des Modells hinzu. Standardmäßig deaktiviert.
disable_formattingBooleanNeinfalschWenn aktiviert, fügt das Gateway den “Sources”-Footer nicht an Assistant-Antworten an, die die Linkup-Websuche verwendet haben. Nützlich, wenn die Modellausgabe an ein anderes System weitergeleitet wird, das keine Dekoration erwartet.

Machine-lesbares Schema: GET https://api.empiriolabs.ai/v1/models/glm-5-1.