GLM 5.2

Z.ai · Text Generation
/v1/chat/completionsLogik- und Codierungsmodell mit einem 1M Token-Kontext, 128K-Ausgabe, anpassbarem Schlussfolgerungsaufwand, nativer Websuche und Werkzeugaufrufen.
Auf einen Blick
| Spielfeld | Wert |
|---|---|
| Modell-ID | glm-5-2 |
| Modell-Veröffentlichungsdatum | 2026-06-16 |
| Eingabemodalitäten | Text |
| Ausgabemodalitäten | Text |
| Kontextfenster | 1M |
| Gewichtspräzision | - |
| Maximale Ausgabetoken | 131,072 |
| Region | Singapur |
| Merkmale | Argumentation, function_calling, structured_output, web_search |
| Native Schlussfolgerung | Nein |
| Neu | Ja |
| Unterstützte Endpunkte | /v1/chat/completions, /v1/responses, /v1/messages |
Preisgestaltung
| Berechnen | Spezifikation | Zinssatz |
|---|---|---|
| Eingabe | pro 1M Prompt-Token | $1.40 |
| Ausgabe | pro 1 Million generierter Token | $4.40 |
| Websuche | auf Wunsch | $0.033 |
Beispielanfrage
$ curl https://api.empiriolabs.ai/v1/chat/completions \ > -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \ > -H 'Content-Type: application/json' \ > -d '{"model": "glm-5-2", "messages": [{"role":"user","content":"Hello"}]}'
Parameter
| Parameter | Typ | Erforderlich | Default | Beschreibung |
|---|---|---|---|---|
max_tokens | Ganzzahl | Nein | 65536 | Maximale Anzahl der zu generierenden Ausgabetoken. · Reichweite: 1 – 131072 |
temperature | Anzahl | Nein | 1 | Kontrolliert Zufall. Niedrigere Werte machen die Antworten deterministischer. · Reichweite: 0 – 1 |
top_p | Anzahl | Nein | 0.95 | Kernproben-Cutoff. · Reichweite: 0,01 – 1 |
reasoning_effort | ENUM | Nein | "max" | GLM-5.2 Schlussfolgerung. keines verhindert das Denken; Minimal bis maximal geben Sie an, wie stark das Modell argumentiert, bevor Sie antworten. Max wird für komplexes Programmieren empfohlen. · Erlaubt: none, minimal, low, medium, high, xhigh, max |
enable_thinking | Boolean | Nein | Stimmt | Lass das Modell überlegen, bevor du antwortest. Schalten Sie sie für Antworten mit niedrigster Latenz oder streng strukturierte Ausgaben aus. |
do_sample | Boolean | Nein | Stimmt | Aktivieren Sie das Sampling. Schalten Sie es für gierige deterministische Ausgaben aus (Temperatur und top_p werden ignoriert). |
tool_web_search | Boolean | Nein | falsch | Aktivieren Sie die integrierte Websuche. Fügt $0.033 pro Anfrage hinzu, wenn man es nutzt. |
search_recency_filter | ENUM | Nein | "noLimit" | Beschränke die Websuchergebnisse auf ein aktuelles Fenster. · Erlaubt: oneDay, oneWeek, oneMonth, oneYear, noLimit |
count | Ganzzahl | Nein | 10 | Anzahl der Websuchergebnisse, die abgerufen werden müssen, wenn die Websuche aktiviert ist. · Reichweite: 1 – 50 |
search_domain_filter | String | Nein | - | Beschränke die Websuche auf eine bestimmte Domäne. |
search_prompt | String | Nein | - | Optionaler Prompt, der verwendet wird, um abgerufene Websuchergebnisse zusammenzufassen. |
search_result | Boolean | Nein | Stimmt | Geben Sie die Metadaten der Websuchergebnisse in der Antwort zurück, wenn die Websuche aktiviert ist. |
tool_stream | Boolean | Nein | falsch | Streame Funktionsaufruf-Argumente inkrementell, wenn du streamst. |
tools | Anordnung | Nein | [] | OpenAI-kompatible Funktionsaufruf-Werkzeugdefinitionen. |
tool_choice | Gegenstand | Nein | - | OpenAI-kompatible Werkzeugwahlsteuerung. |
response_format | Gegenstand | Nein | - | OpenAI-kompatibler JSON-Modus. Nutze Denkbehinderung für streng strukturierte Ausgaben. |
stop | Anordnung | Nein | - | Optionale Stop-Sequenzen (bis zu 4). |
Varianten
:variant1
| Spielfeld | Wert |
|---|---|
| Modell-ID | glm-5-2:variant1 |
| Modell-Veröffentlichungsdatum | 2026-06-16 |
| Region | Deutschland |
| Kontextfenster | 1M |
| Gewichtspräzision | - |
| Maximale Ausgabetoken | 131,072 |
| Merkmale | Reasoning, function_calling, structured_output, Cache |
| Native Schlussfolgerung | Nein |
| Unterstützte Endpunkte | POST /v1/chat/completions, POST /v1/responses, POST /v1/messages |
Preisgestaltung
| Berechnen | Spezifikation | Zinssatz |
|---|---|---|
| Eingabe | pro 1M Prompt-Token | $1.10 (war $1.40) |
| Ausgabe | pro 1 Million generierter Token | $3.851 (war $4.40) |
| Implizite Cache-Leseart | pro 1M zwischengespeicherten Eingabetoken | $0.275 |
Parameter
| Parameter | Typ | Erforderlich | Default | Beschreibung |
|---|---|---|---|---|
temperature | Anzahl | Nein | 0.7 | Temperatur wird geprochen. 0 = deterministisch, 2 = maximale Zufälligkeit. · Reichweite: 0 – 2 |
top_p | Anzahl | Nein | 0.9 | Kernprobenwahrscheinlichkeitsmasse. Niedriger = fokussierter. · Reichweite: 0 – 1 |
max_tokens | Anzahl | Nein | 4096 | Maximale Ausgabe-Token. · Reichweite: 1 – 131072 |
stop | String | Nein | - | Bis zu 4 Zeichenketten, bei denen das Modell aufhört, weitere Token zu generieren. |
enable_thinking | Boolean | Nein | Stimmt | Aktiviere step-by-step Argumentation, bevor du antwortest. |
reasoning_effort | ENUM | Nein | "medium" | Der Aufwand des Schlussfolgerungsaufwands. Keiner verhindert das Denken. Niedrige, mittlere, hohe und maximale begrenzte Denkbudgets, die auf das gewählte Modell zugeschnitten sind. Gesendet als OpenAI-ähnliches reasoning_effort Feld, übersetzt in enable_thinking und thinking_budget für den Modelldienst. · Erlaubt: none, low, medium, high, max |
thinking_budget | Anzahl | Nein | 32768 | Maximale Token, die für den Schlussfolgerungsprozess reserviert sind. Bis 131072. · Reichweite: 1 – 131072 |
Machine-lesbares Schema: GET https://api.empiriolabs.ai/v1/models/glm-5-2.
