GLM 5.2 | EmpirioLabs AI Docs

Z.ai · Text Generation

/v1/chat/completions

Modèle de raisonnement et de codage avec un contexte de jeton 1M, sortie 128K, effort de raisonnement ajustable, recherche web native et appel d’outils.

En un coup d’œil

Terrain	Valeur
Identifiant de modèle	`glm-5-2`
Date de sortie du modèle	2026-06-16
Modalités d’entrée	Texte
Modalités de sortie	Texte
Fenêtre de contexte	1M
Précision du poids	-
Jetons de sortie max	131,072
Région	Singapour
Caractéristiques	raisonnement, function_calling, structured_output, web_search
Inférence autochtone	Non
Nouveau	Oui
Points de terminaison pris en charge	`/v1/chat/completions`, `/v1/responses`, `/v1/messages`

Tarification

Charge	Spec	Taux
Entrée	par 1M de jetons d’invite	$1.40
Production	par 1M de jetons générés	$4.40
Recherche Web	à la demande	$0.033

Exemple de demande

$ curl https://api.empiriolabs.ai/v1/chat/completions \
>   -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
>   -H 'Content-Type: application/json' \
>   -d '{"model": "glm-5-2", "messages": [{"role":"user","content":"Hello"}]}'

Paramètres

Paramètre	Type	Obligatoire	Par défaut	Description
`max_tokens`	entier	non	`65536`	Nombre maximal de jetons de sortie à générer. · Répartition: 1 – 131072
`temperature`	Nombre	non	`1`	Contrôle l’aléatoire. Des valeurs plus basses rendent les réponses plus déterministes. · Répartition: 0 – 1
`top_p`	Nombre	non	`0.95`	Coupure d’échantillonnage du noyau. · Portée: 0,01 – 1
`reasoning_effort`	enum	non	`"max"`	Effort de raisonnement GLM-5.2. aucun n’empêche la pensée; Minimal à Max, définissez la difficulté du modèle avant de répondre. Max est recommandé pour le codage complexe. · Autorisés: `none`, `minimal`, `low`, `medium`, `high`, `xhigh`, `max`
`enable_thinking`	Booléen	non	Vrai	Laissez le modèle raisonner avant de répondre. Désactivez les réponses à faible latence ou une sortie strictement structurée.
`do_sample`	Booléen	non	Vrai	Activez l’échantillonnage. Désactivez les résultats déterministes avides (température et top_p sont ignorées).
`tool_web_search`	Booléen	non	faux	Activez la recherche web intégrée. Ajoute $0.033 par requête lorsqu’elle est utilisée.
`search_recency_filter`	enum	non	`"noLimit"`	Limitez les résultats de recherche web à une fenêtre de récence. · Autorisé: `oneDay`, `oneWeek`, `oneMonth`, `oneYear`, `noLimit`
`count`	entier	non	`10`	Nombre de résultats de recherche web à récupérer lorsque la recherche web est activée. · Plage: 1 – 50
`search_domain_filter`	Corde	non	-	Restreignez la recherche web à un domaine spécifique.
`search_prompt`	Corde	non	-	Prompt optionnel utilisé pour résumer les résultats de recherche web récupérés.
`search_result`	Booléen	non	Vrai	Retournez les métadonnées des résultats de recherche web dans la réponse lorsque la recherche web est activée.
`tool_stream`	Booléen	non	faux	Diffusez progressivement les arguments d’appel de fonction lors du streaming.
`tools`	Tableau	non	`[]`	Définitions d’outils d’appel de fonction compatibles OpenAI.
`tool_choice`	Objet	non	-	Contrôle du choix d’outils compatible OpenAI.
`response_format`	Objet	non	-	Mode JSON compatible OpenAI. Utilisez Thinking Disabled pour une sortie strictement structurée.
`stop`	Tableau	non	-	Séquences d’arrêts optionnelles (jusqu’à 4).

Variantes

`:variant1`

Terrain	Valeur
Identifiant de modèle	`glm-5-2:variant1`
Date de sortie du modèle	2026-06-16
Région	Allemagne
Fenêtre de contexte	1M
Précision du poids	-
Jetons de sortie max	131,072
Caractéristiques	raisonnement, function_calling, structured_output, cache
Inférence autochtone	Non
Points de terminaison pris en charge	`POST /v1/chat/completions`, `POST /v1/responses`, `POST /v1/messages`

Prix

Charge	Spec	Taux
Entrée	par 1M de jetons d’invite	$1.10 (était $1.40)
Production	par 1M de jetons générés	$3.851 (était $4.40)
Lecture implicite du cache	par 1M de jetons d’entrée mis en cache	$0.275

Paramètres

Paramètre	Type	Obligatoire	Par défaut	Description
`temperature`	Nombre	non	`0.7`	Température d’échantillonnage. 0 = déterministe, 2 = aléatoire maximal. · Plage: 0 – 2
`top_p`	Nombre	non	`0.9`	Probabilité d’échantillonnage du noyau, masse. Plus bas = plus concentré. · Répartition: 0 – 1
`max_tokens`	Nombre	non	`4096`	Jetons de sortie maximum. · Répartition: 1 – 131072
`stop`	Corde	non	-	Jusqu’à 4 chaînes où le modèle cesse de générer d’autres jetons.
`enable_thinking`	Booléen	non	Vrai	Activez step-by-step raisonnement avant de répondre.
`reasoning_effort`	enum	non	`"medium"`	Niveau d’effort de raisonnement. Aucun ne décourage la pensée. budgets de pensée limités faible, moyen, élevé et maximal adaptés au modèle sélectionné. Envoyé sous forme de champ reasoning_effort de type OpenAI, traduit en enable_thinking et thinking_budget pour le service modèle. · Autorisé: `none`, `low`, `medium`, `high`, `max`
`thinking_budget`	Nombre	non	`32768`	Le maximum de jetons est réservé au processus de raisonnement. Jusqu’à 131072. · Répartition: 1 – 131072

_Machine schéma lisible: _ GET https://api.empiriolabs.ai/v1/models/glm-5-2.