GLM 5.1 | EmpirioLabs AI Docs

Z.ai · Text Generation

/v1/chat/completions

Modèle de raisonnement IA Zhipu à long contexte avec contexte 202K, sortie 128K, appel d’outils, sortie structurée et support du cache.

En un coup d’œil

Terrain	Valeur
Identifiant de modèle	`glm-5-1`
Date de sortie du modèle	2026-04-07
Modalités d’entrée	Texte
Modalités de sortie	Texte
Fenêtre de contexte	202K
Précision du poids	-
Région	Chine
Caractéristiques	raisonnement, function_calling, structured_output, cache
Inférence autochtone	Non
Nouveau	Oui
Points de terminaison pris en charge	`/v1/chat/completions`, `/v1/responses`, `/v1/messages`

Tarification

Charge	Spec	Taux
Entrée	par 1M de jetons d’invite	<=32K $0.825 (était $1.40); 32K-200K $1.10 (c’était $1.40)
Production	par 1M de jetons générés	<=32K $3.301 (était $4.40); 32K-200K $3.851 (c’était $4.40)
Lecture implicite du cache	par 1M de jetons d’entrée mis en cache	<=32K $0.165 (était $0.26); 32K-200K $0.22 (c’était $0.26)
Recherche Web (Linkup)	par appel lors de l’invocation	$0.013

Exemple de demande

$ curl https://api.empiriolabs.ai/v1/chat/completions \
>   -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
>   -H 'Content-Type: application/json' \
>   -d '{"model": "glm-5-1", "messages": [{"role":"user","content":"Hello"}]}'

Paramètres

Paramètre	Type	Obligatoire	Par défaut	Description
`max_tokens`	entier	non	`4096`	Nombre maximal de jetons de sortie à générer. · Répartition: 1 – 128000
`temperature`	Nombre	non	`1`	Contrôle l’aléatoire. Des valeurs plus basses rendent les réponses plus déterministes. · Plage: 0 – 2
`top_p`	Nombre	non	`0.95`	Coupure d’échantillonnage du noyau. · Répartition: 0 – 1
`top_k`	entier	non	`20`	Limite l’échantillonnage aux K premiers jetons. · Portée: 1 – 100
`repetition_penalty`	Nombre	non	`1`	Penalise les jetons répétés. · Plage: 0,1 – 2
`reasoning_effort`	enum	non	`"medium"`	Niveau d’effort de raisonnement. Aucun ne décourage la pensée. budgets de pensée limités faible, moyen, élevé et maximal adaptés au modèle sélectionné. Envoyé sous forme de champ reasoning_effort de type OpenAI, traduit en enable_thinking et thinking_budget pour le service modèle. · Autorisé: `none`, `low`, `medium`, `high`, `max`
`enable_thinking`	Booléen	non	Vrai	Laissez le modèle raisonner avant de répondre. Désactivez cela pour une sortie strictement structurée.
`thinking_budget`	entier	non	`32768`	Maximum de jetons disponibles pour le contenu de raisonnement lorsque la réflexion est activée. · Répartition: 1 – 38912
`tool_stream`	Booléen	non	faux	Diffusez progressivement les arguments d’appel de fonction lors du streaming.
`tools`	Tableau	non	`[]`	Définitions d’outils d’appel de fonction compatibles OpenAI.
`tool_choice`	Objet	non	-	Contrôle du choix d’outils compatible OpenAI.
`parallel_tool_calls`	Booléen	non	Vrai	Autoriser plusieurs appels d’outils en un seul tour d’assistant quand cela est supporté.
`response_format`	Objet	non	-	Mode JSON compatible OpenAI ou format de réponse de schéma JSON. Utilisez le mode non-pensant pour les schémas stricts.
`stop`	Tableau	non	-	Séquences d’arrêts optionnelles.
`web_search_linkup`	Booléen	non	faux	Recherche web optionnelle propulsée par Linkup. Lorsqu’activées, les sources web récentes sont récupérées en utilisant votre dernier message utilisateur comme requête et fournies au modèle comme contexte supplémentaire. Ajoute un $0.013 fixe par requête en plus du coût normal du jeton du modèle. Désactivé par défaut.
`disable_formatting`	Booléen	non	faux	Une fois activée, la passerelle n’ajoutera pas le pied de page « Sources » aux réponses des assistants ayant utilisé la recherche web Linkup. Utile lorsque la sortie du modèle est canalisée vers un autre système qui n’attend aucune décoration.

_Machine schéma lisible: _ GET https://api.empiriolabs.ai/v1/models/glm-5-1.