GLM 5.1

GLM 5.1
Z.ai · Text Generation
/v1/chat/completions

Modèle de raisonnement IA Zhipu à long contexte avec contexte 202K, sortie 128K, appel d’outils, sortie structurée et support du cache.

En un coup d’œil

TerrainValeur
Identifiant de modèleglm-5-1
Date de sortie du modèle2026-04-07
Modalités d’entréeTexte
Modalités de sortieTexte
Fenêtre de contexte202K
Précision du poids-
RégionChine
Caractéristiquesraisonnement, function_calling, structured_output, cache
Inférence autochtoneNon
NouveauOui
Points de terminaison pris en charge/v1/chat/completions, /v1/responses, /v1/messages

Tarification

ChargeSpecTaux
Entréepar 1M de jetons d’invite<=32K $0.825 (était $1.40); 32K-200K $1.10 (c’était $1.40)
Productionpar 1M de jetons générés<=32K $3.301 (était $4.40); 32K-200K $3.851 (c’était $4.40)
Lecture implicite du cachepar 1M de jetons d’entrée mis en cache<=32K $0.165 (était $0.26); 32K-200K $0.22 (c’était $0.26)
Recherche Web (Linkup)par appel lors de l’invocation$0.013

Exemple de demande

$curl https://api.empiriolabs.ai/v1/chat/completions \
> -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
> -H 'Content-Type: application/json' \
> -d '{"model": "glm-5-1", "messages": [{"role":"user","content":"Hello"}]}'

Paramètres

ParamètreTypeObligatoirePar défautDescription
max_tokensentiernon4096Nombre maximal de jetons de sortie à générer. · Répartition: 1 – 128000
temperatureNombrenon1Contrôle l’aléatoire. Des valeurs plus basses rendent les réponses plus déterministes. · Plage: 0 – 2
top_pNombrenon0.95Coupure d’échantillonnage du noyau. · Répartition: 0 – 1
top_kentiernon20Limite l’échantillonnage aux K premiers jetons. · Portée: 1 – 100
repetition_penaltyNombrenon1Penalise les jetons répétés. · Plage: 0,1 – 2
reasoning_effortenumnon"medium"Niveau d’effort de raisonnement. Aucun ne décourage la pensée. budgets de pensée limités faible, moyen, élevé et maximal adaptés au modèle sélectionné. Envoyé sous forme de champ reasoning_effort de type OpenAI, traduit en enable_thinking et thinking_budget pour le service modèle. · Autorisé: none, low, medium, high, max
enable_thinkingBooléennonVraiLaissez le modèle raisonner avant de répondre. Désactivez cela pour une sortie strictement structurée.
thinking_budgetentiernon32768Maximum de jetons disponibles pour le contenu de raisonnement lorsque la réflexion est activée. · Répartition: 1 – 38912
tool_streamBooléennonfauxDiffusez progressivement les arguments d’appel de fonction lors du streaming.
toolsTableaunon[]Définitions d’outils d’appel de fonction compatibles OpenAI.
tool_choiceObjetnon-Contrôle du choix d’outils compatible OpenAI.
parallel_tool_callsBooléennonVraiAutoriser plusieurs appels d’outils en un seul tour d’assistant quand cela est supporté.
response_formatObjetnon-Mode JSON compatible OpenAI ou format de réponse de schéma JSON. Utilisez le mode non-pensant pour les schémas stricts.
stopTableaunon-Séquences d’arrêts optionnelles.
web_search_linkupBooléennonfauxRecherche web optionnelle propulsée par Linkup. Lorsqu’activées, les sources web récentes sont récupérées en utilisant votre dernier message utilisateur comme requête et fournies au modèle comme contexte supplémentaire. Ajoute un $0.013 fixe par requête en plus du coût normal du jeton du modèle. Désactivé par défaut.
disable_formattingBooléennonfauxUne fois activée, la passerelle n’ajoutera pas le pied de page « Sources » aux réponses des assistants ayant utilisé la recherche web Linkup. Utile lorsque la sortie du modèle est canalisée vers un autre système qui n’attend aucune décoration.

_Machine schéma lisible: _ GET https://api.empiriolabs.ai/v1/models/glm-5-1.