GLM 5.2

GLM 5.2
Z.ai · Text Generation
/v1/chat/completions

Modèle de raisonnement et de codage avec un contexte de jeton 1M, sortie 128K, effort de raisonnement ajustable, recherche web native et appel d’outils.

En un coup d’œil

TerrainValeur
Identifiant de modèleglm-5-2
Date de sortie du modèle2026-06-16
Modalités d’entréeTexte
Modalités de sortieTexte
Fenêtre de contexte1M
Précision du poids-
Jetons de sortie max131,072
RégionSingapour
Caractéristiquesraisonnement, function_calling, structured_output, web_search
Inférence autochtoneNon
NouveauOui
Points de terminaison pris en charge/v1/chat/completions, /v1/responses, /v1/messages

Tarification

ChargeSpecTaux
Entréepar 1M de jetons d’invite$1.40
Productionpar 1M de jetons générés$4.40
Recherche Webà la demande$0.033

Exemple de demande

$curl https://api.empiriolabs.ai/v1/chat/completions \
> -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
> -H 'Content-Type: application/json' \
> -d '{"model": "glm-5-2", "messages": [{"role":"user","content":"Hello"}]}'

Paramètres

ParamètreTypeObligatoirePar défautDescription
max_tokensentiernon65536Nombre maximal de jetons de sortie à générer. · Répartition: 1 – 131072
temperatureNombrenon1Contrôle l’aléatoire. Des valeurs plus basses rendent les réponses plus déterministes. · Répartition: 0 – 1
top_pNombrenon0.95Coupure d’échantillonnage du noyau. · Portée: 0,01 – 1
reasoning_effortenumnon"max"Effort de raisonnement GLM-5.2. aucun n’empêche la pensée; Minimal à Max, définissez la difficulté du modèle avant de répondre. Max est recommandé pour le codage complexe. · Autorisés: none, minimal, low, medium, high, xhigh, max
enable_thinkingBooléennonVraiLaissez le modèle raisonner avant de répondre. Désactivez les réponses à faible latence ou une sortie strictement structurée.
do_sampleBooléennonVraiActivez l’échantillonnage. Désactivez les résultats déterministes avides (température et top_p sont ignorées).
tool_web_searchBooléennonfauxActivez la recherche web intégrée. Ajoute $0.033 par requête lorsqu’elle est utilisée.
search_recency_filterenumnon"noLimit"Limitez les résultats de recherche web à une fenêtre de récence. · Autorisé: oneDay, oneWeek, oneMonth, oneYear, noLimit
countentiernon10Nombre de résultats de recherche web à récupérer lorsque la recherche web est activée. · Plage: 1 – 50
search_domain_filterCordenon-Restreignez la recherche web à un domaine spécifique.
search_promptCordenon-Prompt optionnel utilisé pour résumer les résultats de recherche web récupérés.
search_resultBooléennonVraiRetournez les métadonnées des résultats de recherche web dans la réponse lorsque la recherche web est activée.
tool_streamBooléennonfauxDiffusez progressivement les arguments d’appel de fonction lors du streaming.
toolsTableaunon[]Définitions d’outils d’appel de fonction compatibles OpenAI.
tool_choiceObjetnon-Contrôle du choix d’outils compatible OpenAI.
response_formatObjetnon-Mode JSON compatible OpenAI. Utilisez Thinking Disabled pour une sortie strictement structurée.
stopTableaunon-Séquences d’arrêts optionnelles (jusqu’à 4).

Variantes

:variant1

TerrainValeur
Identifiant de modèleglm-5-2:variant1
Date de sortie du modèle2026-06-16
RégionAllemagne
Fenêtre de contexte1M
Précision du poids-
Jetons de sortie max131,072
Caractéristiquesraisonnement, function_calling, structured_output, cache
Inférence autochtoneNon
Points de terminaison pris en chargePOST /v1/chat/completions, POST /v1/responses, POST /v1/messages

Prix

ChargeSpecTaux
Entréepar 1M de jetons d’invite$1.10 (était $1.40)
Productionpar 1M de jetons générés$3.851 (était $4.40)
Lecture implicite du cachepar 1M de jetons d’entrée mis en cache$0.275

Paramètres

ParamètreTypeObligatoirePar défautDescription
temperatureNombrenon0.7Température d’échantillonnage. 0 = déterministe, 2 = aléatoire maximal. · Plage: 0 – 2
top_pNombrenon0.9Probabilité d’échantillonnage du noyau, masse. Plus bas = plus concentré. · Répartition: 0 – 1
max_tokensNombrenon4096Jetons de sortie maximum. · Répartition: 1 – 131072
stopCordenon-Jusqu’à 4 chaînes où le modèle cesse de générer d’autres jetons.
enable_thinkingBooléennonVraiActivez step-by-step raisonnement avant de répondre.
reasoning_effortenumnon"medium"Niveau d’effort de raisonnement. Aucun ne décourage la pensée. budgets de pensée limités faible, moyen, élevé et maximal adaptés au modèle sélectionné. Envoyé sous forme de champ reasoning_effort de type OpenAI, traduit en enable_thinking et thinking_budget pour le service modèle. · Autorisé: none, low, medium, high, max
thinking_budgetNombrenon32768Le maximum de jetons est réservé au processus de raisonnement. Jusqu’à 131072. · Répartition: 1 – 131072

_Machine schéma lisible: _ GET https://api.empiriolabs.ai/v1/models/glm-5-2.