GLM 5.2

Z.ai · Text Generation
/v1/chat/completionsModèle de raisonnement et de codage avec un contexte de jeton 1M, sortie 128K, effort de raisonnement ajustable, recherche web native et appel d’outils.
En un coup d’œil
| Terrain | Valeur |
|---|---|
| Identifiant de modèle | glm-5-2 |
| Date de sortie du modèle | 2026-06-16 |
| Modalités d’entrée | Texte |
| Modalités de sortie | Texte |
| Fenêtre de contexte | 1M |
| Précision du poids | - |
| Jetons de sortie max | 131,072 |
| Région | Singapour |
| Caractéristiques | raisonnement, function_calling, structured_output, web_search |
| Inférence autochtone | Non |
| Nouveau | Oui |
| Points de terminaison pris en charge | /v1/chat/completions, /v1/responses, /v1/messages |
Tarification
| Charge | Spec | Taux |
|---|---|---|
| Entrée | par 1M de jetons d’invite | $1.40 |
| Production | par 1M de jetons générés | $4.40 |
| Recherche Web | à la demande | $0.033 |
Exemple de demande
$ curl https://api.empiriolabs.ai/v1/chat/completions \ > -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \ > -H 'Content-Type: application/json' \ > -d '{"model": "glm-5-2", "messages": [{"role":"user","content":"Hello"}]}'
Paramètres
| Paramètre | Type | Obligatoire | Par défaut | Description |
|---|---|---|---|---|
max_tokens | entier | non | 65536 | Nombre maximal de jetons de sortie à générer. · Répartition: 1 – 131072 |
temperature | Nombre | non | 1 | Contrôle l’aléatoire. Des valeurs plus basses rendent les réponses plus déterministes. · Répartition: 0 – 1 |
top_p | Nombre | non | 0.95 | Coupure d’échantillonnage du noyau. · Portée: 0,01 – 1 |
reasoning_effort | enum | non | "max" | Effort de raisonnement GLM-5.2. aucun n’empêche la pensée; Minimal à Max, définissez la difficulté du modèle avant de répondre. Max est recommandé pour le codage complexe. · Autorisés: none, minimal, low, medium, high, xhigh, max |
enable_thinking | Booléen | non | Vrai | Laissez le modèle raisonner avant de répondre. Désactivez les réponses à faible latence ou une sortie strictement structurée. |
do_sample | Booléen | non | Vrai | Activez l’échantillonnage. Désactivez les résultats déterministes avides (température et top_p sont ignorées). |
tool_web_search | Booléen | non | faux | Activez la recherche web intégrée. Ajoute $0.033 par requête lorsqu’elle est utilisée. |
search_recency_filter | enum | non | "noLimit" | Limitez les résultats de recherche web à une fenêtre de récence. · Autorisé: oneDay, oneWeek, oneMonth, oneYear, noLimit |
count | entier | non | 10 | Nombre de résultats de recherche web à récupérer lorsque la recherche web est activée. · Plage: 1 – 50 |
search_domain_filter | Corde | non | - | Restreignez la recherche web à un domaine spécifique. |
search_prompt | Corde | non | - | Prompt optionnel utilisé pour résumer les résultats de recherche web récupérés. |
search_result | Booléen | non | Vrai | Retournez les métadonnées des résultats de recherche web dans la réponse lorsque la recherche web est activée. |
tool_stream | Booléen | non | faux | Diffusez progressivement les arguments d’appel de fonction lors du streaming. |
tools | Tableau | non | [] | Définitions d’outils d’appel de fonction compatibles OpenAI. |
tool_choice | Objet | non | - | Contrôle du choix d’outils compatible OpenAI. |
response_format | Objet | non | - | Mode JSON compatible OpenAI. Utilisez Thinking Disabled pour une sortie strictement structurée. |
stop | Tableau | non | - | Séquences d’arrêts optionnelles (jusqu’à 4). |
Variantes
:variant1
| Terrain | Valeur |
|---|---|
| Identifiant de modèle | glm-5-2:variant1 |
| Date de sortie du modèle | 2026-06-16 |
| Région | Allemagne |
| Fenêtre de contexte | 1M |
| Précision du poids | - |
| Jetons de sortie max | 131,072 |
| Caractéristiques | raisonnement, function_calling, structured_output, cache |
| Inférence autochtone | Non |
| Points de terminaison pris en charge | POST /v1/chat/completions, POST /v1/responses, POST /v1/messages |
Prix
| Charge | Spec | Taux |
|---|---|---|
| Entrée | par 1M de jetons d’invite | $1.10 (était $1.40) |
| Production | par 1M de jetons générés | $3.851 (était $4.40) |
| Lecture implicite du cache | par 1M de jetons d’entrée mis en cache | $0.275 |
Paramètres
| Paramètre | Type | Obligatoire | Par défaut | Description |
|---|---|---|---|---|
temperature | Nombre | non | 0.7 | Température d’échantillonnage. 0 = déterministe, 2 = aléatoire maximal. · Plage: 0 – 2 |
top_p | Nombre | non | 0.9 | Probabilité d’échantillonnage du noyau, masse. Plus bas = plus concentré. · Répartition: 0 – 1 |
max_tokens | Nombre | non | 4096 | Jetons de sortie maximum. · Répartition: 1 – 131072 |
stop | Corde | non | - | Jusqu’à 4 chaînes où le modèle cesse de générer d’autres jetons. |
enable_thinking | Booléen | non | Vrai | Activez step-by-step raisonnement avant de répondre. |
reasoning_effort | enum | non | "medium" | Niveau d’effort de raisonnement. Aucun ne décourage la pensée. budgets de pensée limités faible, moyen, élevé et maximal adaptés au modèle sélectionné. Envoyé sous forme de champ reasoning_effort de type OpenAI, traduit en enable_thinking et thinking_budget pour le service modèle. · Autorisé: none, low, medium, high, max |
thinking_budget | Nombre | non | 32768 | Le maximum de jetons est réservé au processus de raisonnement. Jusqu’à 131072. · Répartition: 1 – 131072 |
_Machine schéma lisible: _ GET https://api.empiriolabs.ai/v1/models/glm-5-2.
