GLM 4.5 Flash

Z.ai · Text Generation
POST /v1/chat/completionsModèle texte GLM-4.5 léger gratuit pour le raisonnement, le codage, le chat long format et les tâches linguistiques générales.
En un coup d’œil
| Terrain | Valeur |
|---|---|
| Identifiant de modèle | glm-4-5-flash |
| Date de sortie du modèle | 2025-07-28 |
| Modalités d’entrée | Texte |
| Modalités de sortie | Texte |
| Fenêtre de contexte | 200K |
| Précision du poids | - |
| Jetons de sortie max | 98,304 |
| Région | Singapour |
| Caractéristiques | raisonnement, function_calling, structured_output, web_search |
| Inférence autochtone | Non |
| Nouveau | Oui |
| Points de terminaison pris en charge | POST /v1/chat/completions, POST /v1/responses, POST /v1/messages |
Tarification
| Charge | Spec | Taux |
|---|---|---|
| Entrée | par 1M de jetons d’invite | Gratuit |
| Production | par 1M de jetons générés | Gratuit |
| Lecture implicite du cache | par 1M de jetons d’entrée mis en cache | Gratuit |
| Recherche Web | par requête lorsqu’activé | $0.033 |
Exemple de demande
$ curl https://api.empiriolabs.ai/v1/chat/completions \ > -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \ > -H 'Content-Type: application/json' \ > -d '{"model": "glm-4-5-flash", "messages": [{"role":"user","content":"Hello"}]}'
Paramètres
| Paramètre | Type | Obligatoire | Par défaut | Description |
|---|---|---|---|---|
temperature | Nombre | non | 0.6 | Température d’échantillonnage. Les valeurs plus basses sont plus déterministes. GLM-4.7-Flash et GLM-4.6V-Flash par défaut à 1.0; GLM-4.5-Flash est par défaut à 0,6. · Répartition: 0 – 1 |
top_p | Nombre | non | 0.95 | Probabilité d’échantillonnage du noyau, masse. Z.AI documente un taux par défaut de 0,95 pour les séries GLM-4.7, GLM-4.6 et GLM-4.5. · Portée: 0,01 – 1 |
max_tokens | Nombre | non | 4096 | Jetons de sortie maximaux pour GLM-4.5-Flash: 98304. · Répartition: 1 – 98304 |
stop | Tableau | non | - | Liste de mots stop. Z.AI prend actuellement en charge une chaîne de stop sous forme de tableau. |
do_sample | Booléen | non | Vrai | Activez l’échantillonnage. Lorsqu’ils sont faux, la température et top_p n’affectent pas la génération. |
enable_thinking | Booléen | non | Vrai | Les contrôles Z.AI mode réflexion. Activé est la valeur par défaut; GLM-4.5-Flash décide automatiquement s’il faut réfléchir lorsqu’il est activé. |
thinking | Objet | non | - | Objet de pensée avancée. Utilisez {“type »:“enabled”} ou {“type »:“disabled”}. GLM-4.5-Flash décide automatiquement s’il faut réfléchir lorsqu’il est activé. |
response_format | Objet | non | - | Définissez {“type »:“json_object”} pour le mode JSON ou {“type »:“text”} pour le texte brut. |
tools | Tableau | non | - | Les outils fonctionnels et l’outil de web_search intégré sont pris en charge. |
tool_choice | enum | non | "auto" | Contrôle si le modèle peut utiliser des outils. Z.AI documents la sélection automatique des outils; Omettez les outils pour désactiver l’utilisation des outils. · Autorisé: auto |
tool_web_search | Booléen | non | faux | Activez la recherche web intégrée. Ajoute $0.033 par requête lorsqu’il est activé. |
search_result | Booléen | non | Vrai | Retournez les métadonnées structurées des résultats de recherche web lorsque la recherche web est activée. |
search_prompt | Corde | non | - | Instruction optionnelle pour résumer les résultats de recherche web récupérés. |
count | Nombre | non | 10 | Nombre de résultats de recherche web à récupérer. · Plage: 1 – 50 |
search_domain_filter | Corde | non | - | Liste blanche optionnelle de domaines pour les résultats de recherche web. |
search_recency_filter | enum | non | "noLimit" | Fenêtre optionnelle de récence de recherche web. · Autorisé: oneDay, oneWeek, oneMonth, oneYear, noLimit |
Notes
L’utilisation de base des jetons est gratuite. La recherche web intégrée est optionnelle via tool_web_search et ajoute $0.033 par requête lorsqu’elle est activée.
_Machine schéma lisible: _ GET https://api.empiriolabs.ai/v1/models/glm-4-5-flash.
