GLM 4.5 Flash | EmpirioLabs AI Docs

Z.ai · Text Generation

POST /v1/chat/completions

Modèle texte GLM-4.5 léger gratuit pour le raisonnement, le codage, le chat long format et les tâches linguistiques générales.

En un coup d’œil

Terrain	Valeur
Identifiant de modèle	`glm-4-5-flash`
Date de sortie du modèle	2025-07-28
Modalités d’entrée	Texte
Modalités de sortie	Texte
Fenêtre de contexte	200K
Précision du poids	-
Jetons de sortie max	98,304
Région	Singapour
Caractéristiques	raisonnement, function_calling, structured_output, web_search
Inférence autochtone	Non
Nouveau	Oui
Points de terminaison pris en charge	`POST /v1/chat/completions`, `POST /v1/responses`, `POST /v1/messages`

Tarification

Charge	Spec	Taux
Entrée	par 1M de jetons d’invite	Gratuit
Production	par 1M de jetons générés	Gratuit
Lecture implicite du cache	par 1M de jetons d’entrée mis en cache	Gratuit
Recherche Web	par requête lorsqu’activé	$0.033

Exemple de demande

$ curl https://api.empiriolabs.ai/v1/chat/completions \
>   -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
>   -H 'Content-Type: application/json' \
>   -d '{"model": "glm-4-5-flash", "messages": [{"role":"user","content":"Hello"}]}'

Paramètres

Paramètre	Type	Obligatoire	Par défaut	Description
`temperature`	Nombre	non	`0.6`	Température d’échantillonnage. Les valeurs plus basses sont plus déterministes. GLM-4.7-Flash et GLM-4.6V-Flash par défaut à 1.0; GLM-4.5-Flash est par défaut à 0,6. · Répartition: 0 – 1
`top_p`	Nombre	non	`0.95`	Probabilité d’échantillonnage du noyau, masse. Z.AI documente un taux par défaut de 0,95 pour les séries GLM-4.7, GLM-4.6 et GLM-4.5. · Portée: 0,01 – 1
`max_tokens`	Nombre	non	`4096`	Jetons de sortie maximaux pour GLM-4.5-Flash: 98304. · Répartition: 1 – 98304
`stop`	Tableau	non	-	Liste de mots stop. Z.AI prend actuellement en charge une chaîne de stop sous forme de tableau.
`do_sample`	Booléen	non	Vrai	Activez l’échantillonnage. Lorsqu’ils sont faux, la température et top_p n’affectent pas la génération.
`enable_thinking`	Booléen	non	Vrai	Les contrôles Z.AI mode réflexion. Activé est la valeur par défaut; GLM-4.5-Flash décide automatiquement s’il faut réfléchir lorsqu’il est activé.
`thinking`	Objet	non	-	Objet de pensée avancée. Utilisez {“type »:“enabled”} ou {“type »:“disabled”}. GLM-4.5-Flash décide automatiquement s’il faut réfléchir lorsqu’il est activé.
`response_format`	Objet	non	-	Définissez {“type »:“json_object”} pour le mode JSON ou {“type »:“text”} pour le texte brut.
`tools`	Tableau	non	-	Les outils fonctionnels et l’outil de web_search intégré sont pris en charge.
`tool_choice`	enum	non	`"auto"`	Contrôle si le modèle peut utiliser des outils. Z.AI documents la sélection automatique des outils; Omettez les outils pour désactiver l’utilisation des outils. · Autorisé: `auto`
`tool_web_search`	Booléen	non	faux	Activez la recherche web intégrée. Ajoute $0.033 par requête lorsqu’il est activé.
`search_result`	Booléen	non	Vrai	Retournez les métadonnées structurées des résultats de recherche web lorsque la recherche web est activée.
`search_prompt`	Corde	non	-	Instruction optionnelle pour résumer les résultats de recherche web récupérés.
`count`	Nombre	non	`10`	Nombre de résultats de recherche web à récupérer. · Plage: 1 – 50
`search_domain_filter`	Corde	non	-	Liste blanche optionnelle de domaines pour les résultats de recherche web.
`search_recency_filter`	enum	non	`"noLimit"`	Fenêtre optionnelle de récence de recherche web. · Autorisé: `oneDay`, `oneWeek`, `oneMonth`, `oneYear`, `noLimit`

Notes

L’utilisation de base des jetons est gratuite. La recherche web intégrée est optionnelle via tool_web_search et ajoute $0.033 par requête lorsqu’elle est activée.

_Machine schéma lisible: _ GET https://api.empiriolabs.ai/v1/models/glm-4-5-flash.