GLM 4.5 Flash

GLM 4.5 Flash
Z.ai · Text Generation
POST /v1/chat/completions

Modèle texte GLM-4.5 léger gratuit pour le raisonnement, le codage, le chat long format et les tâches linguistiques générales.

En un coup d’œil

TerrainValeur
Identifiant de modèleglm-4-5-flash
Date de sortie du modèle2025-07-28
Modalités d’entréeTexte
Modalités de sortieTexte
Fenêtre de contexte200K
Précision du poids-
Jetons de sortie max98,304
RégionSingapour
Caractéristiquesraisonnement, function_calling, structured_output, web_search
Inférence autochtoneNon
NouveauOui
Points de terminaison pris en chargePOST /v1/chat/completions, POST /v1/responses, POST /v1/messages

Tarification

ChargeSpecTaux
Entréepar 1M de jetons d’inviteGratuit
Productionpar 1M de jetons générésGratuit
Lecture implicite du cachepar 1M de jetons d’entrée mis en cacheGratuit
Recherche Webpar requête lorsqu’activé$0.033

Exemple de demande

$curl https://api.empiriolabs.ai/v1/chat/completions \
> -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
> -H 'Content-Type: application/json' \
> -d '{"model": "glm-4-5-flash", "messages": [{"role":"user","content":"Hello"}]}'

Paramètres

ParamètreTypeObligatoirePar défautDescription
temperatureNombrenon0.6Température d’échantillonnage. Les valeurs plus basses sont plus déterministes. GLM-4.7-Flash et GLM-4.6V-Flash par défaut à 1.0; GLM-4.5-Flash est par défaut à 0,6. · Répartition: 0 – 1
top_pNombrenon0.95Probabilité d’échantillonnage du noyau, masse. Z.AI documente un taux par défaut de 0,95 pour les séries GLM-4.7, GLM-4.6 et GLM-4.5. · Portée: 0,01 – 1
max_tokensNombrenon4096Jetons de sortie maximaux pour GLM-4.5-Flash: 98304. · Répartition: 1 – 98304
stopTableaunon-Liste de mots stop. Z.AI prend actuellement en charge une chaîne de stop sous forme de tableau.
do_sampleBooléennonVraiActivez l’échantillonnage. Lorsqu’ils sont faux, la température et top_p n’affectent pas la génération.
enable_thinkingBooléennonVraiLes contrôles Z.AI mode réflexion. Activé est la valeur par défaut; GLM-4.5-Flash décide automatiquement s’il faut réfléchir lorsqu’il est activé.
thinkingObjetnon-Objet de pensée avancée. Utilisez {“type »:“enabled”} ou {“type »:“disabled”}. GLM-4.5-Flash décide automatiquement s’il faut réfléchir lorsqu’il est activé.
response_formatObjetnon-Définissez {“type »:“json_object”} pour le mode JSON ou {“type »:“text”} pour le texte brut.
toolsTableaunon-Les outils fonctionnels et l’outil de web_search intégré sont pris en charge.
tool_choiceenumnon"auto"Contrôle si le modèle peut utiliser des outils. Z.AI documents la sélection automatique des outils; Omettez les outils pour désactiver l’utilisation des outils. · Autorisé: auto
tool_web_searchBooléennonfauxActivez la recherche web intégrée. Ajoute $0.033 par requête lorsqu’il est activé.
search_resultBooléennonVraiRetournez les métadonnées structurées des résultats de recherche web lorsque la recherche web est activée.
search_promptCordenon-Instruction optionnelle pour résumer les résultats de recherche web récupérés.
countNombrenon10Nombre de résultats de recherche web à récupérer. · Plage: 1 – 50
search_domain_filterCordenon-Liste blanche optionnelle de domaines pour les résultats de recherche web.
search_recency_filterenumnon"noLimit"Fenêtre optionnelle de récence de recherche web. · Autorisé: oneDay, oneWeek, oneMonth, oneYear, noLimit

Notes

L’utilisation de base des jetons est gratuite. La recherche web intégrée est optionnelle via tool_web_search et ajoute $0.033 par requête lorsqu’elle est activée.


_Machine schéma lisible: _ GET https://api.empiriolabs.ai/v1/models/glm-4-5-flash.