GLM 4.5 Flash

Z.ai · Text Generation
POST /v1/chat/completionsModelo de texto GLM-4.5 gratuito y ligero para razonamiento, programación, chat de formato largo y tareas generales de lenguaje.
A simple vista
| Campo | Valor |
|---|---|
| ID de modelo | glm-4-5-flash |
| Fecha de lanzamiento del modelo | 2025-07-28 |
| Modalidades de entrada | Texto |
| Modalidades de salida | Texto |
| Ventana de contexto | 200K |
| Precisión del peso | - |
| Tokens de salida máximo | 98,304 |
| Región | Singapur |
| Características | razonamiento, function_calling, structured_output, web_search |
| Inferencia nativa | No |
| Nuevo | Sí |
| Puntos finales soportados | POST /v1/chat/completions, POST /v1/responses, POST /v1/messages |
Precios
| Carga | Especificaciones | Tarifa |
|---|---|---|
| Entrada | por 1M de fichas de prompt | Gratis |
| Producción | por cada 1M de tokens generados | Gratis |
| Lectura implícita de caché | por cada 1M de tokens de entrada en caché | Gratis |
| Búsqueda web | por solicitud cuando está habilitado | $0.033 |
Solicitud de ejemplo
$ curl https://api.empiriolabs.ai/v1/chat/completions \ > -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \ > -H 'Content-Type: application/json' \ > -d '{"model": "glm-4-5-flash", "messages": [{"role":"user","content":"Hello"}]}'
Parámetros
| Parámetro | Tipo | Obligatorio | Default | Descripción |
|---|---|---|---|---|
temperature | Número | no | 0.6 | Temperatura de muestreo. Los valores más bajos son más deterministas. GLM-4.7-Flash y GLM-4.6V-Flash por defecto en 1.0; GLM-4.5-Flash por defecto es 0.6. · Rango: 0 – 1 |
top_p | Número | no | 0.95 | Masa de probabilidad de muestreo del núcleo. Z.AI documenta un valor predeterminado de 0,95 para las series GLM-4.7, GLM-4.6 y GLM-4.5. · Rango: 0,01 – 1 |
max_tokens | Número | no | 4096 | Tokens máximos de salida para GLM-4.5-Flash: 98304. · Rango: 1 – 98304 |
stop | Matriz | no | - | Lista de palabras de parada. Z.AI actualmente soporta cadena de un solo paso en forma de array. |
do_sample | Booleano | no | Cierto | Habilitar el muestreo. Cuando es falso, la temperatura y la top_p no afectan a la generación. |
enable_thinking | Booleano | no | Cierto | Los controles Z.AI modo pensamiento. Activado es el valor por defecto; GLM-4.5-Flash decide automáticamente si pensar cuando está habilitado. |
thinking | Objeto | no | - | Objeto de pensamiento avanzado. Usa {“type”:“enabled”} o {“type”:“disabled”}. GLM-4.5-Flash decide automáticamente si pensar cuando está habilitado. |
response_format | Objeto | no | - | Establece {“type”:“json_object”} para modo JSON o {“type”:“text”} para texto plano. |
tools | Matriz | no | - | Se soportan herramientas funcionales y la herramienta web_search integrada. |
tool_choice | enum | no | "auto" | Controla si el modelo puede usar herramientas. Z.AI documentos de selección automática de herramientas; Omite herramientas para desactivar el uso de herramientas. · Permitido: auto |
tool_web_search | Booleano | no | falso | Activa la búsqueda web integrada. Añade $0.033 por petición cuando está activado. |
search_result | Booleano | no | Cierto | Devuelve los metadatos estructurados de los resultados de búsqueda web cuando la búsqueda web esté habilitada. |
search_prompt | Cuerda | no | - | Instrucción opcional para resumir los resultados de búsqueda web recuperados. |
count | Número | no | 10 | Número de resultados de búsqueda web por recuperar. · Rango: 1 – 50 |
search_domain_filter | Cuerda | no | - | Lista blanca opcional de dominios para resultados de búsqueda web. |
search_recency_filter | enum | no | "noLimit" | Ventana opcional de búsqueda web de reciente. · Permitidos: oneDay, oneWeek, oneMonth, oneYear, noLimit |
Notas
El uso base de fichas es gratuito. La búsqueda web integrada es opcional a través de tool_web_search y añade $0.033 por solicitud cuando está activada.
Machine-legible esquema: GET https://api.empiriolabs.ai/v1/models/glm-4-5-flash.
