GLM 4.7 Flash | EmpirioLabs AI Docs

Z.ai · Text Generation

POST /v1/chat/completions

Modelo de texto GLM-4.7 gratuito y ligero para codificación, razonamiento, escritura en contexto largo y chat general.

A simple vista

Campo	Valor
ID de modelo	`glm-4-7-flash`
Fecha de lanzamiento del modelo	2026-01-19
Modalidades de entrada	Texto
Modalidades de salida	Texto
Ventana de contexto	200K
Precisión del peso	-
Tokens de salida máximo	131,072
Región	Singapur
Características	razonamiento, function_calling, structured_output, web_search
Inferencia nativa	No
Nuevo	Sí
Puntos finales soportados	`POST /v1/chat/completions`, `POST /v1/responses`, `POST /v1/messages`

Precios

Carga	Especificaciones	Tarifa
Entrada	por 1M de fichas de prompt	Gratis
Producción	por cada 1M de tokens generados	Gratis
Lectura implícita de caché	por cada 1M de tokens de entrada en caché	Gratis
Búsqueda web	por solicitud cuando está habilitado	$0.033

Solicitud de ejemplo

$ curl https://api.empiriolabs.ai/v1/chat/completions \
>   -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
>   -H 'Content-Type: application/json' \
>   -d '{"model": "glm-4-7-flash", "messages": [{"role":"user","content":"Hello"}]}'

Parámetros

Parámetro	Tipo	Obligatorio	Default	Descripción
`temperature`	Número	no	`1`	Temperatura de muestreo. Los valores más bajos son más deterministas. GLM-4.7-Flash y GLM-4.6V-Flash por defecto en 1.0; GLM-4.5-Flash por defecto es 0.6. · Rango: 0 – 1
`top_p`	Número	no	`0.95`	Masa de probabilidad de muestreo del núcleo. Z.AI documenta un valor predeterminado de 0,95 para las series GLM-4.7, GLM-4.6 y GLM-4.5. · Rango: 0,01 – 1
`max_tokens`	Número	no	`4096`	Tokens máximos de salida para GLM-4.7-Flash: 131072. · Rango: 1 – 131072
`stop`	Matriz	no	-	Lista de palabras de parada. Z.AI actualmente soporta cadena de un solo paso en forma de array.
`do_sample`	Booleano	no	Cierto	Habilitar el muestreo. Cuando es falso, la temperatura y la top_p no afectan a la generación.
`enable_thinking`	Booleano	no	Cierto	Los controles Z.AI modo pensamiento. Activado es el valor predeterminado y hace que GLM-4.7-Flash piense; Desactivala para giros sencillos de baja latencia.
`thinking`	Objeto	no	-	Objeto de pensamiento avanzado. Usa {“type”:“enabled”} o {“type”:“disabled”}. GLM-4.7-Flash piensa cuando está habilitado.
`response_format`	Objeto	no	-	Establece {“type”:“json_object”} para modo JSON o {“type”:“text”} para texto plano.
`tools`	Matriz	no	-	Se soportan herramientas funcionales y la herramienta web_search integrada.
`tool_choice`	enum	no	`"auto"`	Controla si el modelo puede usar herramientas. Z.AI documentos de selección automática de herramientas; Omite herramientas para desactivar el uso de herramientas. · Permitido: `auto`
`tool_stream`	Booleano	no	falso	Salida de la herramienta de llamada de función de flujo cuando el flujo es verdadero. Z.AI documentos tool_stream para GLM-4.6 y modelos más recientes.
`tool_web_search`	Booleano	no	falso	Activa la búsqueda web integrada. Añade $0.033 por petición cuando está activado.
`search_result`	Booleano	no	Cierto	Devuelve los metadatos estructurados de los resultados de búsqueda web cuando la búsqueda web esté habilitada.
`search_prompt`	Cuerda	no	-	Instrucción opcional para resumir los resultados de búsqueda web recuperados.
`count`	Número	no	`10`	Número de resultados de búsqueda web por recuperar. · Rango: 1 – 50
`search_domain_filter`	Cuerda	no	-	Lista blanca opcional de dominios para resultados de búsqueda web.
`search_recency_filter`	enum	no	`"noLimit"`	Ventana opcional de búsqueda web de reciente. · Permitidos: `oneDay`, `oneWeek`, `oneMonth`, `oneYear`, `noLimit`

Notas

El uso base de fichas es gratuito. La búsqueda web integrada es opcional a través de tool_web_search y añade $0.033 por solicitud cuando está activada.

Machine-legible esquema: GET https://api.empiriolabs.ai/v1/models/glm-4-7-flash.