GLM 4.7 Flash

GLM 4.7 Flash
Z.ai · Text Generation
POST /v1/chat/completions

Modelo de texto GLM-4.7 gratuito y ligero para codificación, razonamiento, escritura en contexto largo y chat general.

A simple vista

CampoValor
ID de modeloglm-4-7-flash
Fecha de lanzamiento del modelo2026-01-19
Modalidades de entradaTexto
Modalidades de salidaTexto
Ventana de contexto200K
Precisión del peso-
Tokens de salida máximo131,072
RegiónSingapur
Característicasrazonamiento, function_calling, structured_output, web_search
Inferencia nativaNo
Nuevo
Puntos finales soportadosPOST /v1/chat/completions, POST /v1/responses, POST /v1/messages

Precios

CargaEspecificacionesTarifa
Entradapor 1M de fichas de promptGratis
Producciónpor cada 1M de tokens generadosGratis
Lectura implícita de cachépor cada 1M de tokens de entrada en cachéGratis
Búsqueda webpor solicitud cuando está habilitado$0.033

Solicitud de ejemplo

$curl https://api.empiriolabs.ai/v1/chat/completions \
> -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
> -H 'Content-Type: application/json' \
> -d '{"model": "glm-4-7-flash", "messages": [{"role":"user","content":"Hello"}]}'

Parámetros

ParámetroTipoObligatorioDefaultDescripción
temperatureNúmerono1Temperatura de muestreo. Los valores más bajos son más deterministas. GLM-4.7-Flash y GLM-4.6V-Flash por defecto en 1.0; GLM-4.5-Flash por defecto es 0.6. · Rango: 0 – 1
top_pNúmerono0.95Masa de probabilidad de muestreo del núcleo. Z.AI documenta un valor predeterminado de 0,95 para las series GLM-4.7, GLM-4.6 y GLM-4.5. · Rango: 0,01 – 1
max_tokensNúmerono4096Tokens máximos de salida para GLM-4.7-Flash: 131072. · Rango: 1 – 131072
stopMatrizno-Lista de palabras de parada. Z.AI actualmente soporta cadena de un solo paso en forma de array.
do_sampleBooleanonoCiertoHabilitar el muestreo. Cuando es falso, la temperatura y la top_p no afectan a la generación.
enable_thinkingBooleanonoCiertoLos controles Z.AI modo pensamiento. Activado es el valor predeterminado y hace que GLM-4.7-Flash piense; Desactivala para giros sencillos de baja latencia.
thinkingObjetono-Objeto de pensamiento avanzado. Usa {“type”:“enabled”} o {“type”:“disabled”}. GLM-4.7-Flash piensa cuando está habilitado.
response_formatObjetono-Establece {“type”:“json_object”} para modo JSON o {“type”:“text”} para texto plano.
toolsMatrizno-Se soportan herramientas funcionales y la herramienta web_search integrada.
tool_choiceenumno"auto"Controla si el modelo puede usar herramientas. Z.AI documentos de selección automática de herramientas; Omite herramientas para desactivar el uso de herramientas. · Permitido: auto
tool_streamBooleanonofalsoSalida de la herramienta de llamada de función de flujo cuando el flujo es verdadero. Z.AI documentos tool_stream para GLM-4.6 y modelos más recientes.
tool_web_searchBooleanonofalsoActiva la búsqueda web integrada. Añade $0.033 por petición cuando está activado.
search_resultBooleanonoCiertoDevuelve los metadatos estructurados de los resultados de búsqueda web cuando la búsqueda web esté habilitada.
search_promptCuerdano-Instrucción opcional para resumir los resultados de búsqueda web recuperados.
countNúmerono10Número de resultados de búsqueda web por recuperar. · Rango: 1 – 50
search_domain_filterCuerdano-Lista blanca opcional de dominios para resultados de búsqueda web.
search_recency_filterenumno"noLimit"Ventana opcional de búsqueda web de reciente. · Permitidos: oneDay, oneWeek, oneMonth, oneYear, noLimit

Notas

El uso base de fichas es gratuito. La búsqueda web integrada es opcional a través de tool_web_search y añade $0.033 por solicitud cuando está activada.


Machine-legible esquema: GET https://api.empiriolabs.ai/v1/models/glm-4-7-flash.