GLM 5.2

Z.ai · Text Generation
/v1/chat/completionsModelo de razonamiento y codificación con un contexto de token de 1M, salida de 128K, esfuerzo de razonamiento ajustable, búsqueda web nativa y llamada a herramientas.
A simple vista
| Campo | Valor |
|---|---|
| ID de modelo | glm-5-2 |
| Fecha de lanzamiento del modelo | 2026-06-16 |
| Modalidades de entrada | Texto |
| Modalidades de salida | Texto |
| Ventana de contexto | 1M |
| Precisión del peso | - |
| Tokens de salida máximo | 131,072 |
| Región | Singapur |
| Características | razonamiento, function_calling, structured_output, web_search |
| Inferencia nativa | No |
| Nuevo | Sí |
| Puntos finales soportados | /v1/chat/completions, /v1/responses, /v1/messages |
Precios
| Carga | Especificaciones | Tarifa |
|---|---|---|
| Entrada | por 1M de fichas de prompt | $1.40 |
| Producción | por cada 1M de tokens generados | $4.40 |
| Búsqueda web | por petición | $0.033 |
Solicitud de ejemplo
$ curl https://api.empiriolabs.ai/v1/chat/completions \ > -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \ > -H 'Content-Type: application/json' \ > -d '{"model": "glm-5-2", "messages": [{"role":"user","content":"Hello"}]}'
Parámetros
| Parámetro | Tipo | Obligatorio | Default | Descripción |
|---|---|---|---|---|
max_tokens | enteros | no | 65536 | Número máximo de tokens de salida a generar. · Rango: 1 – 131072 |
temperature | Número | no | 1 | Controla la aleatoriedad. Valores más bajos hacen que las respuestas sean más deterministas. · Rango: 0 – 1 |
top_p | Número | no | 0.95 | Corte de muestreo del núcleo. · Rango: 0,01 – 1 |
reasoning_effort | enum | no | "max" | Esfuerzo de razonamiento GLM-5.2. ninguno impide el pensamiento; Mínimo a Máximo establece qué tan fuerte razona el modelo antes de responder. Max se recomienda para codificación compleja. · Permitidos: none, minimal, low, medium, high, xhigh, max |
enable_thinking | Booleano | no | Cierto | Permite que el modelo razone antes de responder. Desactiva para respuestas con menor latencia o salida estrictamente estructurada. |
do_sample | Booleano | no | Cierto | Habilitar el muestreo. Desactiva para la salida determinista codiciosa (se ignoran la temperatura y top_p). |
tool_web_search | Booleano | no | falso | Activa la búsqueda web integrada. Añade $0.033 por petición cuando se usa. |
search_recency_filter | enum | no | "noLimit" | Limita los resultados de búsqueda web a una ventana de recientecita. · Permitidos: oneDay, oneWeek, oneMonth, oneYear, noLimit |
count | enteros | no | 10 | Número de resultados de búsqueda web que recuperar cuando la búsqueda web está activada. · Rango: 1 – 50 |
search_domain_filter | Cuerda | no | - | Limita la búsqueda web a un dominio específico. |
search_prompt | Cuerda | no | - | Prompt opcional usado para resumir los resultados de búsqueda web recuperados. |
search_result | Booleano | no | Cierto | Devuelve los metadatos de los resultados de búsqueda web en la respuesta cuando la búsqueda web esté habilitada. |
tool_stream | Booleano | no | falso | Transmite los argumentos de la llamada de función de forma incremental al hacer streaming. |
tools | Matriz | no | [] | Definiciones de herramientas de llamada a funciones compatibles con OpenAI. |
tool_choice | Objeto | no | - | Control de elección de herramientas compatible con OpenAI. |
response_format | Objeto | no | - | Modo JSON compatible con OpenAI. Usa Thinking Disabled para una salida estrictamente estructurada. |
stop | Matriz | no | - | Secuencias opcionales de paradas (hasta 4). |
Variantes
:variant1
| Campo | Valor |
|---|---|
| ID de modelo | glm-5-2:variant1 |
| Fecha de lanzamiento del modelo | 2026-06-16 |
| Región | Alemania |
| Ventana de contexto | 1M |
| Precisión del peso | - |
| Tokens de salida máximo | 131,072 |
| Características | razonamiento, function_calling, structured_output, caché |
| Inferencia nativa | No |
| Puntos finales soportados | POST /v1/chat/completions, POST /v1/responses, POST /v1/messages |
Precios
| Carga | Especificaciones | Tarifa |
|---|---|---|
| Entrada | por 1M de fichas de prompt | $1.10 (era $1.40) |
| Producción | por cada 1M de tokens generados | $3.851 (era $4.40) |
| Lectura implícita de caché | por cada 1M de tokens de entrada en caché | $0.275 |
Parámetros
| Parámetro | Tipo | Obligatorio | Default | Descripción |
|---|---|---|---|---|
temperature | Número | no | 0.7 | Temperatura de muestreo. 0 = determinista, 2 = máxima aleatoriedad. · Rango: 0 – 2 |
top_p | Número | no | 0.9 | Masa de probabilidad de muestreo del núcleo. Más bajo = más enfocado. · Rango: 0 – 1 |
max_tokens | Número | no | 4096 | Tokens de salida máximos. · Rango: 1 – 131072 |
stop | Cuerda | no | - | Hasta 4 cadenas donde el modelo dejará de generar más tokens. |
enable_thinking | Booleano | no | Cierto | Activa step-by-step razonamiento antes de responder. |
reasoning_effort | enum | no | "medium" | Nivel de esfuerzo de razonamiento. Ninguno impide pensar. Presupuestos limitados de pensamiento de conjunto bajos, medios, altos y máximos, adaptados al modelo seleccionado. Enviado como un campo de reasoning_effort al estilo OpenAI, traducido a enable_thinking y thinking_budget para el servicio modelo. · Permitidos: none, low, medium, high, max |
thinking_budget | Número | no | 32768 | Tokens máximos reservados para el proceso de razonamiento. Hasta 131072. · Rango: 1 – 131072 |
Machine-legible esquema: GET https://api.empiriolabs.ai/v1/models/glm-5-2.
