GLM 5.2

Z.ai · Text Generation
/v1/chat/completionsModelo de raciocínio e codificação com um contexto de token de 1M, saída de 128K, esforço de raciocínio ajustável, busca nativa na web e chamada de ferramentas.
De um olhar
| Campo | Valor |
|---|---|
| ID do modelo | glm-5-2 |
| Data de lançamento do modelo | 2026-06-16 |
| Modalidades de entrada | Texto |
| Modalidades de saída | Texto |
| Janela de contexto | 1M |
| Precisão do peso | - |
| Tokens de saída máxima | 131,072 |
| Região | Singapura |
| Características | Raciocínio, function_calling, structured_output, web_search |
| Inferência nativa | Não |
| Novo | Sim |
| Endpoints suportados | /v1/chat/completions, /v1/responses, /v1/messages |
Precificação
| Carga | Especificação | Taxa |
|---|---|---|
| Entrada | por 1M de tokens de prompt | $1.40 |
| Produção | por 1M de tokens gerados | $4.40 |
| Busca na Web | por pedido | $0.033 |
Exemplo de pedido
$ curl https://api.empiriolabs.ai/v1/chat/completions \ > -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \ > -H 'Content-Type: application/json' \ > -d '{"model": "glm-5-2", "messages": [{"role":"user","content":"Hello"}]}'
Parâmetros
| Parâmetro | Tipo | Obrigatório | Padrão | Descrição |
|---|---|---|---|---|
max_tokens | inteiro | Não | 65536 | Número máximo de tokens de saída a serem gerados. · Intervalo: 1 – 131072 |
temperature | Número | Não | 1 | Controla a aleatoriedade. Valores mais baixos tornam as respostas mais determinísticas. · Intervalo: 0 – 1 |
top_p | Número | Não | 0.95 | Corte de amostragem do núcleo. · Alcance: 0,01 – 1 |
reasoning_effort | enum | Não | "max" | Esforço de raciocínio GLM-5.2. nenhum impede o pensamento; Mínimo até Max define o quanto o modelo raciocina antes de responder. O Max é recomendado para codificação complexa. · Permitidos: none, minimal, low, medium, high, xhigh, max |
enable_thinking | Booleano | Não | Verdade | Permita que o modelo raciocine antes de responder. Desligue para respostas com menor latência ou saída estruturada estrita. |
do_sample | Booleano | Não | Verdade | Ative a amostragem. Desligue para saída determinística gulosa (temperatura e top_p são ignoradas). |
tool_web_search | Booleano | Não | falso | Ative a busca web embutida. Adiciona $0.033 por requisição quando usado. |
search_recency_filter | enum | Não | "noLimit" | Limite os resultados da busca na web a uma janela de recência. · Permitido: oneDay, oneWeek, oneMonth, oneYear, noLimit |
count | inteiro | Não | 10 | Número de resultados de busca na web para recuperar quando a busca na web está ativada. · Intervalo: 1 – 50 |
search_domain_filter | String | Não | - | Restringa a busca na web a um domínio específico. |
search_prompt | String | Não | - | Prompt opcional usado para resumir os resultados de busca web recuperados. |
search_result | Booleano | Não | Verdade | Retorne os metadados dos resultados da busca web na resposta quando a busca na web estiver habilitada. |
tool_stream | Booleano | Não | falso | Transmita argumentos de chamada de função de forma incremental ao transmitir. |
tools | Arranjo | Não | [] | Definições de ferramentas de chamada de função compatíveis com OpenAI. |
tool_choice | Objeto | Não | - | Controle de escolha de ferramentas compatível com OpenAI. |
response_format | Objeto | Não | - | Modo JSON compatível com OpenAI. Use o Thinking Disabled para uma saída estruturada e estritamente estruturada. |
stop | Arranjo | Não | - | Sequências opcionais de paradas (até 4). |
Variantes
:variant1
| Campo | Valor |
|---|---|
| ID do modelo | glm-5-2:variant1 |
| Data de lançamento do modelo | 2026-06-16 |
| Região | Alemanha |
| Janela de contexto | 1M |
| Precisão do peso | - |
| Tokens de saída máxima | 131,072 |
| Características | Raciocínio, function_calling, structured_output, cache |
| Inferência nativa | Não |
| Endpoints suportados | POST /v1/chat/completions, POST /v1/responses, POST /v1/messages |
Preço
| Carga | Especificação | Taxa |
|---|---|---|
| Entrada | por 1M de tokens de prompt | $1.10 (era $1.40) |
| Produção | por 1M de tokens gerados | $3.851 (era $4.40) |
| Leitura implícita do cache | por 1M de tokens de entrada cacheados | $0.275 |
Parâmetros
| Parâmetro | Tipo | Obrigatório | Padrão | Descrição |
|---|---|---|---|---|
temperature | Número | Não | 0.7 | Temperatura de amostragem. 0 = determinística, 2 = aleatoriedade máxima. · Intervalo: 0 – 2 |
top_p | Número | Não | 0.9 | Amostragem do núcleo com a probabilidade de massa. Menor = mais focado. · Intervalo: 0 – 1 |
max_tokens | Número | Não | 4096 | Tokens de saída máximos. · Intervalo: 1 – 131072 |
stop | String | Não | - | Até 4 strings em que o modelo para de gerar mais tokens. |
enable_thinking | Booleano | Não | Verdade | Ative step-by-step raciocínio antes de responder. |
reasoning_effort | enum | Não | "medium" | Nível de esforço de raciocínio. Nenhum impede o pensamento. orçamentos limitados de pensamento de conjuntos baixos, médios, altos e máximos, dimensionados para o modelo selecionado. Enviado como um campo de reasoning_effort estilo OpenAI, traduzido em enable_thinking e thinking_budget para o serviço modelo. · Permitido: none, low, medium, high, max |
thinking_budget | Número | Não | 32768 | Tokens máximos reservados para o processo de raciocínio. Até 131072. · Intervalo: 1 – 131072 |
Machine esquema legível: GET https://api.empiriolabs.ai/v1/models/glm-5-2.
