GLM 5.2

GLM 5.2
Z.ai · Text Generation
/v1/chat/completions

Modelo de raciocínio e codificação com um contexto de token de 1M, saída de 128K, esforço de raciocínio ajustável, busca nativa na web e chamada de ferramentas.

De um olhar

CampoValor
ID do modeloglm-5-2
Data de lançamento do modelo2026-06-16
Modalidades de entradaTexto
Modalidades de saídaTexto
Janela de contexto1M
Precisão do peso-
Tokens de saída máxima131,072
RegiãoSingapura
CaracterísticasRaciocínio, function_calling, structured_output, web_search
Inferência nativaNão
NovoSim
Endpoints suportados/v1/chat/completions, /v1/responses, /v1/messages

Precificação

CargaEspecificaçãoTaxa
Entradapor 1M de tokens de prompt$1.40
Produçãopor 1M de tokens gerados$4.40
Busca na Webpor pedido$0.033

Exemplo de pedido

$curl https://api.empiriolabs.ai/v1/chat/completions \
> -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
> -H 'Content-Type: application/json' \
> -d '{"model": "glm-5-2", "messages": [{"role":"user","content":"Hello"}]}'

Parâmetros

ParâmetroTipoObrigatórioPadrãoDescrição
max_tokensinteiroNão65536Número máximo de tokens de saída a serem gerados. · Intervalo: 1 – 131072
temperatureNúmeroNão1Controla a aleatoriedade. Valores mais baixos tornam as respostas mais determinísticas. · Intervalo: 0 – 1
top_pNúmeroNão0.95Corte de amostragem do núcleo. · Alcance: 0,01 – 1
reasoning_effortenumNão"max"Esforço de raciocínio GLM-5.2. nenhum impede o pensamento; Mínimo até Max define o quanto o modelo raciocina antes de responder. O Max é recomendado para codificação complexa. · Permitidos: none, minimal, low, medium, high, xhigh, max
enable_thinkingBooleanoNãoVerdadePermita que o modelo raciocine antes de responder. Desligue para respostas com menor latência ou saída estruturada estrita.
do_sampleBooleanoNãoVerdadeAtive a amostragem. Desligue para saída determinística gulosa (temperatura e top_p são ignoradas).
tool_web_searchBooleanoNãofalsoAtive a busca web embutida. Adiciona $0.033 por requisição quando usado.
search_recency_filterenumNão"noLimit"Limite os resultados da busca na web a uma janela de recência. · Permitido: oneDay, oneWeek, oneMonth, oneYear, noLimit
countinteiroNão10Número de resultados de busca na web para recuperar quando a busca na web está ativada. · Intervalo: 1 – 50
search_domain_filterStringNão-Restringa a busca na web a um domínio específico.
search_promptStringNão-Prompt opcional usado para resumir os resultados de busca web recuperados.
search_resultBooleanoNãoVerdadeRetorne os metadados dos resultados da busca web na resposta quando a busca na web estiver habilitada.
tool_streamBooleanoNãofalsoTransmita argumentos de chamada de função de forma incremental ao transmitir.
toolsArranjoNão[]Definições de ferramentas de chamada de função compatíveis com OpenAI.
tool_choiceObjetoNão-Controle de escolha de ferramentas compatível com OpenAI.
response_formatObjetoNão-Modo JSON compatível com OpenAI. Use o Thinking Disabled para uma saída estruturada e estritamente estruturada.
stopArranjoNão-Sequências opcionais de paradas (até 4).

Variantes

:variant1

CampoValor
ID do modeloglm-5-2:variant1
Data de lançamento do modelo2026-06-16
RegiãoAlemanha
Janela de contexto1M
Precisão do peso-
Tokens de saída máxima131,072
CaracterísticasRaciocínio, function_calling, structured_output, cache
Inferência nativaNão
Endpoints suportadosPOST /v1/chat/completions, POST /v1/responses, POST /v1/messages

Preço

CargaEspecificaçãoTaxa
Entradapor 1M de tokens de prompt$1.10 (era $1.40)
Produçãopor 1M de tokens gerados$3.851 (era $4.40)
Leitura implícita do cachepor 1M de tokens de entrada cacheados$0.275

Parâmetros

ParâmetroTipoObrigatórioPadrãoDescrição
temperatureNúmeroNão0.7Temperatura de amostragem. 0 = determinística, 2 = aleatoriedade máxima. · Intervalo: 0 – 2
top_pNúmeroNão0.9Amostragem do núcleo com a probabilidade de massa. Menor = mais focado. · Intervalo: 0 – 1
max_tokensNúmeroNão4096Tokens de saída máximos. · Intervalo: 1 – 131072
stopStringNão-Até 4 strings em que o modelo para de gerar mais tokens.
enable_thinkingBooleanoNãoVerdadeAtive step-by-step raciocínio antes de responder.
reasoning_effortenumNão"medium"Nível de esforço de raciocínio. Nenhum impede o pensamento. orçamentos limitados de pensamento de conjuntos baixos, médios, altos e máximos, dimensionados para o modelo selecionado. Enviado como um campo de reasoning_effort estilo OpenAI, traduzido em enable_thinking e thinking_budget para o serviço modelo. · Permitido: none, low, medium, high, max
thinking_budgetNúmeroNão32768Tokens máximos reservados para o processo de raciocínio. Até 131072. · Intervalo: 1 – 131072

Machine esquema legível: GET https://api.empiriolabs.ai/v1/models/glm-5-2.