GLM 4.5 Flash | EmpirioLabs AI Docs

Z.ai · Text Generation

POST /v1/chat/completions

Modelo de texto GLM-4.5 leve e gratuito para raciocínio, programação, chat longo e tarefas gerais de linguagem.

De um olhar

Campo	Valor
ID do modelo	`glm-4-5-flash`
Data de lançamento do modelo	2025-07-28
Modalidades de entrada	Texto
Modalidades de saída	Texto
Janela de contexto	200K
Precisão do peso	-
Tokens de saída máxima	98,304
Região	Singapura
Características	Raciocínio, function_calling, structured_output, web_search
Inferência nativa	Não
Novo	Sim
Endpoints suportados	`POST /v1/chat/completions`, `POST /v1/responses`, `POST /v1/messages`

Precificação

Carga	Especificação	Taxa
Entrada	por 1M de tokens de prompt	Grátis
Produção	por 1M de tokens gerados	Grátis
Leitura implícita do cache	por 1M de tokens de entrada cacheados	Grátis
Busca na Web	por requisição quando ativado	$0.033

Exemplo de pedido

$ curl https://api.empiriolabs.ai/v1/chat/completions \
>   -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
>   -H 'Content-Type: application/json' \
>   -d '{"model": "glm-4-5-flash", "messages": [{"role":"user","content":"Hello"}]}'

Parâmetros

Parâmetro	Tipo	Obrigatório	Padrão	Descrição
`temperature`	Número	Não	`0.6`	Temperatura de amostragem. Valores mais baixos são mais determinísticos. GLM-4.7-Flash e GLM-4.6V-Flash como padrão para 1.0; GLM-4.5-Flash tem como padrão 0.6. · Intervalo: 0 – 1
`top_p`	Número	Não	`0.95`	Amostragem do núcleo com a probabilidade de massa. Z.AI documenta um padrão de 0,95 para as séries GLM-4.7, GLM-4.6 e GLM-4.5. · Alcance: 0,01 – 1
`max_tokens`	Número	Não	`4096`	Tokens máximos de saída para GLM-4.5-Flash: 98304. · Intervalo: 1 – 98304
`stop`	Arranjo	Não	-	Lista de palavras de parada. Z.AI atualmente suporta uma cadeia de um stop em formato de array.
`do_sample`	Booleano	Não	Verdade	Ative a amostragem. Quando falso, temperatura e top_p não afetam a geração.
`enable_thinking`	Booleano	Não	Verdade	Controles Z.AI modo pensamento. Ativado é o padrão; O GLM-4.5-Flash decide automaticamente se deve pensar quando ativado.
`thinking`	Objeto	Não	-	Objeto de pensamento avançado. Use {“type”:“enabled”} ou {“type”:“disabled”}. O GLM-4.5-Flash decide automaticamente se deve pensar quando ativado.
`response_format`	Objeto	Não	-	Defina {“type”:“json_object”} para modo JSON ou {“type”:“text”} para texto simples.
`tools`	Arranjo	Não	-	Ferramentas funcionais e a ferramenta web_search embutida são suportadas.
`tool_choice`	enum	Não	`"auto"`	Determina se o modelo pode usar ferramentas. Z.AI documentos de seleção automática de ferramentas; Omita ferramentas para desabilitar o uso de ferramentas. · Permitido: `auto`
`tool_web_search`	Booleano	Não	falso	Ative a busca web embutida. Adiciona $0.033 por requisição quando ativado.
`search_result`	Booleano	Não	Verdade	Retorne metadados estruturados dos resultados da busca web quando a busca na web estiver habilitada.
`search_prompt`	String	Não	-	Instrução opcional para resumir resultados de busca web recuperados.
`count`	Número	Não	`10`	Número de resultados de busca na web para recuperar. · Intervalo: 1 – 50
`search_domain_filter`	String	Não	-	Lista branca opcional de domínios para resultados de busca na web.
`search_recency_filter`	enum	Não	`"noLimit"`	Janela opcional de busca na web. · Permitido: `oneDay`, `oneWeek`, `oneMonth`, `oneYear`, `noLimit`

Notas

O uso base do token é gratuito. A busca web embutida é opcional através da tool_web_search e adiciona $0.033 por requisição quando ativada.

Machine esquema legível: GET https://api.empiriolabs.ai/v1/models/glm-4-5-flash.