GLM 4.5 Flash

Z.ai · Text Generation
POST /v1/chat/completionsModelo de texto GLM-4.5 leve e gratuito para raciocínio, programação, chat longo e tarefas gerais de linguagem.
De um olhar
| Campo | Valor |
|---|---|
| ID do modelo | glm-4-5-flash |
| Data de lançamento do modelo | 2025-07-28 |
| Modalidades de entrada | Texto |
| Modalidades de saída | Texto |
| Janela de contexto | 200K |
| Precisão do peso | - |
| Tokens de saída máxima | 98,304 |
| Região | Singapura |
| Características | Raciocínio, function_calling, structured_output, web_search |
| Inferência nativa | Não |
| Novo | Sim |
| Endpoints suportados | POST /v1/chat/completions, POST /v1/responses, POST /v1/messages |
Precificação
| Carga | Especificação | Taxa |
|---|---|---|
| Entrada | por 1M de tokens de prompt | Grátis |
| Produção | por 1M de tokens gerados | Grátis |
| Leitura implícita do cache | por 1M de tokens de entrada cacheados | Grátis |
| Busca na Web | por requisição quando ativado | $0.033 |
Exemplo de pedido
$ curl https://api.empiriolabs.ai/v1/chat/completions \ > -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \ > -H 'Content-Type: application/json' \ > -d '{"model": "glm-4-5-flash", "messages": [{"role":"user","content":"Hello"}]}'
Parâmetros
| Parâmetro | Tipo | Obrigatório | Padrão | Descrição |
|---|---|---|---|---|
temperature | Número | Não | 0.6 | Temperatura de amostragem. Valores mais baixos são mais determinísticos. GLM-4.7-Flash e GLM-4.6V-Flash como padrão para 1.0; GLM-4.5-Flash tem como padrão 0.6. · Intervalo: 0 – 1 |
top_p | Número | Não | 0.95 | Amostragem do núcleo com a probabilidade de massa. Z.AI documenta um padrão de 0,95 para as séries GLM-4.7, GLM-4.6 e GLM-4.5. · Alcance: 0,01 – 1 |
max_tokens | Número | Não | 4096 | Tokens máximos de saída para GLM-4.5-Flash: 98304. · Intervalo: 1 – 98304 |
stop | Arranjo | Não | - | Lista de palavras de parada. Z.AI atualmente suporta uma cadeia de um stop em formato de array. |
do_sample | Booleano | Não | Verdade | Ative a amostragem. Quando falso, temperatura e top_p não afetam a geração. |
enable_thinking | Booleano | Não | Verdade | Controles Z.AI modo pensamento. Ativado é o padrão; O GLM-4.5-Flash decide automaticamente se deve pensar quando ativado. |
thinking | Objeto | Não | - | Objeto de pensamento avançado. Use {“type”:“enabled”} ou {“type”:“disabled”}. O GLM-4.5-Flash decide automaticamente se deve pensar quando ativado. |
response_format | Objeto | Não | - | Defina {“type”:“json_object”} para modo JSON ou {“type”:“text”} para texto simples. |
tools | Arranjo | Não | - | Ferramentas funcionais e a ferramenta web_search embutida são suportadas. |
tool_choice | enum | Não | "auto" | Determina se o modelo pode usar ferramentas. Z.AI documentos de seleção automática de ferramentas; Omita ferramentas para desabilitar o uso de ferramentas. · Permitido: auto |
tool_web_search | Booleano | Não | falso | Ative a busca web embutida. Adiciona $0.033 por requisição quando ativado. |
search_result | Booleano | Não | Verdade | Retorne metadados estruturados dos resultados da busca web quando a busca na web estiver habilitada. |
search_prompt | String | Não | - | Instrução opcional para resumir resultados de busca web recuperados. |
count | Número | Não | 10 | Número de resultados de busca na web para recuperar. · Intervalo: 1 – 50 |
search_domain_filter | String | Não | - | Lista branca opcional de domínios para resultados de busca na web. |
search_recency_filter | enum | Não | "noLimit" | Janela opcional de busca na web. · Permitido: oneDay, oneWeek, oneMonth, oneYear, noLimit |
Notas
O uso base do token é gratuito. A busca web embutida é opcional através da tool_web_search e adiciona $0.033 por requisição quando ativada.
Machine esquema legível: GET https://api.empiriolabs.ai/v1/models/glm-4-5-flash.
