GLM 4.6V Flash

GLM 4.6V Flash
Z.ai · Text Generation
POST /v1/chat/completions

Modelo multimodal gratuito GLM-4.6V para compreensão de imagens, vídeos, arquivos e texto com chamada nativa de funções.

De um olhar

CampoValor
ID do modeloglm-4-6v-flash
Data de lançamento do modelo2025-12-08
Modalidades de entradaTexto, Imagem, Vídeo, Arquivo
Modalidades de saídaTexto
Janela de contexto128K
Precisão do peso-
Tokens de saída máxima32,768
RegiãoSingapura
Característicasvisão, video_understanding, document_understanding, function_calling, structured_output, web_search
Inferência nativaNão
NovoSim
Endpoints suportadosPOST /v1/chat/completions, POST /v1/responses, POST /v1/messages

Precificação

CargaEspecificaçãoTaxa
Entradapor 1M de tokens de promptGrátis
Produçãopor 1M de tokens geradosGrátis
Leitura implícita do cachepor 1M de tokens de entrada cacheadosGrátis
Busca na Webpor requisição quando ativado$0.033

Exemplo de pedido

$curl https://api.empiriolabs.ai/v1/chat/completions \
> -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
> -H 'Content-Type: application/json' \
> -d '{"model": "glm-4-6v-flash", "messages": [{"role":"user","content":"Hello"}]}'

Parâmetros

ParâmetroTipoObrigatórioPadrãoDescrição
temperatureNúmeroNão1Temperatura de amostragem. Valores mais baixos são mais determinísticos. GLM-4.7-Flash e GLM-4.6V-Flash como padrão para 1.0; GLM-4.5-Flash tem como padrão 0.6. · Intervalo: 0 – 1
top_pNúmeroNão0.95Amostragem do núcleo com a probabilidade de massa. Z.AI documenta um padrão de 0,95 para as séries GLM-4.7, GLM-4.6 e GLM-4.5. · Alcance: 0,01 – 1
max_tokensNúmeroNão4096Tokens máximos de saída para GLM-4.6V-Flash: 32768. · Intervalo: 1 – 32768
stopArranjoNão-Lista de palavras de parada. Z.AI atualmente suporta uma cadeia de um stop em formato de array.
do_sampleBooleanoNãoVerdadeAtive a amostragem. Quando falso, temperatura e top_p não afetam a geração.
enable_thinkingBooleanoNãoVerdadeControles Z.AI modo pensamento. Ativado é o padrão; O GLM-4.6V-Flash decide automaticamente se deve pensar quando ativado.
thinkingObjetoNão-Objeto de pensamento avançado. Use {“type”:“enabled”} ou {“type”:“disabled”}. O GLM-4.6V-Flash decide automaticamente se deve pensar quando ativado.
response_formatObjetoNão-Defina {“type”:“json_object”} para modo JSON ou {“type”:“text”} para texto simples.
toolsArranjoNão-Ferramentas funcionais e a ferramenta web_search embutida são suportadas.
tool_choiceenumNão"auto"Determina se o modelo pode usar ferramentas. Z.AI documentos de seleção automática de ferramentas; Omita ferramentas para desabilitar o uso de ferramentas. · Permitido: auto
tool_streamBooleanoNãofalsoA ferramenta de chamada de função do fluxo é saída quando o fluxo é verdadeiro. Z.AI documentos tool_stream para o GLM-4.6 e modelos mais recentes.
tool_web_searchBooleanoNãofalsoAtive a busca web embutida. Adiciona $0.033 por requisição quando ativado.
search_resultBooleanoNãoVerdadeRetorne metadados estruturados dos resultados da busca web quando a busca na web estiver habilitada.
search_promptStringNão-Instrução opcional para resumir resultados de busca web recuperados.
countNúmeroNão10Número de resultados de busca na web para recuperar. · Intervalo: 1 – 50
search_domain_filterStringNão-Lista branca opcional de domínios para resultados de busca na web.
search_recency_filterenumNão"noLimit"Janela opcional de busca na web. · Permitido: oneDay, oneWeek, oneMonth, oneYear, noLimit

Notas

O uso base do token é gratuito. A busca web embutida é opcional através da tool_web_search e adiciona $0.033 por requisição quando ativada.


Machine esquema legível: GET https://api.empiriolabs.ai/v1/models/glm-4-6v-flash.