Qwen3.5 4B | EmpirioLabs AI Docs

POST /v1/chat/completions

Qwen3.5 4B é um modelo multimodal de raciocínio de baixo custo com 256K de contexto, entrada de imagem e vídeo, ferramentas funcionais e saída estruturada.

De um olhar

Campo	Valor
ID do modelo	`qwen3-5-4b`
Data de lançamento do modelo	2026-03-02
Modalidades de entrada	Texto, Imagem, Vídeo
Modalidades de saída	Texto
Janela de contexto	256K
Precisão do peso	Pesos FP8 + FP8 KV
Tokens de saída máxima	32,768
Características	Raciocínio, visão, vídeo, function_calling, structured_output, cache, multimodal, json_mode, logprobs
Inferência nativa	Sim
Novo	Sim
Endpoints suportados	`POST /v1/chat/completions`, `POST /v1/responses`, `POST /v1/messages`, `POST /v1/completions`

Precificação

Carga	Especificação	Taxa
Entrada	por 1M de tokens de prompt	$0.04
Produção	por 1M de tokens gerados	$0.07
Leitura implícita do cache	por 1M de tokens de entrada cacheados	$0.02
Busca na Web (Linkup)	por chamada quando invocada	$0.013

Exemplo de pedido

$ curl https://api.empiriolabs.ai/v1/chat/completions \
>   -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
>   -H 'Content-Type: application/json' \
>   -d '{"model": "qwen3-5-4b", "messages": [{"role":"user","content":"Hello"}]}'

Parâmetros

Parâmetro	Tipo	Obrigatório	Padrão	Descrição
`temperature`	Número	Não	`0.7`	Temperatura de amostragem. 0 é determinístico e 2 é a aleatoriedade máxima. · Intervalo: 0 – 2
`top_p`	Número	Não	`0.95`	Amostragem do núcleo com a probabilidade de massa. Valores mais baixos tornam as saídas mais focadas. · Intervalo: 0 – 1
`max_tokens`	inteiro	Não	`4096`	Tokens de saída máximos. · Intervalo: 1 – 32768
`stop`	String	Não	-	Até 4 strings em que o modelo para de gerar mais tokens.
`reasoning_effort`	enum	Não	`"medium"`	Esforço de raciocínio. nenhum impede o pensamento; Orçamentos limitados de cenários baixos, médios, altos e máximos. · Permitido: `none`, `low`, `medium`, `high`, `max`
`enable_thinking`	Booleano	Não	Verdade	Ative o canal de raciocínio do modelo antes da saída final.
`thinking_budget`	inteiro	Não	`4096`	Máximo de tokens de pensamento antes da resposta final. Se max_tokens for menor, o serviço reserva espaço para a resposta. · Intervalo: 1024 – 32768
`top_k`	inteiro	Não	`20`	Limite a amostragem aos principais K tokens candidatos quando suportados. · Alcance: 1 – 200
`min_p`	Número	Não	`0`	Limiar mínimo de probabilidade para amostragem de tokens. · Intervalo: 0 – 1
`presence_penalty`	Número	Não	`0`	Penalidade para tokens que já apareceram no texto gerado. · Alcance: -2 – 2
`frequency_penalty`	Número	Não	`0`	Penalidade baseada na frequência com que um token já apareceu. · Alcance: -2 – 2
`repetition_penalty`	Número	Não	`1`	Penalidade usada pelo SGLang para reduzir o texto repetido. · Intervalo: 0,1 – 2
`seed`	inteiro	Não	-	Semente aleatória opcional para amostragem reproduzível. · Intervalo: 0 – 2147483647
`logprobs`	Booleano	Não	falso	Devolva as probabilidades de logarista dos tokens quando suportado.
`top_logprobs`	inteiro	Não	-	Volte até esse número de probabilidades principais de logs de tokens. · Intervalo: 0 – 20
`logit_bias`	Objeto	Não	-	IDs de tokens de viés adicionando valores positivos ou negativos antes da amostragem.
`tools`	Arranjo	Não	-	Definições de ferramentas funcionais compatíveis com OpenAI.
`tool_choice`	Objeto	Não	-	Seleção de ferramentas funcionais compatíveis com OpenAI.
`response_format`	Objeto	Não	-	Instruções de saída JSON estruturadas.
`stream`	Booleano	Não	falso	Deltas de resposta do fluxo usando eventos enviados pelo servidor.
`web_search_linkup`	Booleano	Não	falso	Busca opcional na web alimentada pelo Linkup. Quando ativadas, fontes web recentes são recuperadas usando sua última mensagem de usuário como consulta e fornecidas ao modelo como contexto adicional. Adiciona uma $0.013 fixa por requisição além do custo normal do token do modelo. Desativado por padrão.
`disable_formatting`	Booleano	Não	falso	Quando ativado, o gateway não adiciona o rodapé “Fontes” às respostas assistentes que usaram busca web do Linkup. Útil quando a saída do modelo é canalizada para outro sistema que não espera decoração.

Notas

Suporta entrada de texto, imagem e vídeo, streaming, ferramentas de função, saída JSON estruturada, controle seed e modo de pensamento ativado por padrão. Use reasoning_effort ou thinking_budget para pensamento limitado, ou enable_thinking=falso para respostas diretas. Leituras automáticas de cache são cobradas na taxa de entrada em cache quando reportadas pelo serviço modelo. Controles de cache explícitos não são suportados.

Machine esquema legível: GET https://api.empiriolabs.ai/v1/models/qwen3-5-4b.