Qwen3.5 4B

Qwen3.5 4B
Alibaba Cloud · Text Generation
POST /v1/chat/completions

Qwen3.5 4B é um modelo multimodal de raciocínio de baixo custo com 256K de contexto, entrada de imagem e vídeo, ferramentas funcionais e saída estruturada.

De um olhar

CampoValor
ID do modeloqwen3-5-4b
Data de lançamento do modelo2026-03-02
Modalidades de entradaTexto, Imagem, Vídeo
Modalidades de saídaTexto
Janela de contexto256K
Precisão do pesoPesos FP8 + FP8 KV
Tokens de saída máxima32,768
CaracterísticasRaciocínio, visão, vídeo, function_calling, structured_output, cache, multimodal, json_mode, logprobs
Inferência nativaSim
NovoSim
Endpoints suportadosPOST /v1/chat/completions, POST /v1/responses, POST /v1/messages, POST /v1/completions

Precificação

CargaEspecificaçãoTaxa
Entradapor 1M de tokens de prompt$0.04
Produçãopor 1M de tokens gerados$0.07
Leitura implícita do cachepor 1M de tokens de entrada cacheados$0.02
Busca na Web (Linkup)por chamada quando invocada$0.013

Exemplo de pedido

$curl https://api.empiriolabs.ai/v1/chat/completions \
> -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
> -H 'Content-Type: application/json' \
> -d '{"model": "qwen3-5-4b", "messages": [{"role":"user","content":"Hello"}]}'

Parâmetros

ParâmetroTipoObrigatórioPadrãoDescrição
temperatureNúmeroNão0.7Temperatura de amostragem. 0 é determinístico e 2 é a aleatoriedade máxima. · Intervalo: 0 – 2
top_pNúmeroNão0.95Amostragem do núcleo com a probabilidade de massa. Valores mais baixos tornam as saídas mais focadas. · Intervalo: 0 – 1
max_tokensinteiroNão4096Tokens de saída máximos. · Intervalo: 1 – 32768
stopStringNão-Até 4 strings em que o modelo para de gerar mais tokens.
reasoning_effortenumNão"medium"Esforço de raciocínio. nenhum impede o pensamento; Orçamentos limitados de cenários baixos, médios, altos e máximos. · Permitido: none, low, medium, high, max
enable_thinkingBooleanoNãoVerdadeAtive o canal de raciocínio do modelo antes da saída final.
thinking_budgetinteiroNão4096Máximo de tokens de pensamento antes da resposta final. Se max_tokens for menor, o serviço reserva espaço para a resposta. · Intervalo: 1024 – 32768
top_kinteiroNão20Limite a amostragem aos principais K tokens candidatos quando suportados. · Alcance: 1 – 200
min_pNúmeroNão0Limiar mínimo de probabilidade para amostragem de tokens. · Intervalo: 0 – 1
presence_penaltyNúmeroNão0Penalidade para tokens que já apareceram no texto gerado. · Alcance: -2 – 2
frequency_penaltyNúmeroNão0Penalidade baseada na frequência com que um token já apareceu. · Alcance: -2 – 2
repetition_penaltyNúmeroNão1Penalidade usada pelo SGLang para reduzir o texto repetido. · Intervalo: 0,1 – 2
seedinteiroNão-Semente aleatória opcional para amostragem reproduzível. · Intervalo: 0 – 2147483647
logprobsBooleanoNãofalsoDevolva as probabilidades de logarista dos tokens quando suportado.
top_logprobsinteiroNão-Volte até esse número de probabilidades principais de logs de tokens. · Intervalo: 0 – 20
logit_biasObjetoNão-IDs de tokens de viés adicionando valores positivos ou negativos antes da amostragem.
toolsArranjoNão-Definições de ferramentas funcionais compatíveis com OpenAI.
tool_choiceObjetoNão-Seleção de ferramentas funcionais compatíveis com OpenAI.
response_formatObjetoNão-Instruções de saída JSON estruturadas.
streamBooleanoNãofalsoDeltas de resposta do fluxo usando eventos enviados pelo servidor.
web_search_linkupBooleanoNãofalsoBusca opcional na web alimentada pelo Linkup. Quando ativadas, fontes web recentes são recuperadas usando sua última mensagem de usuário como consulta e fornecidas ao modelo como contexto adicional. Adiciona uma $0.013 fixa por requisição além do custo normal do token do modelo. Desativado por padrão.
disable_formattingBooleanoNãofalsoQuando ativado, o gateway não adiciona o rodapé “Fontes” às respostas assistentes que usaram busca web do Linkup. Útil quando a saída do modelo é canalizada para outro sistema que não espera decoração.

Notas

Suporta entrada de texto, imagem e vídeo, streaming, ferramentas de função, saída JSON estruturada, controle seed e modo de pensamento ativado por padrão. Use reasoning_effort ou thinking_budget para pensamento limitado, ou enable_thinking=falso para respostas diretas. Leituras automáticas de cache são cobradas na taxa de entrada em cache quando reportadas pelo serviço modelo. Controles de cache explícitos não são suportados.


Machine esquema legível: GET https://api.empiriolabs.ai/v1/models/qwen3-5-4b.