Qwen3.5 4B

Qwen3.5 4B
Alibaba Cloud · Text Generation
POST /v1/chat/completions

Qwen3.5 4B es un modelo de razonamiento multimodal de bajo coste con 256K de contexto, entrada de imagen y vídeo, herramientas funcionales y salida estructurada.

A simple vista

CampoValor
ID de modeloqwen3-5-4b
Fecha de lanzamiento del modelo2026-03-02
Modalidades de entradaTexto, Imagen, Vídeo
Modalidades de salidaTexto
Ventana de contexto256K
Precisión del pesoPesos FP8 + FP8 KV
Tokens de salida máximo32,768
Característicasrazonamiento, visión, vídeo, function_calling, structured_output, caché, multimodal, json_mode, logprobs
Inferencia nativa
Nuevo
Puntos finales soportadosPOST /v1/chat/completions, POST /v1/responses, POST /v1/messages, POST /v1/completions

Precios

CargaEspecificacionesTarifa
Entradapor 1M de fichas de prompt$0.04
Producciónpor cada 1M de tokens generados$0.07
Lectura implícita de cachépor cada 1M de tokens de entrada en caché$0.02
Búsqueda web (Linkup)por llamada cuando se invoca$0.013

Solicitud de ejemplo

$curl https://api.empiriolabs.ai/v1/chat/completions \
> -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
> -H 'Content-Type: application/json' \
> -d '{"model": "qwen3-5-4b", "messages": [{"role":"user","content":"Hello"}]}'

Parámetros

ParámetroTipoObligatorioDefaultDescripción
temperatureNúmerono0.7Temperatura de muestreo. 0 es determinista y 2 es la aleatoriedad máxima. · Rango: 0 – 2
top_pNúmerono0.95Masa de probabilidad de muestreo del núcleo. Valores bajos hacen que las salidas sean más enfocadas. · Rango: 0 – 1
max_tokensenterosno4096Tokens de salida máximos. · Rango: 1 – 32768
stopCuerdano-Hasta 4 cadenas donde el modelo dejará de generar más tokens.
reasoning_effortenumno"medium"Esfuerzo de razonamiento. ninguno impide el pensamiento; Presupuestos limitados por sets bajos, medios, altos y máximos. · Permitidos: none, low, medium, high, max
enable_thinkingBooleanonoCiertoActiva el canal de razonamiento del modelo antes de la salida final.
thinking_budgetenterosno4096Máximo de fichas de pensamiento antes de la respuesta final. Si max_tokens es menor, el servicio reserva espacio para la respuesta. · Rango: 1024 – 32768
top_kenterosno20Limita el muestreo a los K principales tokens candidatos cuando estén soportados. · Rango: 1 – 200
min_pNúmerono0Umbral mínimo de probabilidad para el muestreo de tokens. · Rango: 0 – 1
presence_penaltyNúmerono0Penalización por tokens que ya aparecieron en el texto generado. · Rango: -2 – 2
frequency_penaltyNúmerono0Penalización basada en la frecuencia con la que ya ha aparecido un token. · Rango: -2 – 2
repetition_penaltyNúmerono1Penalización utilizada por SGLang para reducir el texto repetido. · Rango: 0,1 – 2
seedenterosno-Semilla aleatoria opcional para muestreo reproducible. · Rango: 0 – 2147483647
logprobsBooleanonofalsoDevuelve las probabilidades de registro de tokens cuando estén soportadas.
top_logprobsenterosno-Vuelve a estas probabilidades de registro de tokens superiores. · Rango: 0 – 20
logit_biasObjetono-El token de sesgo identifica añadiendo valores positivos o negativos antes del muestreo.
toolsMatrizno-Definiciones de herramientas funcionales compatibles con OpenAI.
tool_choiceObjetono-Selección de herramientas funcionales compatibles con OpenAI.
response_formatObjetono-Instrucciones estructuradas de salida JSON.
streamBooleanonofalsoDeltas de respuesta al flujo usando eventos enviados por el servidor.
web_search_linkupBooleanonofalsoBúsqueda web opcional impulsada por Linkup. Cuando están habilitadas, las fuentes web recientes se recuperan usando tu último mensaje de usuario como consulta y se proporcionan al modelo como contexto adicional. Añade una $0.013 fija por petición además del coste normal del token del modelo. Desactivado por defecto.
disable_formattingBooleanonofalsoCuando está habilitada, la pasarela no añadirá el pie de página “Fuentes” a las respuestas de los asistentes que utilizaron la búsqueda web de Linkup. Útil cuando la salida del modelo se transmite a otro sistema que no espera decoración.

Notas

Soporta entrada de texto, imagen y vídeo, streaming, herramientas funcionales, salida JSON estructurada, control semilla y modo de pensamiento activado por defecto. Usa reasoning_effort o thinking_budget para el pensamiento acotado, o enable_thinking=falso para respuestas directas. Las lecturas automáticas de caché se facturan a la tasa de entrada en caché cuando se reportan por el servicio modelo. No se admiten controles explícitos de caché.


Machine-legible esquema: GET https://api.empiriolabs.ai/v1/models/qwen3-5-4b.