Qwen3.5 4B | EmpirioLabs AI Docs

POST /v1/chat/completions

Qwen3.5 4B es un modelo de razonamiento multimodal de bajo coste con 256K de contexto, entrada de imagen y vídeo, herramientas funcionales y salida estructurada.

A simple vista

Campo	Valor
ID de modelo	`qwen3-5-4b`
Fecha de lanzamiento del modelo	2026-03-02
Modalidades de entrada	Texto, Imagen, Vídeo
Modalidades de salida	Texto
Ventana de contexto	256K
Precisión del peso	Pesos FP8 + FP8 KV
Tokens de salida máximo	32,768
Características	razonamiento, visión, vídeo, function_calling, structured_output, caché, multimodal, json_mode, logprobs
Inferencia nativa	Sí
Nuevo	Sí
Puntos finales soportados	`POST /v1/chat/completions`, `POST /v1/responses`, `POST /v1/messages`, `POST /v1/completions`

Precios

Carga	Especificaciones	Tarifa
Entrada	por 1M de fichas de prompt	$0.04
Producción	por cada 1M de tokens generados	$0.07
Lectura implícita de caché	por cada 1M de tokens de entrada en caché	$0.02
Búsqueda web (Linkup)	por llamada cuando se invoca	$0.013

Solicitud de ejemplo

$ curl https://api.empiriolabs.ai/v1/chat/completions \
>   -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
>   -H 'Content-Type: application/json' \
>   -d '{"model": "qwen3-5-4b", "messages": [{"role":"user","content":"Hello"}]}'

Parámetros

Parámetro	Tipo	Obligatorio	Default	Descripción
`temperature`	Número	no	`0.7`	Temperatura de muestreo. 0 es determinista y 2 es la aleatoriedad máxima. · Rango: 0 – 2
`top_p`	Número	no	`0.95`	Masa de probabilidad de muestreo del núcleo. Valores bajos hacen que las salidas sean más enfocadas. · Rango: 0 – 1
`max_tokens`	enteros	no	`4096`	Tokens de salida máximos. · Rango: 1 – 32768
`stop`	Cuerda	no	-	Hasta 4 cadenas donde el modelo dejará de generar más tokens.
`reasoning_effort`	enum	no	`"medium"`	Esfuerzo de razonamiento. ninguno impide el pensamiento; Presupuestos limitados por sets bajos, medios, altos y máximos. · Permitidos: `none`, `low`, `medium`, `high`, `max`
`enable_thinking`	Booleano	no	Cierto	Activa el canal de razonamiento del modelo antes de la salida final.
`thinking_budget`	enteros	no	`4096`	Máximo de fichas de pensamiento antes de la respuesta final. Si max_tokens es menor, el servicio reserva espacio para la respuesta. · Rango: 1024 – 32768
`top_k`	enteros	no	`20`	Limita el muestreo a los K principales tokens candidatos cuando estén soportados. · Rango: 1 – 200
`min_p`	Número	no	`0`	Umbral mínimo de probabilidad para el muestreo de tokens. · Rango: 0 – 1
`presence_penalty`	Número	no	`0`	Penalización por tokens que ya aparecieron en el texto generado. · Rango: -2 – 2
`frequency_penalty`	Número	no	`0`	Penalización basada en la frecuencia con la que ya ha aparecido un token. · Rango: -2 – 2
`repetition_penalty`	Número	no	`1`	Penalización utilizada por SGLang para reducir el texto repetido. · Rango: 0,1 – 2
`seed`	enteros	no	-	Semilla aleatoria opcional para muestreo reproducible. · Rango: 0 – 2147483647
`logprobs`	Booleano	no	falso	Devuelve las probabilidades de registro de tokens cuando estén soportadas.
`top_logprobs`	enteros	no	-	Vuelve a estas probabilidades de registro de tokens superiores. · Rango: 0 – 20
`logit_bias`	Objeto	no	-	El token de sesgo identifica añadiendo valores positivos o negativos antes del muestreo.
`tools`	Matriz	no	-	Definiciones de herramientas funcionales compatibles con OpenAI.
`tool_choice`	Objeto	no	-	Selección de herramientas funcionales compatibles con OpenAI.
`response_format`	Objeto	no	-	Instrucciones estructuradas de salida JSON.
`stream`	Booleano	no	falso	Deltas de respuesta al flujo usando eventos enviados por el servidor.
`web_search_linkup`	Booleano	no	falso	Búsqueda web opcional impulsada por Linkup. Cuando están habilitadas, las fuentes web recientes se recuperan usando tu último mensaje de usuario como consulta y se proporcionan al modelo como contexto adicional. Añade una $0.013 fija por petición además del coste normal del token del modelo. Desactivado por defecto.
`disable_formatting`	Booleano	no	falso	Cuando está habilitada, la pasarela no añadirá el pie de página “Fuentes” a las respuestas de los asistentes que utilizaron la búsqueda web de Linkup. Útil cuando la salida del modelo se transmite a otro sistema que no espera decoración.

Notas

Soporta entrada de texto, imagen y vídeo, streaming, herramientas funcionales, salida JSON estructurada, control semilla y modo de pensamiento activado por defecto. Usa reasoning_effort o thinking_budget para el pensamiento acotado, o enable_thinking=falso para respuestas directas. Las lecturas automáticas de caché se facturan a la tasa de entrada en caché cuando se reportan por el servicio modelo. No se admiten controles explícitos de caché.

Machine-legible esquema: GET https://api.empiriolabs.ai/v1/models/qwen3-5-4b.