Qwen3.5 4B | EmpirioLabs AI Docs

POST /v1/chat/completions

Qwen3.5 4B est un modèle de raisonnement multimodal à faible coût avec 256K contexte, entrée image et vidéo, outils fonctionnels et sortie structurée.

En un coup d’œil

Terrain	Valeur
Identifiant de modèle	`qwen3-5-4b`
Date de sortie du modèle	2026-03-02
Modalités d’entrée	Texte, Image, Vidéo
Modalités de sortie	Texte
Fenêtre de contexte	256K
Précision du poids	Poids FP8 + FP8 KV
Jetons de sortie max	32,768
Caractéristiques	raisonnement, vision, vidéo, function_calling, structured_output, cache, multimodal, json_mode, logprobs
Inférence autochtone	Oui
Nouveau	Oui
Points de terminaison pris en charge	`POST /v1/chat/completions`, `POST /v1/responses`, `POST /v1/messages`, `POST /v1/completions`

Tarification

Charge	Spec	Taux
Entrée	par 1M de jetons d’invite	$0.04
Production	par 1M de jetons générés	$0.07
Lecture implicite du cache	par 1M de jetons d’entrée mis en cache	$0.02
Recherche Web (Linkup)	par appel lors de l’invocation	$0.013

Exemple de demande

$ curl https://api.empiriolabs.ai/v1/chat/completions \
>   -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
>   -H 'Content-Type: application/json' \
>   -d '{"model": "qwen3-5-4b", "messages": [{"role":"user","content":"Hello"}]}'

Paramètres

Paramètre	Type	Obligatoire	Par défaut	Description
`temperature`	Nombre	non	`0.7`	Température d’échantillonnage. 0 est déterministe et 2 est l’aléatoire maximal. · Plage: 0 – 2
`top_p`	Nombre	non	`0.95`	Probabilité d’échantillonnage du noyau, masse. Des valeurs plus basses rendent les sorties plus ciblées. · Répartition: 0 – 1
`max_tokens`	entier	non	`4096`	Jetons de sortie maximum. · Répartition: 1 – 32768
`stop`	Corde	non	-	Jusqu’à 4 chaînes où le modèle cesse de générer d’autres jetons.
`reasoning_effort`	enum	non	`"medium"`	Un effort de raisonnement. aucun n’empêche la pensée; Budgets de réflexion limités par les ensembles faible, moyen, élevé et max. · Autorisé: `none`, `low`, `medium`, `high`, `max`
`enable_thinking`	Booléen	non	Vrai	Activez le canal de raisonnement du modèle avant la sortie finale.
`thinking_budget`	entier	non	`4096`	Maximum de jetons de pensée avant la réponse finale. Si max_tokens est plus faible, le service réserve de la place pour la réponse. · Répartition: 1024 – 32768
`top_k`	entier	non	`20`	Limitez l’échantillonnage aux K premiers jetons candidats lorsqu’ils sont pris en charge. · Plage: 1 – 200
`min_p`	Nombre	non	`0`	Seuil minimal de probabilité pour l’échantillonnage des jetons. · Répartition: 0 – 1
`presence_penalty`	Nombre	non	`0`	Pénalité pour les jetons déjà apparus dans le texte généré. · Portée: -2 – 2
`frequency_penalty`	Nombre	non	`0`	Pénalité basée sur la fréquence d’apparition d’un jeton. · Portée: -2 – 2
`repetition_penalty`	Nombre	non	`1`	Pénalité utilisée par SGLang pour réduire la répétition du texte. · Plage: 0,1 – 2
`seed`	entier	non	-	Seed aléatoire optionnelle pour un échantillonnage reproductible. · Plage: 0 – 2147483647
`logprobs`	Booléen	non	faux	Retournez les probabilités de log de jetons lorsqu’elles sont prises en charge.
`top_logprobs`	entier	non	-	Revenez à ce nombre de probabilités de logs de jetons supérieures. · Plage: 0 – 20
`logit_bias`	Objet	non	-	Les identifiants de bias des tokens en ajoutant des valeurs positives ou négatives avant l’échantillonnage.
`tools`	Tableau	non	-	Définitions d’outils de fonctions compatibles OpenAI.
`tool_choice`	Objet	non	-	Sélection d’outils de fonctions compatibles OpenAI.
`response_format`	Objet	non	-	Instructions de sortie JSON structurées.
`stream`	Booléen	non	faux	Les deltas de réponse du flux utilisent des événements envoyés par le serveur.
`web_search_linkup`	Booléen	non	faux	Recherche web optionnelle propulsée par Linkup. Lorsqu’activées, les sources web récentes sont récupérées en utilisant votre dernier message utilisateur comme requête et fournies au modèle comme contexte supplémentaire. Ajoute un $0.013 fixe par requête en plus du coût normal du jeton du modèle. Désactivé par défaut.
`disable_formatting`	Booléen	non	faux	Une fois activée, la passerelle n’ajoutera pas le pied de page « Sources » aux réponses des assistants ayant utilisé la recherche web Linkup. Utile lorsque la sortie du modèle est canalisée vers un autre système qui n’attend aucune décoration.

Notes

Prend en charge par défaut l’entrée de texte, d’images et de vidéos, le streaming, les outils de fonctions, la sortie JSON structurée, le contrôle de la graine et le mode de réflexion activés par défaut. Utilisez reasoning_effort ou thinking_budget pour la pensée bornée, ou enable_thinking=faux pour les réponses directes. Les lectures automatiques du cache sont facturées au taux d’entrée en cache lorsqu’elles sont rapportées par le service modèle. Les contrôles de cache explicites ne sont pas pris en charge.

_Machine schéma lisible: _ GET https://api.empiriolabs.ai/v1/models/qwen3-5-4b.