Qwen3.5 Flash | EmpirioLabs AI Docs

POST /v1/chat/completions

Modèle vision-langage avec une attention linéaire hybride plus un MoE clairsemé, un contexte 1M, et une inférence rapide multimodale text/image/vidéo.

En un coup d’œil

Terrain	Valeur
Identifiant de modèle	`qwen3-5-flash`
Date de sortie du modèle	2026-02-24
Modalités d’entrée	Texte, Image, Vidéo
Modalités de sortie	Texte
Fenêtre de contexte	1M
Précision du poids	-
Jetons de sortie max	32,768
Région	Singapour
Caractéristiques	vision, web_search, code_interpreter, function_calling
Inférence autochtone	Non
Nouveau	Non
Points de terminaison pris en charge	`POST /v1/chat/completions`, `POST /v1/responses`, `POST /v1/messages`

Tarification

Charge	Spec	Taux
Entrée	par 1M de jetons d’invite	$0.090 (était $0.10)
Production	par 1M de jetons générés	$0.368 (était $0.40)
Recherche Web	par appel	$0.015
Recherche d’images	par appel	$0.012

Exemple de demande

$ curl https://api.empiriolabs.ai/v1/chat/completions \
>   -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
>   -H 'Content-Type: application/json' \
>   -d '{"model": "qwen3-5-flash", "messages": [{"role":"user","content":"Hello"}]}'

Paramètres

Paramètre	Type	Obligatoire	Par défaut	Description
`temperature`	Nombre	non	`0.7`	Température d’échantillonnage. 0 = déterministe, 2 = aléatoire maximal. · Plage: 0 – 2
`top_p`	Nombre	non	`0.9`	Probabilité d’échantillonnage du noyau, masse. Plus bas = plus concentré. · Répartition: 0 – 1
`max_tokens`	Nombre	non	`4096`	Maximum de jetons dans la réponse. · Répartition: 1 – 32768
`enable_thinking`	Booléen	non	Vrai	Activez le mode pensée étendue. Plus lent, mais améliore les tâches qui demandent beaucoup de raisonnement.
`vl_high_resolution_images`	Booléen	non	Vrai	Utilisez une résolution plus élevée pour les images d’entrée. Un meilleur détail à un coût plus élevé.
`max_pixels`	Nombre	non	`2621440`	Nombre maximal de pixels par image d’entrée. Plus grand = plus de détails mais plus lent / plus de jetons. · Répartition: 1 – 99999999
`tool_web_search`	Booléen	non	faux	Cherchez sur internet des informations en temps réel.
`tool_web_extractor`	Booléen	non	Vrai	Extraire et lire le contenu des URL. Nécessite une recherche et une réflexion sur le Web.
`tool_code_interpreter`	Booléen	non	Vrai	Exécutez du code Python dans un bac à sable. Ça demande de la réflexion.
`tool_web_search_image`	Booléen	non	Vrai	Cherchez sur le web des images à partir de descriptions textuelles.
`tool_image_search`	Booléen	non	Vrai	Trouvez des images similaires à partir d’une image téléchargée.
`video_fps`	Nombre	non	`2`	Images par seconde échantillonnées à partir de la vidéo d’entrée pour analyse. · Plage: 0,1 – 10
`treat_images_as_video`	Booléen	non	faux	Considérez une séquence d’images d’entrée comme une vidéo pour le raisonnement temporel.
`disable_formatting`	Booléen	non	faux	Ignorez la mise en forme EmpirioLabs Markdown (citation [N] réécriture + bloc Références lorsque la recherche web / outils ont été utilisés). La réponse brute en amont avec des citations simples [N] est retournée.

Notes

Outils intégrés (facturés uniquement lorsqu’ils sont invoqués)

Recherche web: $0.015/call
Extracteur de toile: gratuit
Interprète de code: libre
Recherche texte-image: $0.012/call
Recherche image à image: $0.012/call

Autres

Les jetons pensants sont présentés comme des jetons de sortie

La recherche texte-to-image et la recherche image-à-image utilisent la ligne tarifaire de la recherche d’image. Chaque recherche d’image invoquée est facturée au tarif indiqué par appel.

Facturation par outil (usage.tool_usage)

Lorsque ce modèle invoque des outils (recherche web, interpréteur de code, etc.) dans une seule requête, la réponse porte une carte de usage.tool_usage normalisée à côté des comptes de tokens. L’exemple ci-dessous montre la forme - les noms exacts des champs, les unités et les outils qui apparaissent peuvent varier légèrement selon le fournisseur:

1 "usage": {
2   "prompt_tokens": 123,
3   "completion_tokens": 456,
4   "cost_usd": 0.0042,
5   "tool_usage": {"web_search": 3, "code_interpreter": 1}
6 }

Le nombre d’outils est déjà pris en compte dans cost_usd - ils sont présentés pour la transparence afin que vous puissiez auditer la facturation par outil. Le champ est omis lorsqu’aucun outil n’a été invoqué.

Variantes

`:variant1`

Terrain	Valeur
Identifiant de modèle	`qwen3-5-flash:variant1`
Date de sortie du modèle	2026-02-24
Région	Chine
Fenêtre de contexte	1M
Précision du poids	-
Jetons de sortie max	65,536
Caractéristiques	raisonnement, vision, vidéo, web_search, function_calling, structured_output, agentic_coding
Inférence autochtone	Non
Points de terminaison pris en charge	`POST /v1/chat/completions`, `POST /v1/responses`, `POST /v1/messages`

Prix

Charge	Spec	Taux
Entrée	par 1M de jetons d’invite	<=128K $0.029 (était $0.090); 128K-256K $0.115; 256K-1M $0.172
Production	par 1M de jetons générés	<=128K $0.287 (était $0.368); 128K-256K $1.147; 256K-1M $1.72
Recherche web	par requête lorsqu’activée	$0.01

Paramètres

Paramètre	Type	Obligatoire	Par défaut	Description
`temperature`	Nombre	non	`0.7`	Température d’échantillonnage. 0 est déterministe et 2 est l’aléatoire maximal. · Plage: 0 – 2
`top_p`	Nombre	non	`0.9`	Probabilité d’échantillonnage du noyau, masse. Des valeurs plus basses rendent les sorties plus ciblées. · Répartition: 0 – 1
`max_tokens`	Nombre	non	`4096`	Jetons de sortie maximum. · Répartition: 1 – 65536
`stop`	Corde	non	-	Jusqu’à 4 chaînes où le modèle cesse de générer d’autres jetons.
`enable_thinking`	Booléen	non	Vrai	Activez le raisonnement avant de répondre.
`reasoning_effort`	enum	non	`"medium"`	Niveau d’effort de raisonnement. Aucun ne décourage la pensée. budgets de pensée limités faible, moyen, élevé et maximal adaptés au modèle sélectionné. Envoyé sous forme de champ reasoning_effort de type OpenAI, traduit en enable_thinking et thinking_budget pour le service modèle. · Autorisé: `none`, `low`, `medium`, `high`, `max`
`thinking_budget`	Nombre	non	`32768`	Le maximum de jetons est réservé pour le raisonnement lorsque la pensée est activée. · Portée: 1 – 80 000
`response_format`	Objet	non	-	Mode JSON compatible OpenAI ou format de réponse de schéma JSON. Utilisez le mode non-pensant pour les schémas stricts.
`vl_high_resolution_images`	Booléen	non	Vrai	Utilisez un traitement à haute résolution pour les entrées d’images.
`max_pixels`	Nombre	non	`2621440`	Nombre maximal de pixels par image lorsque le traitement haute résolution est désactivé. · Répartition: 4096 – 16777216
`video_fps`	Nombre	non	`2`	Images par seconde pour échantillonner depuis les entrées vidéo. · Plage: 0,1 – 10
`tool_web_search`	Booléen	non	faux	Cherchez sur internet des informations en temps réel. Ajoute $0.01 au coût de la requête lorsqu’il est activé.

_Machine schéma lisible: _ GET https://api.empiriolabs.ai/v1/models/qwen3-5-flash.