Qwen3.6 Flash | EmpirioLabs AI Docs

POST /v1/chat/completions

Modèle vision-langage Fast Qwen3.6 pour le codage agentique, le raisonnement mathématique, la compréhension spatiale, la reconnaissance optique de personnage, ainsi que l’entrée de texte, d’image et de vidéo.

En un coup d’œil

Terrain	Valeur
Identifiant de modèle	`qwen3-6-flash`
Date de sortie du modèle	2026-04-16
Modalités d’entrée	Texte, Image, Vidéo
Modalités de sortie	Texte
Fenêtre de contexte	1M
Précision du poids	-
Jetons de sortie max	65,536
Région	Singapour
Caractéristiques	raisonnement, vision, vidéo, web_search, function_calling, structured_output, agentic_coding
Inférence autochtone	Non
Nouveau	Oui
Points de terminaison pris en charge	`POST /v1/chat/completions`, `POST /v1/responses`, `POST /v1/messages`

Tarification

Charge	Spec	Taux
Entrée	par 1M de jetons d’invite	<=256K $0.25; 256K-1M $1.00
Production	par 1M de jetons générés	<=256K $1.50; 256K-1M $4.00
Recherche web	par requête lorsqu’activée	$0.02

Exemple de demande

$ curl https://api.empiriolabs.ai/v1/chat/completions \
>   -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
>   -H 'Content-Type: application/json' \
>   -d '{"model": "qwen3-6-flash", "messages": [{"role":"user","content":"Hello"}]}'

Paramètres

Paramètre	Type	Obligatoire	Par défaut	Description
`temperature`	Nombre	non	`0.7`	Température d’échantillonnage. 0 est déterministe et 2 est l’aléatoire maximal. · Plage: 0 – 2
`top_p`	Nombre	non	`0.9`	Probabilité d’échantillonnage du noyau, masse. Des valeurs plus basses rendent les sorties plus ciblées. · Répartition: 0 – 1
`max_tokens`	Nombre	non	`4096`	Jetons de sortie maximum. · Répartition: 1 – 65536
`stop`	Corde	non	-	Jusqu’à 4 chaînes où le modèle cesse de générer d’autres jetons.
`enable_thinking`	Booléen	non	Vrai	Activez le raisonnement avant de répondre.
`reasoning_effort`	enum	non	`"medium"`	Niveau d’effort de raisonnement. Aucun ne décourage la pensée. budgets de pensée limités faible, moyen, élevé et maximal adaptés au modèle sélectionné. Envoyé sous forme de champ reasoning_effort de type OpenAI, traduit en enable_thinking et thinking_budget pour le service modèle. · Autorisé: `none`, `low`, `medium`, `high`, `max`
`thinking_budget`	Nombre	non	`32768`	Le maximum de jetons est réservé pour le raisonnement lorsque la pensée est activée. · Répartition: 1 – 64000
`response_format`	Objet	non	-	Mode JSON compatible OpenAI ou format de réponse de schéma JSON. Utilisez le mode non-pensant pour les schémas stricts.
`vl_high_resolution_images`	Booléen	non	Vrai	Utilisez un traitement à haute résolution pour les entrées d’images.
`max_pixels`	Nombre	non	`2621440`	Nombre maximal de pixels par image lorsque le traitement haute résolution est désactivé. · Répartition: 4096 – 16777216
`video_fps`	Nombre	non	`2`	Images par seconde pour échantillonner depuis les entrées vidéo. · Plage: 0,1 – 10
`tool_web_search`	Booléen	non	faux	Cherchez sur internet des informations en temps réel. Ajoute $0.02 au coût de la requête lorsqu’il est activé.

Notes

Prend en charge l’entrée texte, image et vidéo. La recherche web est disponible via tool_web_search et ajoute $0.02 par requête lorsqu’elle est activée. Les jetons pensants sont présentés comme des jetons de sortie. Les contrôles de cache explicites ne sont pas pris en charge.

Variantes

`:variant1`

Terrain	Valeur
Identifiant de modèle	`qwen3-6-flash:variant1`
Date de sortie du modèle	2026-04-16
Région	Chine
Fenêtre de contexte	1M
Précision du poids	-
Jetons de sortie max	65,536
Caractéristiques	raisonnement, vision, vidéo, web_search, function_calling, structured_output, agentic_coding
Inférence autochtone	Non
Points de terminaison pris en charge	`POST /v1/chat/completions`, `POST /v1/responses`, `POST /v1/messages`

Prix

Charge	Spec	Taux
Entrée	par 1M de jetons d’invite	<=256K $0.165 (était $0.25); 256K-1M $0.66 (était $1.00)
Production	par 1M de jetons générés	<=256K $0.99 (était $1.50); 256K-1M $3.961 (était $4.00)
Recherche web	par requête lorsqu’activée	$0.01

Paramètres

Paramètre	Type	Obligatoire	Par défaut	Description
`temperature`	Nombre	non	`0.7`	Température d’échantillonnage. 0 est déterministe et 2 est l’aléatoire maximal. · Plage: 0 – 2
`top_p`	Nombre	non	`0.9`	Probabilité d’échantillonnage du noyau, masse. Des valeurs plus basses rendent les sorties plus ciblées. · Répartition: 0 – 1
`max_tokens`	Nombre	non	`4096`	Jetons de sortie maximum. · Répartition: 1 – 65536
`stop`	Corde	non	-	Jusqu’à 4 chaînes où le modèle cesse de générer d’autres jetons.
`enable_thinking`	Booléen	non	Vrai	Activez le raisonnement avant de répondre.
`reasoning_effort`	enum	non	`"medium"`	Niveau d’effort de raisonnement. Aucun ne décourage la pensée. budgets de pensée limités faible, moyen, élevé et maximal adaptés au modèle sélectionné. Envoyé sous forme de champ reasoning_effort de type OpenAI, traduit en enable_thinking et thinking_budget pour le service modèle. · Autorisé: `none`, `low`, `medium`, `high`, `max`
`thinking_budget`	Nombre	non	`32768`	Le maximum de jetons est réservé pour le raisonnement lorsque la pensée est activée. · Répartition: 1 – 128000
`response_format`	Objet	non	-	Mode JSON compatible OpenAI ou format de réponse de schéma JSON. Utilisez le mode non-pensant pour les schémas stricts.
`vl_high_resolution_images`	Booléen	non	Vrai	Utilisez un traitement à haute résolution pour les entrées d’images.
`max_pixels`	Nombre	non	`2621440`	Nombre maximal de pixels par image lorsque le traitement haute résolution est désactivé. · Répartition: 4096 – 16777216
`video_fps`	Nombre	non	`2`	Images par seconde pour échantillonner depuis les entrées vidéo. · Plage: 0,1 – 10
`tool_web_search`	Booléen	non	faux	Cherchez sur internet des informations en temps réel. Ajoute $0.01 au coût de la requête lorsqu’il est activé.

_Machine schéma lisible: _ GET https://api.empiriolabs.ai/v1/models/qwen3-6-flash.