Qwen3.6 Flash

Alibaba Cloud · Text Generation
POST /v1/chat/completionsModèle vision-langage Fast Qwen3.6 pour le codage agentique, le raisonnement mathématique, la compréhension spatiale, la reconnaissance optique de personnage, ainsi que l’entrée de texte, d’image et de vidéo.
En un coup d’œil
| Terrain | Valeur |
|---|---|
| Identifiant de modèle | qwen3-6-flash |
| Date de sortie du modèle | 2026-04-16 |
| Modalités d’entrée | Texte, Image, Vidéo |
| Modalités de sortie | Texte |
| Fenêtre de contexte | 1M |
| Précision du poids | - |
| Jetons de sortie max | 65,536 |
| Région | Singapour |
| Caractéristiques | raisonnement, vision, vidéo, web_search, function_calling, structured_output, agentic_coding |
| Inférence autochtone | Non |
| Nouveau | Oui |
| Points de terminaison pris en charge | POST /v1/chat/completions, POST /v1/responses, POST /v1/messages |
Tarification
| Charge | Spec | Taux |
|---|---|---|
| Entrée | par 1M de jetons d’invite | <=256K $0.25; 256K-1M $1.00 |
| Production | par 1M de jetons générés | <=256K $1.50; 256K-1M $4.00 |
| Recherche web | par requête lorsqu’activée | $0.02 |
Exemple de demande
$ curl https://api.empiriolabs.ai/v1/chat/completions \ > -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \ > -H 'Content-Type: application/json' \ > -d '{"model": "qwen3-6-flash", "messages": [{"role":"user","content":"Hello"}]}'
Paramètres
| Paramètre | Type | Obligatoire | Par défaut | Description |
|---|---|---|---|---|
temperature | Nombre | non | 0.7 | Température d’échantillonnage. 0 est déterministe et 2 est l’aléatoire maximal. · Plage: 0 – 2 |
top_p | Nombre | non | 0.9 | Probabilité d’échantillonnage du noyau, masse. Des valeurs plus basses rendent les sorties plus ciblées. · Répartition: 0 – 1 |
max_tokens | Nombre | non | 4096 | Jetons de sortie maximum. · Répartition: 1 – 65536 |
stop | Corde | non | - | Jusqu’à 4 chaînes où le modèle cesse de générer d’autres jetons. |
enable_thinking | Booléen | non | Vrai | Activez le raisonnement avant de répondre. |
reasoning_effort | enum | non | "medium" | Niveau d’effort de raisonnement. Aucun ne décourage la pensée. budgets de pensée limités faible, moyen, élevé et maximal adaptés au modèle sélectionné. Envoyé sous forme de champ reasoning_effort de type OpenAI, traduit en enable_thinking et thinking_budget pour le service modèle. · Autorisé: none, low, medium, high, max |
thinking_budget | Nombre | non | 32768 | Le maximum de jetons est réservé pour le raisonnement lorsque la pensée est activée. · Répartition: 1 – 64000 |
response_format | Objet | non | - | Mode JSON compatible OpenAI ou format de réponse de schéma JSON. Utilisez le mode non-pensant pour les schémas stricts. |
vl_high_resolution_images | Booléen | non | Vrai | Utilisez un traitement à haute résolution pour les entrées d’images. |
max_pixels | Nombre | non | 2621440 | Nombre maximal de pixels par image lorsque le traitement haute résolution est désactivé. · Répartition: 4096 – 16777216 |
video_fps | Nombre | non | 2 | Images par seconde pour échantillonner depuis les entrées vidéo. · Plage: 0,1 – 10 |
tool_web_search | Booléen | non | faux | Cherchez sur internet des informations en temps réel. Ajoute $0.02 au coût de la requête lorsqu’il est activé. |
Notes
Prend en charge l’entrée texte, image et vidéo. La recherche web est disponible via tool_web_search et ajoute $0.02 par requête lorsqu’elle est activée. Les jetons pensants sont présentés comme des jetons de sortie. Les contrôles de cache explicites ne sont pas pris en charge.
Variantes
:variant1
| Terrain | Valeur |
|---|---|
| Identifiant de modèle | qwen3-6-flash:variant1 |
| Date de sortie du modèle | 2026-04-16 |
| Région | Chine |
| Fenêtre de contexte | 1M |
| Précision du poids | - |
| Jetons de sortie max | 65,536 |
| Caractéristiques | raisonnement, vision, vidéo, web_search, function_calling, structured_output, agentic_coding |
| Inférence autochtone | Non |
| Points de terminaison pris en charge | POST /v1/chat/completions, POST /v1/responses, POST /v1/messages |
Prix
| Charge | Spec | Taux |
|---|---|---|
| Entrée | par 1M de jetons d’invite | <=256K $0.165 (était $0.25); 256K-1M $0.66 (était $1.00) |
| Production | par 1M de jetons générés | <=256K $0.99 (était $1.50); 256K-1M $3.961 (était $4.00) |
| Recherche web | par requête lorsqu’activée | $0.01 |
Paramètres
| Paramètre | Type | Obligatoire | Par défaut | Description |
|---|---|---|---|---|
temperature | Nombre | non | 0.7 | Température d’échantillonnage. 0 est déterministe et 2 est l’aléatoire maximal. · Plage: 0 – 2 |
top_p | Nombre | non | 0.9 | Probabilité d’échantillonnage du noyau, masse. Des valeurs plus basses rendent les sorties plus ciblées. · Répartition: 0 – 1 |
max_tokens | Nombre | non | 4096 | Jetons de sortie maximum. · Répartition: 1 – 65536 |
stop | Corde | non | - | Jusqu’à 4 chaînes où le modèle cesse de générer d’autres jetons. |
enable_thinking | Booléen | non | Vrai | Activez le raisonnement avant de répondre. |
reasoning_effort | enum | non | "medium" | Niveau d’effort de raisonnement. Aucun ne décourage la pensée. budgets de pensée limités faible, moyen, élevé et maximal adaptés au modèle sélectionné. Envoyé sous forme de champ reasoning_effort de type OpenAI, traduit en enable_thinking et thinking_budget pour le service modèle. · Autorisé: none, low, medium, high, max |
thinking_budget | Nombre | non | 32768 | Le maximum de jetons est réservé pour le raisonnement lorsque la pensée est activée. · Répartition: 1 – 128000 |
response_format | Objet | non | - | Mode JSON compatible OpenAI ou format de réponse de schéma JSON. Utilisez le mode non-pensant pour les schémas stricts. |
vl_high_resolution_images | Booléen | non | Vrai | Utilisez un traitement à haute résolution pour les entrées d’images. |
max_pixels | Nombre | non | 2621440 | Nombre maximal de pixels par image lorsque le traitement haute résolution est désactivé. · Répartition: 4096 – 16777216 |
video_fps | Nombre | non | 2 | Images par seconde pour échantillonner depuis les entrées vidéo. · Plage: 0,1 – 10 |
tool_web_search | Booléen | non | faux | Cherchez sur internet des informations en temps réel. Ajoute $0.01 au coût de la requête lorsqu’il est activé. |
_Machine schéma lisible: _ GET https://api.empiriolabs.ai/v1/models/qwen3-6-flash.
