Qwen3.6 Flash

Qwen3.6 Flash
Alibaba Cloud · Text Generation
POST /v1/chat/completions

Modèle vision-langage Fast Qwen3.6 pour le codage agentique, le raisonnement mathématique, la compréhension spatiale, la reconnaissance optique de personnage, ainsi que l’entrée de texte, d’image et de vidéo.

En un coup d’œil

TerrainValeur
Identifiant de modèleqwen3-6-flash
Date de sortie du modèle2026-04-16
Modalités d’entréeTexte, Image, Vidéo
Modalités de sortieTexte
Fenêtre de contexte1M
Précision du poids-
Jetons de sortie max65,536
RégionSingapour
Caractéristiquesraisonnement, vision, vidéo, web_search, function_calling, structured_output, agentic_coding
Inférence autochtoneNon
NouveauOui
Points de terminaison pris en chargePOST /v1/chat/completions, POST /v1/responses, POST /v1/messages

Tarification

ChargeSpecTaux
Entréepar 1M de jetons d’invite<=256K $0.25; 256K-1M $1.00
Productionpar 1M de jetons générés<=256K $1.50; 256K-1M $4.00
Recherche webpar requête lorsqu’activée$0.02

Exemple de demande

$curl https://api.empiriolabs.ai/v1/chat/completions \
> -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
> -H 'Content-Type: application/json' \
> -d '{"model": "qwen3-6-flash", "messages": [{"role":"user","content":"Hello"}]}'

Paramètres

ParamètreTypeObligatoirePar défautDescription
temperatureNombrenon0.7Température d’échantillonnage. 0 est déterministe et 2 est l’aléatoire maximal. · Plage: 0 – 2
top_pNombrenon0.9Probabilité d’échantillonnage du noyau, masse. Des valeurs plus basses rendent les sorties plus ciblées. · Répartition: 0 – 1
max_tokensNombrenon4096Jetons de sortie maximum. · Répartition: 1 – 65536
stopCordenon-Jusqu’à 4 chaînes où le modèle cesse de générer d’autres jetons.
enable_thinkingBooléennonVraiActivez le raisonnement avant de répondre.
reasoning_effortenumnon"medium"Niveau d’effort de raisonnement. Aucun ne décourage la pensée. budgets de pensée limités faible, moyen, élevé et maximal adaptés au modèle sélectionné. Envoyé sous forme de champ reasoning_effort de type OpenAI, traduit en enable_thinking et thinking_budget pour le service modèle. · Autorisé: none, low, medium, high, max
thinking_budgetNombrenon32768Le maximum de jetons est réservé pour le raisonnement lorsque la pensée est activée. · Répartition: 1 – 64000
response_formatObjetnon-Mode JSON compatible OpenAI ou format de réponse de schéma JSON. Utilisez le mode non-pensant pour les schémas stricts.
vl_high_resolution_imagesBooléennonVraiUtilisez un traitement à haute résolution pour les entrées d’images.
max_pixelsNombrenon2621440Nombre maximal de pixels par image lorsque le traitement haute résolution est désactivé. · Répartition: 4096 – 16777216
video_fpsNombrenon2Images par seconde pour échantillonner depuis les entrées vidéo. · Plage: 0,1 – 10
tool_web_searchBooléennonfauxCherchez sur internet des informations en temps réel. Ajoute $0.02 au coût de la requête lorsqu’il est activé.

Notes

Prend en charge l’entrée texte, image et vidéo. La recherche web est disponible via tool_web_search et ajoute $0.02 par requête lorsqu’elle est activée. Les jetons pensants sont présentés comme des jetons de sortie. Les contrôles de cache explicites ne sont pas pris en charge.

Variantes

:variant1

TerrainValeur
Identifiant de modèleqwen3-6-flash:variant1
Date de sortie du modèle2026-04-16
RégionChine
Fenêtre de contexte1M
Précision du poids-
Jetons de sortie max65,536
Caractéristiquesraisonnement, vision, vidéo, web_search, function_calling, structured_output, agentic_coding
Inférence autochtoneNon
Points de terminaison pris en chargePOST /v1/chat/completions, POST /v1/responses, POST /v1/messages

Prix

ChargeSpecTaux
Entréepar 1M de jetons d’invite<=256K $0.165 (était $0.25); 256K-1M $0.66 (était $1.00)
Productionpar 1M de jetons générés<=256K $0.99 (était $1.50); 256K-1M $3.961 (était $4.00)
Recherche webpar requête lorsqu’activée$0.01

Paramètres

ParamètreTypeObligatoirePar défautDescription
temperatureNombrenon0.7Température d’échantillonnage. 0 est déterministe et 2 est l’aléatoire maximal. · Plage: 0 – 2
top_pNombrenon0.9Probabilité d’échantillonnage du noyau, masse. Des valeurs plus basses rendent les sorties plus ciblées. · Répartition: 0 – 1
max_tokensNombrenon4096Jetons de sortie maximum. · Répartition: 1 – 65536
stopCordenon-Jusqu’à 4 chaînes où le modèle cesse de générer d’autres jetons.
enable_thinkingBooléennonVraiActivez le raisonnement avant de répondre.
reasoning_effortenumnon"medium"Niveau d’effort de raisonnement. Aucun ne décourage la pensée. budgets de pensée limités faible, moyen, élevé et maximal adaptés au modèle sélectionné. Envoyé sous forme de champ reasoning_effort de type OpenAI, traduit en enable_thinking et thinking_budget pour le service modèle. · Autorisé: none, low, medium, high, max
thinking_budgetNombrenon32768Le maximum de jetons est réservé pour le raisonnement lorsque la pensée est activée. · Répartition: 1 – 128000
response_formatObjetnon-Mode JSON compatible OpenAI ou format de réponse de schéma JSON. Utilisez le mode non-pensant pour les schémas stricts.
vl_high_resolution_imagesBooléennonVraiUtilisez un traitement à haute résolution pour les entrées d’images.
max_pixelsNombrenon2621440Nombre maximal de pixels par image lorsque le traitement haute résolution est désactivé. · Répartition: 4096 – 16777216
video_fpsNombrenon2Images par seconde pour échantillonner depuis les entrées vidéo. · Plage: 0,1 – 10
tool_web_searchBooléennonfauxCherchez sur internet des informations en temps réel. Ajoute $0.01 au coût de la requête lorsqu’il est activé.

_Machine schéma lisible: _ GET https://api.empiriolabs.ai/v1/models/qwen3-6-flash.