Qwen3.5 35B-A3B

POST /v1/chat/completions

Qwen3.5 35B-A3B est un modèle natif-vision-langue efficace avec un routage MoE clairsemé, une réflexion approfondie, ainsi qu’une entrée texte, image et vidéo.

En un coup d’œil

Terrain	Valeur
Identifiant de modèle	`qwen3-5-35b-a3b`
Date de sortie du modèle	2026-02-24
Modalités d’entrée	Texte, Image, Vidéo
Modalités de sortie	Texte
Fenêtre de contexte	256K
Précision du poids	-
Jetons de sortie max	64,000
Région	Chine
Caractéristiques	raisonnement, vision, web_search, function_calling, structured_output, multimodal
Inférence autochtone	Non
Nouveau	Oui
Points de terminaison pris en charge	`POST /v1/chat/completions`, `POST /v1/responses`, `POST /v1/messages`

Tarification

Charge	Spec	Taux
Entrée	par 1M de jetons d’invite	<=128K $0.057 (était $0.25); 128K-256K $0.229 (était $0.25)
Production	par 1M de jetons générés	<=128K $0.459 (était $2.00); 128K-256K $1.835 (était $2.00)
Recherche web	par requête lorsqu’activé	$0.01

Exemple de demande

$ curl https://api.empiriolabs.ai/v1/chat/completions \
>   -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
>   -H 'Content-Type: application/json' \
>   -d '{"model": "qwen3-5-35b-a3b", "messages": [{"role":"user","content":"Hello"}]}'

Paramètres

Paramètre	Type	Obligatoire	Par défaut	Description
`temperature`	Nombre	non	`0.7`	Température d’échantillonnage. 0 est déterministe et 2 est l’aléatoire maximal. · Plage: 0 – 2
`top_p`	Nombre	non	`0.9`	Probabilité d’échantillonnage du noyau, masse. Des valeurs plus basses rendent les sorties plus ciblées. · Répartition: 0 – 1
`max_tokens`	Nombre	non	`4096`	Jetons de sortie maximum. · Répartition: 1 – 64000
`stop`	Corde	non	-	Jusqu’à 4 chaînes où le modèle cesse de générer d’autres jetons.
`enable_thinking`	Booléen	non	Vrai	Activez le raisonnement avant de répondre.
`reasoning_effort`	enum	non	`"medium"`	Niveau d’effort de raisonnement. Aucun ne décourage la pensée. budgets de pensée limités faible, moyen, élevé et maximal adaptés au modèle sélectionné. Envoyé sous forme de champ reasoning_effort de type OpenAI, traduit en enable_thinking et thinking_budget pour le service modèle. · Autorisé: `none`, `low`, `medium`, `high`, `max`
`thinking_budget`	Nombre	non	`32768`	Le maximum de jetons est réservé pour le raisonnement lorsque la pensée est activée. · Portée: 1 – 80 000
`vl_high_resolution_images`	Booléen	non	Vrai	Utilisez un traitement à haute résolution pour les entrées d’images.
`max_pixels`	Nombre	non	`2621440`	Nombre maximal de pixels par image lorsque le traitement haute résolution est désactivé. · Répartition: 4096 – 16777216
`video_fps`	Nombre	non	`2`	Images par seconde pour échantillonner depuis les entrées vidéo. · Plage: 0,1 – 10
`tool_web_search`	Booléen	non	faux	Cherchez sur internet des informations en temps réel. Ajoute $0.01 au coût de la requête lorsqu’il est activé.

Notes

Prend en charge l’entrée texte, image et vidéo. La recherche web est disponible via tool_web_search et ajoute $0.01 par requête lorsqu’elle est activée. Les jetons pensants sont présentés comme des jetons de sortie.

_Machine schéma lisible: _ GET https://api.empiriolabs.ai/v1/models/qwen3-5-35b-a3b.