Qwen3 Max Thinking

Qwen3 Max Thinking
Alibaba Cloud · Text Generation
POST /v1/chat/completions

Modèle de raisonnement utilisant l’utilisation d’outils adaptatifs (recherche, mémoire, interpréteur de code) et l’échelle en temps de test pour une plus grande précision sur des tâches complexes.

This model is deprecated and will be retired on 2026-07-08. After that date, requests to this model will fail. Migrate to a successor model before then.

En un coup d’œil

TerrainValeur
Identifiant de modèleqwen3-max-thinking
Date de sortie du modèle2025-09-23
Modalités d’entréeTexte
Modalités de sortieTexte
Fenêtre de contexte256K
Précision du poids-
Jetons de sortie max65,536
RégionSingapour
Caractéristiquesraisonnement, code_interpreter, web_search, réflexion
Inférence autochtoneNon
NouveauNon
Points de terminaison pris en chargePOST /v1/chat/completions, POST /v1/responses, POST /v1/messages
Date de dépréciation2026-07-08

Tarification

ChargeSpecTaux
Entréepar 1M de jetons d’invite<=32K $1.08 (était $1.20); 32K-128K $2.16 (était $2.40); 128K-256K $2.70 (était $3.00)
Productionpar 1M de jetons générés<=32K $5.52 (était $6.00); 32K-128K $11.04 (était $12.00); 128K-256K $13.80 (était $15.00)
Recherche Webà la demande$0.015

Exemple de demande

$curl https://api.empiriolabs.ai/v1/chat/completions \
> -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
> -H 'Content-Type: application/json' \
> -d '{"model": "qwen3-max-thinking", "messages": [{"role":"user","content":"Hello"}]}'

Paramètres

ParamètreTypeObligatoirePar défautDescription
temperatureNombrenon0.7Température d’échantillonnage. 0 = déterministe, 2 = aléatoire maximal. · Plage: 0 – 2
top_pNombrenon0.9Probabilité d’échantillonnage du noyau, masse. Plus bas = plus concentré. · Répartition: 0 – 1
max_tokensNombrenon4096Maximum de jetons dans la réponse. · Répartition: 1 – 65536
stopCordenon-Jusqu’à 4 chaînes où le modèle cesse de générer d’autres jetons.
enable_thinkingBooléennonVraiActivez le mode pensée étendue. Plus lent, mais améliore les tâches qui demandent beaucoup de raisonnement.
tool_web_searchBooléennonfauxPermettre au modèle d’effectuer des recherches web lorsque cela est nécessaire.
web_search_modeenumnon"standard"Standard = recherche unique, approfondie = Recherches plus approfondies. · Autorisé: standard, thorough
tool_code_interpreterBooléennonVraiPermettre au modèle d’exécuter du code Python dans un bac à sable pour calculer / analyser des données.
tool_web_extractorBooléennonVraiLaissez le modèle récupérer et lire le contenu des URL qu’il découvre.
disable_formattingBooléennonfauxIgnorez la mise en forme EmpirioLabs Markdown (citation [N] réécriture + bloc Références lorsque la recherche web / outils ont été utilisés). La réponse brute en amont avec des citations simples [N] est retournée.

Notes

Modes de recherche web: Standard (efficace) ou Complet (exhaustif, nécessite réflexion).

Facturation par outil (usage.tool_usage)

Lorsque ce modèle invoque des outils (recherche web, interpréteur de code, etc.) dans une seule requête, la réponse porte une carte de usage.tool_usage normalisée à côté des comptes de tokens. L’exemple ci-dessous montre la forme - les noms exacts des champs, les unités et les outils qui apparaissent peuvent varier légèrement selon le fournisseur:

1"usage": {
2 "prompt_tokens": 123,
3 "completion_tokens": 456,
4 "cost_usd": 0.0042,
5 "tool_usage": {"web_search": 3, "code_interpreter": 1}
6}

Le nombre d’outils est déjà pris en compte dans cost_usd - ils sont présentés pour la transparence afin que vous puissiez auditer la facturation par outil. Le champ est omis lorsqu’aucun outil n’a été invoqué.


_Machine schéma lisible: _ GET https://api.empiriolabs.ai/v1/models/qwen3-max-thinking.