Qwen3.7 Max

Qwen3.7 Max
Alibaba Cloud · Text Generation
POST /v1/chat/completions

Qwen3.7 Max est un modèle textuel phare pour le codage, la productivité, les agents de longue durée, la réflexion approfondie, les outils et le contexte 1M-token.

En un coup d’œil

TerrainValeur
Identifiant de modèleqwen3-7-max
Date de sortie du modèle2026-05-21
Modalités d’entréeTexte
Modalités de sortieTexte
Fenêtre de contexte1M
Précision du poids-
Jetons de sortie max65,536
RégionSingapour
Caractéristiquesraisonnement, web_search, code_interpreter, function_calling, agentic_coding
Inférence autochtoneNon
NouveauOui
Points de terminaison pris en chargePOST /v1/chat/completions, POST /v1/responses, POST /v1/messages

Tarification

ChargeSpecTaux
Entréepar 1M de jetons d’invite$2.50
Productionpar 1M de jetons générés$7.50
Recherche webpar appel lors de l’invocation$0.02
Extracteur de toilepar appel lors de l’invocation$0.02
Interpréteur de codepar appel lors de l’invocation$0.02

Exemple de demande

$curl https://api.empiriolabs.ai/v1/chat/completions \
> -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
> -H 'Content-Type: application/json' \
> -d '{"model": "qwen3-7-max", "messages": [{"role":"user","content":"Hello"}]}'

Paramètres

ParamètreTypeObligatoirePar défautDescription
temperatureNombrenon0.7Température d’échantillonnage. 0 est déterministe et 2 est l’aléatoire maximal. · Plage: 0 – 2
top_pNombrenon0.9Probabilité d’échantillonnage du noyau, masse. Des valeurs plus basses rendent les sorties plus ciblées. · Répartition: 0 – 1
max_tokensNombrenon4096Jetons de sortie maximum. · Répartition: 1 – 65536
stopCordenon-Jusqu’à 4 chaînes où le modèle cesse de générer d’autres jetons.
enable_thinkingBooléennonVraiActivez le raisonnement avant de répondre.
reasoning_effortenumnon"medium"Niveau d’effort de raisonnement. Aucun ne décourage la pensée. budgets de pensée limités faible, moyen, élevé et maximal adaptés au modèle sélectionné. · Autorisé: none, low, medium, high, max
thinking_budgetNombrenon32768Le maximum de jetons est réservé pour le raisonnement lorsque la pensée est activée. · Répartition: 1 – 64000
tool_web_searchBooléennonfauxCherchez sur internet des informations en temps réel. Ajoute $0.02 au coût de la requête pour chaque appel de recherche web invoqué.
tool_web_extractorBooléennonfauxExtraire et lire le contenu des URL. Nécessite une recherche et une réflexion sur le Web. Ajoute $0.02 au coût de requête pour chaque appel d’extracteur web invoqué.
tool_code_interpreterBooléennonfauxExécutez du code Python dans un bac à sable. Ça demande de la réflexion. Ajoute $0.02 au coût de requête pour chaque appel d’interpréteur de code invoqué.
disable_formattingBooléennonfauxRetournez une sortie brute de type fournisseur sans formatage source EmpirioLabs lorsque cela est supporté.

Notes

Saisie de texte uniquement. La recherche web, l’extracteur web et l’interpréteur de code sont des outils intégrés optionnels exposés à tool_*. Chaque appel d’outil intégré ajoute $0.02 lorsqu’il est invoqué. Les jetons pensants sont présentés comme des jetons de sortie.

Facturation par outil (usage.tool_usage)

Lorsque ce modèle invoque des outils intégrés à une seule requête, la réponse porte une carte de usage.tool_usage normalisée accompagnée des comptes de tokens. Le nombre d’outils est déjà pris en compte dans cost_usd et est mis en surface pour la transparence.

Variantes

:variant1

TerrainValeur
Identifiant de modèleqwen3-7-max:variant1
Date de sortie du modèle2026-05-21
RégionChine
Fenêtre de contexte1M
Précision du poids-
Jetons de sortie max65,536
Caractéristiquesraisonnement, web_search, code_interpreter, function_calling, agentic_coding
Inférence autochtoneNon
Points de terminaison pris en chargePOST /v1/chat/completions, POST /v1/responses, POST /v1/messages

Prix

ChargeSpecTaux
Entréepar 1M de jetons d’invite$1.65 (était $2.50)
Productionpar 1M de jetons générés$4.951 (était $7.50)
Recherche webpar appel lors de l’invocation$0.01
Extracteur de toilepar appel lors de l’invocation$0.01
Interpréteur de codepar appel lors de l’invocation$0.01

Paramètres

ParamètreTypeObligatoirePar défautDescription
temperatureNombrenon0.7Température d’échantillonnage. 0 est déterministe et 2 est l’aléatoire maximal. · Plage: 0 – 2
top_pNombrenon0.9Probabilité d’échantillonnage du noyau, masse. Des valeurs plus basses rendent les sorties plus ciblées. · Répartition: 0 – 1
max_tokensNombrenon4096Jetons de sortie maximum. · Répartition: 1 – 65536
stopCordenon-Jusqu’à 4 chaînes où le modèle cesse de générer d’autres jetons.
enable_thinkingBooléennonVraiActivez le raisonnement avant de répondre.
reasoning_effortenumnon"medium"Niveau d’effort de raisonnement. Aucun ne décourage la pensée. budgets de pensée limités faible, moyen, élevé et maximal adaptés au modèle sélectionné. · Autorisé: none, low, medium, high, max
thinking_budgetNombrenon32768Le maximum de jetons est réservé pour le raisonnement lorsque la pensée est activée. · Répartition: 1 – 64000
tool_web_searchBooléennonfauxCherchez sur internet des informations en temps réel. Ajoute $0.01 au coût de la requête pour chaque appel de recherche web invoqué.
tool_web_extractorBooléennonfauxExtraire et lire le contenu des URL. Nécessite une recherche et une réflexion sur le Web. Ajoute $0.01 au coût de requête pour chaque appel d’extracteur web invoqué.
tool_code_interpreterBooléennonfauxExécutez du code Python dans un bac à sable. Ça demande de la réflexion. Ajoute $0.01 au coût de requête pour chaque appel d’interpréteur de code invoqué.
disable_formattingBooléennonfauxRetournez une sortie brute de type fournisseur sans formatage source EmpirioLabs lorsque cela est supporté.

_Machine schéma lisible: _ GET https://api.empiriolabs.ai/v1/models/qwen3-7-max.