Qwen3 Max Thinking

Qwen3 Max Thinking
Alibaba Cloud · Text Generation
POST /v1/chat/completions

Schlussfolgerungsmodell mit adaptiver Werkzeugnutzung (Suche, Speicher, Code-Interpreter) und Testzeitskalierung für höhere Genauigkeit bei komplexen Aufgaben.

This model is deprecated and will be retired on 2026-07-08. After that date, requests to this model will fail. Migrate to a successor model before then.

Auf einen Blick

SpielfeldWert
Modell-IDqwen3-max-thinking
Modell-Veröffentlichungsdatum2025-09-23
EingabemodalitätenText
AusgabemodalitätenText
Kontextfenster256.000
Gewichtspräzision-
Maximale Ausgabetoken65,536
RegionSingapur
MerkmaleVernunft, code_interpreter, web_search, Denken
Native SchlussfolgerungNein
NeuNein
Unterstützte EndpunktePOST /v1/chat/completions, POST /v1/responses, POST /v1/messages
Datum der Einstellung2026-07-08

Preisgestaltung

BerechnenSpezifikationZinssatz
Eingabepro 1M Prompt-Token<=32K $1.08 (war $1.20); 32K-128K $2.16 (war $2.40); 128K-256K $2.70 (war $3.00)
Ausgabepro 1 Million generierter Token<=32K $5.52 (war $6.00); 32K-128K $11.04 (war $12.00); 128K-256K $13.80 (war $15.00)
Websucheauf Wunsch$0.015

Beispielanfrage

$curl https://api.empiriolabs.ai/v1/chat/completions \
> -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
> -H 'Content-Type: application/json' \
> -d '{"model": "qwen3-max-thinking", "messages": [{"role":"user","content":"Hello"}]}'

Parameter

ParameterTypErforderlichDefaultBeschreibung
temperatureAnzahlNein0.7Temperatur wird geprochen. 0 = deterministisch, 2 = maximale Zufälligkeit. · Reichweite: 0 – 2
top_pAnzahlNein0.9Kernprobenwahrscheinlichkeitsmasse. Niedriger = fokussierter. · Reichweite: 0 – 1
max_tokensAnzahlNein4096Maximale Token in der Antwort. · Reichweite: 1 – 65536
stopStringNein-Bis zu 4 Zeichenketten, bei denen das Modell aufhört, weitere Token zu generieren.
enable_thinkingBooleanNeinStimmtAktivieren Sie den erweiterten Denkmodus. Langsamere, aber verbesserte Aufgaben mit viel Schlussfolgerung.
tool_web_searchBooleanNeinfalschErlauben Sie dem Modell, bei Bedarf Websuchen durchzuführen.
web_search_modeENUMNein"standard"Standard = einzelne Suche, gründlich = mehrere tiefere Suchanfragen. · Erlaubt: standard, thorough
tool_code_interpreterBooleanNeinStimmtErlaube dem Modell, Python-Code in einer Sandbox auszuführen, um Daten zu berechnen und zu analysieren.
tool_web_extractorBooleanNeinStimmtErlaube dem Modell, Inhalte von den URLs, die es entdeckt, abzurufen und zu lesen.
disable_formattingBooleanNeinfalschÜberspringe die EmpirioLabs Markdown-Formatierung (Zitation [N] Umschreiben + Referenzblock, wenn Websuche / Tools verwendet wurden). Die rohe Upstream-Antwort mit einfachen [N]-Zitaten wird zurückgegeben.

Anmerkungen

Websuchmodi: Standard (effizient) oder Gründlich (umfassend, erfordert Nachdenken).

Pro-Werkzeug-Abrechnung (usage.tool_usage)

Wenn dieses Modell Werkzeuge (Websuche, Code-Interpreter usw.) innerhalb einer einzigen Anfrage aufruft, trägt die Antwort eine normalisierte usage.tool_usage Map neben den Token-Zählungen. Das untenstehende Beispiel zeigt die Form – genaue Feldnamen, Einheiten und welche Werkzeuge erscheinen, können je nach Anbieter leicht variieren:

1"usage": {
2 "prompt_tokens": 123,
3 "completion_tokens": 456,
4 "cost_usd": 0.0042,
5 "tool_usage": {"web_search": 3, "code_interpreter": 1}
6}

Die Anzahl der Werkzeuge ist bereits in cost_usd einbezogen – sie sind zur Transparenz sichtbar, damit man die Rechnungsabrechnung pro Tool prüfen kann. Das Feld wird weggelassen, wenn keine Werkzeuge aktiviert wurden.


Machine-lesbares Schema: GET https://api.empiriolabs.ai/v1/models/qwen3-max-thinking.