MiMo V2 Flash

MiMo V2 Flash
Xiaomi · Text Generation
POST /v1/chat/completions

Leichtes, schnelles Denkmodell mit hybrider Aufmerksamkeit und Multi-Token-Vorhersage für kostengünstige Inferenz und starke Benchmark-Werte.

Auf einen Blick

SpielfeldWert
Modell-IDmimo-v2-flash
Modell-Veröffentlichungsdatum2026-01-08
EingabemodalitätenText
AusgabemodalitätenText
Kontextfenster256.000
Gewichtspräzision-
Maximale Ausgabetoken65,536
MerkmaleÜberlegung, schnell
Native SchlussfolgerungNein
NeuNein
Unterstützte EndpunktePOST /v1/chat/completions, POST /v1/responses, POST /v1/messages

Preisgestaltung

BerechnenSpezifikationZinssatz
Eingabepro 1M Prompt-Token$0.50
Ausgabepro 1 Million generierter Token$1.50
Implizite Cache-Leseartpro 1M zwischengespeicherten Eingabetoken$0.05
Websuchepro Aufruf$0.015

Beispielanfrage

$curl https://api.empiriolabs.ai/v1/chat/completions \
> -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
> -H 'Content-Type: application/json' \
> -d '{"model": "mimo-v2-flash", "messages": [{"role":"user","content":"Hello"}]}'

Parameter

ParameterTypErforderlichDefaultBeschreibung
enable_thinkingBooleanNeinStimmtAktivieren Sie den erweiterten Denkmodus. Langsamere, aber verbesserte Aufgaben mit viel Schlussfolgerung.
tool_web_searchBooleanNeinfalschErlauben Sie dem Modell, bei Bedarf Websuchen durchzuführen.
web_search_forceBooleanNeinfalschZwingen Sie das Modell, immer eine Websuche durchzuführen, bevor Sie antworten.
web_search_max_keywordAnzahlNein3Maximale Anzahl von Schlüsselwörtern, die das Modell in Websuchen verwenden kann. · Reichweite: 1 – 5
web_search_limitAnzahlNein5Die maximale Anzahl der Websuchanfragen, die das Modell pro Anfrage durchführen kann. · Reichweite: 1 – 10
temperatureAnzahlNein0.7Temperatur wird geprochen. 0 = deterministisch, 2 = maximale Zufälligkeit. · Reichweite: 0 – 2
top_pAnzahlNein0.9Kernprobenwahrscheinlichkeitsmasse. Niedriger = fokussierter. · Reichweite: 0 – 1
max_tokensAnzahlNein4096Maximale Token in der Antwort. · Reichweite: 1 – 65536
stopStringNein-Bis zu 4 Zeichenketten, bei denen das Modell aufhört, weitere Token zu generieren.
disable_formattingBooleanNeinfalschÜberspringe das EmpirioLabs Markdown-Format (Zitation [N], Umschreibung + Referenzblock, wenn die Websuche verwendet wurde). Die rohe Upstream-Antwort mit einfachen [N]-Zitaten wird zurückgegeben.

Anmerkungen

Leichtgewicht 256K-Kontext-Stufe. Websuche ($0.015/call) wird nur bei Aufforderung belastet. Zwischengespeicherte Eingabetoken werden zu einem starken Rabatt abgerechnet.

Pro-Werkzeug-Abrechnung (usage.tool_usage)

Wenn dieses Modell Werkzeuge (Websuche, Code-Interpreter usw.) innerhalb einer einzigen Anfrage aufruft, trägt die Antwort eine normalisierte usage.tool_usage Map neben den Token-Zählungen. Das untenstehende Beispiel zeigt die Form – genaue Feldnamen, Einheiten und welche Werkzeuge erscheinen, können je nach Anbieter leicht variieren:

1"usage": {
2 "prompt_tokens": 123,
3 "completion_tokens": 456,
4 "cost_usd": 0.0042,
5 "tool_usage": {"web_search": 3, "code_interpreter": 1}
6}

Die Anzahl der Werkzeuge ist bereits in cost_usd einbezogen – sie sind zur Transparenz sichtbar, damit man die Rechnungsabrechnung pro Tool prüfen kann. Das Feld wird weggelassen, wenn keine Werkzeuge aktiviert wurden.


Machine-lesbares Schema: GET https://api.empiriolabs.ai/v1/models/mimo-v2-flash.