MiMo V2.5 | EmpirioLabs AI Docs

Xiaomi · Text Generation

POST /v1/chat/completions

Multimodales Modell mit nativem visuellen und akustischen Verständnis in einem 1-Millionen-Kontext, entwickelt für das Denken und Handeln über verschiedene Modalitäten hinweg in agentischen Workflows.

Auf einen Blick

Spielfeld	Wert
Modell-ID	`mimo-v2-5`
Modell-Veröffentlichungsdatum	2026-04-22
Eingabemodalitäten	Text, Bild, Video, Audio
Ausgabemodalitäten	Text
Kontextfenster	1M
Gewichtspräzision	-
Maximale Ausgabetoken	128,000
Merkmale	Vision, audio_in
Native Schlussfolgerung	Nein
Neu	Ja
Unterstützte Endpunkte	`POST /v1/chat/completions`, `POST /v1/responses`, `POST /v1/messages`

Preisgestaltung

Berechnen	Spezifikation	Zinssatz
Eingabe	pro 1M Prompt-Token	$0.70
Ausgabe	pro 1 Million generierter Token	$1.40
Implizite Cache-Leseart	pro 1M zwischengespeicherten Eingabetoken	$0.014
Websuche	pro Aufruf	$0.015

Beispielanfrage

$ curl https://api.empiriolabs.ai/v1/chat/completions \
>   -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
>   -H 'Content-Type: application/json' \
>   -d '{"model": "mimo-v2-5", "messages": [{"role":"user","content":"Hello"}]}'

Parameter

Parameter	Typ	Erforderlich	Default	Beschreibung
`enable_thinking`	Boolean	Nein	Stimmt	Aktivieren Sie den erweiterten Denkmodus. Langsamere, aber verbesserte Aufgaben mit viel Schlussfolgerung.
`tool_web_search`	Boolean	Nein	falsch	Erlauben Sie dem Modell, bei Bedarf Websuchen durchzuführen.
`web_search_force`	Boolean	Nein	falsch	Zwingen Sie das Modell, immer eine Websuche durchzuführen, bevor Sie antworten.
`web_search_max_keyword`	Anzahl	Nein	`3`	Maximale Anzahl von Schlüsselwörtern, die das Modell in Websuchen verwenden kann. · Reichweite: 1 – 5
`web_search_limit`	Anzahl	Nein	`5`	Die maximale Anzahl der Websuchanfragen, die das Modell pro Anfrage durchführen kann. · Reichweite: 1 – 10
`video_fps`	Anzahl	Nein	`2`	Bilder pro Sekunde, die aus Eingabevideo zur Analyse abgeschnitten wurden. · Reichweite: 0,1 – 10
`video_resolution`	ENUM	Nein	`"default"`	Auflösung, mit der das Eingabevideo abgetastet wird (z. B. 360p, 480p, 720p). · Erlaubt: `default`, `max`
`temperature`	Anzahl	Nein	`0.7`	Temperatur wird geprochen. 0 = deterministisch, 2 = maximale Zufälligkeit. · Reichweite: 0 – 2
`top_p`	Anzahl	Nein	`0.9`	Kernprobenwahrscheinlichkeitsmasse. Niedriger = fokussierter. · Reichweite: 0 – 1
`max_tokens`	Anzahl	Nein	`4096`	Maximale Token in der Antwort. · Reichweite: 1 – 65536
`stop`	String	Nein	-	Bis zu 4 Zeichenketten, bei denen das Modell aufhört, weitere Token zu generieren.
`disable_formatting`	Boolean	Nein	falsch	Überspringe das EmpirioLabs Markdown-Format (Zitation [N], Umschreibung + Referenzblock, wenn die Websuche verwendet wurde). Die rohe Upstream-Antwort mit einfachen [N]-Zitaten wird zurückgegeben.

Anmerkungen

Omnimodale Eingabe (Text, Bild, Video, Audio) mit Textausgabe. Websuche ($0.015/call) wird nur bei Aufforderung belastet. Zwischengespeicherte Eingabetoken werden zu einem starken Rabatt abgerechnet.

Pro-Werkzeug-Abrechnung (usage.tool_usage)

Wenn dieses Modell Werkzeuge (Websuche, Code-Interpreter usw.) innerhalb einer einzigen Anfrage aufruft, trägt die Antwort eine normalisierte usage.tool_usage Map neben den Token-Zählungen. Das untenstehende Beispiel zeigt die Form – genaue Feldnamen, Einheiten und welche Werkzeuge erscheinen, können je nach Anbieter leicht variieren:

1 "usage": {
2   "prompt_tokens": 123,
3   "completion_tokens": 456,
4   "cost_usd": 0.0042,
5   "tool_usage": {"web_search": 3, "code_interpreter": 1}
6 }

Die Anzahl der Werkzeuge ist bereits in cost_usd einbezogen – sie sind zur Transparenz sichtbar, damit man die Rechnungsabrechnung pro Tool prüfen kann. Das Feld wird weggelassen, wenn keine Werkzeuge aktiviert wurden.

Machine-lesbares Schema: GET https://api.empiriolabs.ai/v1/models/mimo-v2-5.