MiMo V2.5 Pro

MiMo V2.5 Pro
Xiaomi · Text Generation
POST /v1/chat/completions

Modèle de premier plan pour les flux de travail agents, l’ingénierie logicielle complexe et les tâches à long terme, supportant le travail sur 1000+ appels d’outils sur un contexte 1M.

En un coup d’œil

TerrainValeur
Identifiant de modèlemimo-v2-5-pro
Date de sortie du modèle2026-04-27
Modalités d’entréeTexte
Modalités de sortieTexte
Fenêtre de contexte1M
Précision du poids-
Jetons de sortie max128,000
CaractéristiquesRaisonnement, agent
Inférence autochtoneNon
NouveauOui
Points de terminaison pris en chargePOST /v1/chat/completions, POST /v1/responses, POST /v1/messages

Tarification

ChargeSpecTaux
Entréepar 1M de jetons d’invite$2.175
Productionpar 1M de jetons générés$4.35
Lecture implicite du cachepar 1M de jetons d’entrée mis en cache$0.018
Recherche Webpar appel$0.015

Exemple de demande

$curl https://api.empiriolabs.ai/v1/chat/completions \
> -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
> -H 'Content-Type: application/json' \
> -d '{"model": "mimo-v2-5-pro", "messages": [{"role":"user","content":"Hello"}]}'

Paramètres

ParamètreTypeObligatoirePar défautDescription
enable_thinkingBooléennonVraiActivez le mode pensée étendue. Plus lent, mais améliore les tâches qui demandent beaucoup de raisonnement.
tool_web_searchBooléennonfauxPermettre au modèle d’effectuer des recherches web lorsque cela est nécessaire.
web_search_forceBooléennonfauxForcez le modèle à toujours effectuer une recherche web avant de répondre.
web_search_max_keywordNombrenon3Nombre maximal de mots-clés que le modèle peut utiliser dans les recherches web. · Répartition: 1 – 5
web_search_limitNombrenon5Nombre maximal de recherches web que le modèle peut effectuer par requête. · Répartition: 1 – 10
temperatureNombrenon0.7Température d’échantillonnage. 0 = déterministe, 2 = aléatoire maximal. · Plage: 0 – 2
top_pNombrenon0.9Probabilité d’échantillonnage du noyau, masse. Plus bas = plus concentré. · Répartition: 0 – 1
max_tokensNombrenon4096Maximum de jetons dans la réponse. · Répartition: 1 – 65536
stopCordenon-Jusqu’à 4 chaînes où le modèle cesse de générer d’autres jetons.
disable_formattingBooléennonfauxPassez le format EmpirioLabs Markdown (citation [N] réécriture + bloc Références lorsque la recherche web a été utilisée). La réponse brute en amont avec des citations simples [N] est retournée.

Notes

La recherche web ($0.015/call) n’est facturée qu’en cas d’invocation. Les jetons d’entrée en cache sont facturés à un prix fortement réduit. Soutient des flux de travail autonomes complexes avec 1000+ appels d’outils sur un contexte 1M.

Facturation par outil (usage.tool_usage)

Lorsque ce modèle invoque des outils (recherche web, interpréteur de code, etc.) dans une seule requête, la réponse porte une carte de usage.tool_usage normalisée à côté des comptes de tokens. L’exemple ci-dessous montre la forme - les noms exacts des champs, les unités et les outils qui apparaissent peuvent varier légèrement selon le fournisseur:

1"usage": {
2 "prompt_tokens": 123,
3 "completion_tokens": 456,
4 "cost_usd": 0.0042,
5 "tool_usage": {"web_search": 3, "code_interpreter": 1}
6}

Le nombre d’outils est déjà pris en compte dans cost_usd - ils sont présentés pour la transparence afin que vous puissiez auditer la facturation par outil. Le champ est omis lorsqu’aucun outil n’a été invoqué.


_Machine schéma lisible: _ GET https://api.empiriolabs.ai/v1/models/mimo-v2-5-pro.