MiMo V2 Flash | EmpirioLabs AI Docs

Xiaomi · Text Generation

POST /v1/chat/completions

हल्के, उच्च गति तर्क मॉडल हाइब्रिड ध्यान और कम लागत वाले अनुमान और मजबूत बेंचमार्क स्कोर के लिए बहु-टोकन भविष्यवाणी के साथ।

एक नजर में

फ़ील्ड	मूल्य
मॉडल आईडी	`mimo-v2-flash`
मॉडल रिलीज की तारीख	2026-01-08
इनपुट तौर-तरीके	टेक्स्ट
आउटपुट के तौर-तरीके	टेक्स्ट
संदर्भ विंडो	256 के
वजन परिशुद्धता	-
अधिकतम आउटपुट टोकन	65,536
सुविधाऐं	तर्क, तेज
मूल अनुमान	नहीं
नया	नहीं
समर्थित समापन बिंदु	`POST /v1/chat/completions`, `POST /v1/responses`, `POST /v1/messages`

मूल्य निर्धारण

आवेशित करना	युक्ति	दर
इनपुट	प्रति 1M प्रॉम्प्ट टोकन	$0.50
उत्पादन	प्रति 1M जेनरेट किए गए टोकन	$1.50
अंतर्निहित कैश पढ़ा गया	प्रति 1M कैश्ड इनपुट टोकन	$0.05
वेब खोज	प्रति कॉल	$0.015

उदाहरण अनुरोध

$ curl https://api.empiriolabs.ai/v1/chat/completions \
>   -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
>   -H 'Content-Type: application/json' \
>   -d '{"model": "mimo-v2-flash", "messages": [{"role":"user","content":"Hello"}]}'

पैरामीटर

प्राचल	प्रकार	आवश्यक	डिफ़ॉल्ट	या क़िस्‍म
`enable_thinking`	बूलियन	नहीं	सच	विस्तारित सोच मोड सक्षम करें। धीमा लेकिन तर्क-भारी कार्यों में सुधार करता है।
`tool_web_search`	बूलियन	नहीं	गलत	जरूरत पड़ने पर मॉडल को वेब खोज करने की अनुमति दें।
`web_search_force`	बूलियन	नहीं	गलत	उत्तर देने से पहले मॉडल को हमेशा वेब खोज चलाने के लिए बाध्य करें।
`web_search_max_keyword`	संख्या	नहीं	`3`	कीवर्ड की अधिकतम संख्या मॉडल वेब खोजों में उपयोग कर सकता है। · रेंज: 1 - 5
`web_search_limit`	संख्या	नहीं	`5`	वेब खोजों की अधिकतम संख्या मॉडल प्रति अनुरोध कर सकता है। · रेंज: 1 - 10
`temperature`	संख्या	नहीं	`0.7`	नमूना तापमान। 0 = नियतात्मक, 2 = अधिकतम यादृच्छिकता। · रेंज: 0 - 2
`top_p`	संख्या	नहीं	`0.9`	नाभिक नमूनाकरण संभाव्यता द्रव्यमान। निचला = अधिक केंद्रित। · रेंज: 0 - 1
`max_tokens`	संख्या	नहीं	`4096`	प्रतिक्रिया में अधिकतम टोकन। · रेंज: 1 - 65536
`stop`	तार	नहीं	-	4 स्ट्रिंग्स तक जहां मॉडल आगे टोकन उत्पन्न करना बंद कर देगा।
`disable_formatting`	बूलियन	नहीं	गलत	EmpirioLabs मार्कडाउन स्वरूपण (उद्धरण [N] पुनर्लेखन + संदर्भ ब्लॉक जब वेब खोज का उपयोग किया गया था) को छोड़ें। सादे [N] उद्धरणों के साथ कच्चा अपस्ट्रीम उत्तर वापस कर दिया जाता है।

लाइटवेट 256K-संदर्भ स्तर। वेब खोज ($0.015/call) केवल तभी शुल्क लिया जाता है जब उसे लागू किया जाता है. कैश्ड इनपुट टोकन को भारी छूट पर बिल किया जाता है।

प्रति-उपकरण बिलिंग (usage.tool_usage)

जब यह मॉडल एक ही अनुरोध के अंदर टूल (वेब खोज, कोड दुभाषिया, आदि) का आह्वान करता है, तो प्रतिक्रिया टोकन गणना के साथ एक सामान्यीकृत usage.tool_usage मानचित्र ले जाती है। नीचे दिया गया उदाहरण आकार दिखाता है - सटीक फ़ील्ड नाम, इकाइयाँ, और कौन से उपकरण दिखाई देते हैं, प्रति प्रदाता थोड़ा भिन्न हो सकते हैं:

1 "usage": {
2   "prompt_tokens": 123,
3   "completion_tokens": 456,
4   "cost_usd": 0.0042,
5   "tool_usage": {"web_search": 3, "code_interpreter": 1}
6 }

टूल काउंट पहले से ही cost_usd में फैक्टर किए गए हैं - वे पारदर्शिता के लिए सामने आए हैं ताकि आप प्रति-टूल बिलिंग का ऑडिट कर सकें। जब कोई उपकरण लागू नहीं किया गया था तो फ़ील्ड को छोड़ दिया जाता है।

Machine-पठनीय स्कीमा: GET https://api.empiriolabs.ai/v1/models/mimo-v2-flash।

एक नजर में

मूल्य निर्धारण

उदाहरण अनुरोध

पैरामीटर

टिप्पणियाँ