MiMo V2 Flash

MiMo V2 Flash
Xiaomi · Text Generation
POST /v1/chat/completions

轻量级、高速推理模型,采用混合注意力和多符号预测,实现低成本推断和强劲的基准分数。

一眼看

场地价值
型号IDmimo-v2-flash
车型发布日期2026-01-08
输入模态正文
输出模态正文
上下文窗口256K
重量精度-
最大输出令牌65,536
特色推理,快
本土推断
支持的端点POST /v1/chat/completionsPOST /v1/responsesPOST /v1/messages

定价

冲锋规格速率
输入每100万个提示词标记$0.50
输出每100万个生成代币$1.50
隐式缓存读取每 1M 缓存输入标记$0.05
网页搜索每次通话$0.015

示例请求

$curl https://api.empiriolabs.ai/v1/chat/completions \
> -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
> -H 'Content-Type: application/json' \
> -d '{"model": "mimo-v2-flash", "messages": [{"role":"user","content":"Hello"}]}'

参数

参数类型必修默认描述
enable_thinking布尔值确实如此启用扩展思考模式。虽然节奏较慢,但能提升推理性任务。
tool_web_search布尔值错误允许模型在需要时进行网页搜索。
web_search_force布尔值错误强制模型在回答前始终进行网络搜索。
web_search_max_keyword人数3模型在网络搜索中可使用的最大关键词数量。·射程:1 – 5
web_search_limit人数5模型每个请求可执行的最大网络搜索次数。·范围:1 – 10
temperature人数0.7采样温度。0 = 确定性,2 = 最大随机性。·射程:0 – 2
top_p人数0.9核抽样概率质量。低 = 更专注。·射程:0 – 1
max_tokens人数4096回复中最多的代币。·距离:1 – 65536
stop-最多有4串字符串,模型会停止生成更多代币。
disable_formatting布尔值错误跳过EmpirioLabs的Markdown格式(引用[[N]](url)重写+参考文献块,使用网页搜索时)。返回原始上游答案,带有纯[N]次引用。

注释

轻量级256K上下文层。网络搜索($0.015/call)只有在被调用时才会收费。缓存输入代币会被大幅折扣收费。

按工具计费(usage.tool_usage

当该模型在单一请求中调用工具(如网页搜索、代码解释器等)时,响应会携带一个归一化的usage.tool_usage映射,同时显示令牌计数。下面的示例展示了形状 - - 具体字段名称、单位以及出现的工具可能因提供者而略有差异:

1"usage": {
2 "prompt_tokens": 123,
3 "completion_tokens": 456,
4 "cost_usd": 0.0042,
5 "tool_usage": {"web_search": 3, "code_interpreter": 1}
6}

工具数量已经被纳入cost_usd - - 它们被展示出来以保持透明,以便你审计每件工具的计费。当没有工具被调用时,该字段被省略。


Machine可读模式: GET https://api.empiriolabs.ai/v1/models/mimo-v2-flash