Qwen3.5 Flash | EmpirioLabs AI Docs

POST /v1/chat/completions

视觉语言模型，结合混合线性注意力、稀疏的 MoE、1M 上下文和快速多模态text/image/视频推断。

一眼看

场地	价值
型号ID	`qwen3-5-flash`
车型发布日期	2026-02-24
输入模态	文本、图像、视频
输出模态	正文
上下文窗口	1M
重量精度	-
最大输出令牌	32,768
地区	新加坡
特色	视觉、web_search、code_interpreter、function_calling
本土推断	不
新	不
支持的端点	`POST /v1/chat/completions`，`POST /v1/responses`，`POST /v1/messages`

定价

冲锋	规格	速率
输入	每100万个提示词标记	$0.090（曾经$0.10）
输出	每100万个生成代币	$0.368（曾经$0.40）
网页搜索	每次通话	$0.015
图片搜索	每次通话	$0.012

示例请求

$ curl https://api.empiriolabs.ai/v1/chat/completions \
>   -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
>   -H 'Content-Type: application/json' \
>   -d '{"model": "qwen3-5-flash", "messages": [{"role":"user","content":"Hello"}]}'

参数

参数	类型	必修	默认	描述
`temperature`	人数	不	`0.7`	采样温度。0 = 确定性，2 = 最大随机性。·射程：0 – 2
`top_p`	人数	不	`0.9`	核抽样概率质量。低 = 更专注。·射程：0 – 1
`max_tokens`	人数	不	`4096`	回复中最多的代币。·距离：1 – 32768
`enable_thinking`	布尔值	不	确实如此	启用扩展思考模式。虽然节奏较慢，但能提升推理性任务。
`vl_high_resolution_images`	布尔值	不	确实如此	输入图像使用更高分辨率。细节更好，成本更高。
`max_pixels`	人数	不	`2621440`	每张输入图像的最大像素数。更大=细节更多但速度慢/标记更多。·射程：1 – 99999999
`tool_web_search`	布尔值	不	错误	在网上搜索实时信息。
`tool_web_extractor`	布尔值	不	确实如此	从URL中提取并读取内容。需要网络搜索和思考。
`tool_code_interpreter`	布尔值	不	确实如此	在沙盒中运行Python代码。需要思考。
`tool_web_search_image`	布尔值	不	确实如此	在网上搜索文本描述中的图片。
`tool_image_search`	布尔值	不	确实如此	从上传的图片中寻找相似图片。
`video_fps`	人数	不	`2`	从输入视频中采样的帧每秒进行分析。·范围：0.1 – 10
`treat_images_as_video`	布尔值	不	错误	将一组输入图像当作视频来进行时间推理。
`disable_formatting`	布尔值	不	错误	跳过EmpirioLabs的Markdown格式化（引用[[N]]（URL）重写+使用网页搜索/工具时的参考资料块）。返回原始上游答案，带有纯[N]次引用。

注释

内置工具（仅在调用时计费）

网络搜索：$0.015/call
网页提取器：免费
代码解释器：免费
文本转图片搜索：$0.012/call
图像对图像搜索：$0.012/call

其他

思考代币被计费为输出代币

文本转图像搜索和图像对图像搜索使用图片搜索定价行。每次调用的图像搜索按上述每次通话的费率计费。

按工具计费（usage.tool_usage）

当该模型在单一请求中调用工具（如网页搜索、代码解释器等）时，响应会携带一个归一化的usage.tool_usage映射，同时显示令牌计数。下面的示例展示了形状 - - 具体字段名称、单位以及出现的工具可能因提供者而略有差异：

1 "usage": {
2   "prompt_tokens": 123,
3   "completion_tokens": 456,
4   "cost_usd": 0.0042,
5   "tool_usage": {"web_search": 3, "code_interpreter": 1}
6 }

工具数量已经被纳入cost_usd - - 它们被展示出来以保持透明，以便你审计每件工具的计费。当没有工具被调用时，该字段被省略。

变体

`:variant1`

场地	价值
型号ID	`qwen3-5-flash:variant1`
车型发布日期	2026-02-24
地区	中国
上下文窗口	1M
重量精度	-
最大输出令牌	65,536
特色	推理、视觉、视频、web_search、function_calling、structured_output、agentic_coding
本土推断	不
支持的端点	`POST /v1/chat/completions`，`POST /v1/responses`，`POST /v1/messages`

价格

冲锋	规格	速率
输入	每100万个提示词标记	<=128K $0.029（是$0.090）;128K-256K $0.115;256K-1M $0.172
输出	每100万个生成代币	<=128K $0.287（是$0.368）;128K-256K $1.147;256K-1M $1.72
网络搜索	启用时每个查询	$0.01

参数

参数	类型	必修	默认	描述
`temperature`	人数	不	`0.7`	采样温度。0是确定性的，2是最大随机性。·射程：0 – 2
`top_p`	人数	不	`0.9`	核抽样概率质量。较低的数值使输出更集中。·射程：0 – 1
`max_tokens`	人数	不	`4096`	最大输出令牌。·距离：1 – 65536
`stop`	弦	不	-	最多有4串字符串，模型会停止生成更多代币。
`enable_thinking`	布尔值	不	确实如此	在回答之前先启用推理。
`reasoning_effort`	枚举	不	`"medium"`	推理努力程度。没有人能让思考失效。低、中、高和最大设定了根据所选模型大小的有界思维预算。以类似OpenAI的 reasoning_effort 字段形式发送，转换为模型服务的enable_thinking和thinking_budget。·允许：`none`、`low`、`medium`、`high`、`max`
`thinking_budget`	人数	不	`32768`	开启了思考时保留给推理的最大代币。·范围：1 – 80000
`response_format`	对象	不	-	兼容 OpenAI 的 JSON 模式或 JSON 模式响应格式。严格的图式则使用非思考模式。
`vl_high_resolution_images`	布尔值	不	确实如此	图像输入使用更高分辨率处理。
`max_pixels`	人数	不	`2621440`	禁用高分辨率处理时，每张图像的最大像素数。·距离：4096 – 16777216
`video_fps`	人数	不	`2`	每秒帧以从视频输入采样。·范围：0.1 – 10
`tool_web_search`	布尔值	不	错误	在网上搜索实时信息。启用后会增加$0.01请求费用。

Machine可读模式： GET https://api.empiriolabs.ai/v1/models/qwen3-5-flash。