Qwen3.5 Omni Plus

POST /v1/chat/completions

旗舰全模态模型，涵盖文本、图像、音频和视频。3小时音频，1小时视频，90+输入和30+输出语言，55种语音音色。

一眼看

场地	价值
型号ID	`qwen3-5-omni-plus`
车型发布日期	2026-03-30
输入模态	文本、图像、视频、音频
输出模态	文本，音频
上下文窗口	256K
重量精度	-
最大输出令牌	32,768
地区	新加坡
特色	视觉、audio_in、audio_out、多语言
本土推断	不
新	不
支持的端点	`POST /v1/chat/completions`，`POST /v1/responses`，`POST /v1/messages`，`POST /v1/audio/speech`

定价

冲锋	规格	速率
输入	每100万个提示词标记	每 1M 个提示词 $1.40;每100万个提示词 $11.00
输出	每100万个生成代币	每100万个生成的代币 $8.30;每100万个生成代币 $44.00
网页搜索	按请求	$0.015

示例请求

$ curl https://api.empiriolabs.ai/v1/chat/completions \
>   -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
>   -H 'Content-Type: application/json' \
>   -d '{"model": "qwen3-5-omni-plus", "messages": [{"role":"user","content":"Hello"}]}'

参数

参数	类型	必修	默认	描述
`temperature`	人数	不	`0.7`	采样温度。0 = 确定性，2 = 最大随机性。·射程：0 – 2
`top_p`	人数	不	`0.9`	核抽样概率质量。低 = 更专注。·射程：0 – 1
`max_tokens`	人数	不	`4096`	回复中最多的代币。·距离：1 – 32768
`output_mode`	枚举	不	`"text"`	输出格式模式。文本=仅文本，音频=包含合成语音。·允许：`text`，`text_audio`
`voice`	弦	不	`"Tina"`	音频输出的语音名称（output_mode = 音频时）。
`tool_web_search`	布尔值	不	错误	允许模型在需要时进行网页搜索。
`video_fps`	人数	不	`2`	从输入视频中采样的帧每秒进行分析。·范围：0.1 – 10
`vl_high_resolution_images`	布尔值	不	确实如此	输入图像使用更高分辨率。细节更好，成本更高。
`max_pixels`	人数	不	`2621440`	每张输入图像的最大像素数。更大=细节更多但速度慢/标记更多。·射程：1 – 99999999

注释

音频账单

音频的代币费率高于text/image/视频
启用音频输出时，输出文本不计费 - - 只计音频令牌

声音与语言

55种音色可用
音频输出支持29种语言，7种方言

按工具计费（usage.tool_usage）

当该模型在单一请求中调用工具（如网页搜索、代码解释器等）时，响应会携带一个归一化的usage.tool_usage映射，同时显示令牌计数。下面的示例展示了形状 - - 具体字段名称、单位以及出现的工具可能因提供者而略有差异：

1 "usage": {
2   "prompt_tokens": 123,
3   "completion_tokens": 456,
4   "cost_usd": 0.0042,
5   "tool_usage": {"web_search": 3, "code_interpreter": 1}
6 }

工具数量已经被纳入cost_usd - - 它们被展示出来以保持透明，以便你审计每件工具的计费。当没有工具被调用时，该字段被省略。

Machine可读模式： GET https://api.empiriolabs.ai/v1/models/qwen3-5-omni-plus。