DeepSeek V4 Flash | EmpirioLabs AI Docs

DeepSeek · Text Generation

POST /v1/chat/completions

轻量级MoE模型，总参数284B/活动参数13B，原生100万上下文，优化为低延迟、经济高效的高并发使用。

一眼看

场地	价值
型号ID	`deepseek-v4-flash`
车型发布日期	2026-04-24
输入模态	正文
输出模态	正文
上下文窗口	1M
重量精度	-
最大输出令牌	393,216
地区	德国
特色	理由
本土推断	不
新	是的
支持的端点	`POST /v1/chat/completions`，`POST /v1/responses`，`POST /v1/messages`

定价

冲锋	规格	速率
输入	每100万个提示词标记	$0.14
输出	每100万个生成代币	$0.28
网页搜索（Linkup）	每次调用时	$0.013

示例请求

$ curl https://api.empiriolabs.ai/v1/chat/completions \
>   -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
>   -H 'Content-Type: application/json' \
>   -d '{"model": "deepseek-v4-flash", "messages": [{"role":"user","content":"Hello"}]}'

参数

参数	类型	必修	默认	描述
`temperature`	人数	不	`0.7`	采样温度。0 = 确定性，2 = 最大随机性。·射程：0 – 2
`top_p`	人数	不	`0.9`	核抽样概率质量。低 = 更专注。·射程：0 – 1
`max_tokens`	人数	不	`4096`	最大输出令牌。·射程：1 – 393216
`stop`	弦	不	-	最多有4串字符串，模型会停止生成更多代币。
`enable_thinking`	布尔值	不	确实如此	在回答之前，先step-by-step理性思考。
`thinking_budget`	人数	不	`32768`	为推理过程保留的最大令牌。到393216。·射程：1 – 393216
`reasoning_effort`	枚举	不	`"medium"`	推理努力程度。没有人能让思考失效。低、中、高和最大设定了根据所选模型大小的有界思维预算。以类似OpenAI的 reasoning_effort 字段形式发送，转换为模型服务的enable_thinking和thinking_budget。·允许：`none`、`low`、`medium`、`high`、`max`
`web_search_linkup`	布尔值	不	错误	可选的网页搜索由Linkup提供。启用后，最近的网页源会通过最新的用户消息作为查询检索，并作为额外上下文提供给模型。在模型正常的代币成本基础上，每个请求都增加了固定$0.013。默认为禁用。
`disable_formatting`	布尔值	不	错误	启用后，网关不会在使用Linkup网页搜索的助理响应中附加“来源”脚部。当模型输出被传输到另一个不需要装饰的系统时，这很有用。

变体

`:variant1`

场地	价值
型号ID	`deepseek-v4-flash:variant1`
车型发布日期	2026-04-24
地区	新加坡
上下文窗口	1M
重量精度	-
最大输出令牌	393,216
特色	理由，web_search
本土推断	不
支持的端点	`POST /v1/chat/completions`，`POST /v1/responses`，`POST /v1/messages`

价格

冲锋	规格	速率
输入	每100万个提示词标记	$0.20
输出	每100万个生成代币	$0.40
网络搜索	启用时每个请求	$0.02

参数

参数	类型	必修	默认	描述
`temperature`	人数	不	`0.7`	采样温度。0 = 确定性，2 = 最大随机性。·射程：0 – 2
`top_p`	人数	不	`0.9`	核抽样概率质量。低 = 更专注。·射程：0 – 1
`max_tokens`	人数	不	`4096`	最大输出令牌。·射程：1 – 393216
`stop`	弦	不	-	最多有4串字符串，模型会停止生成更多代币。
`enable_thinking`	布尔值	不	确实如此	在回答之前，先step-by-step理性思考。
`thinking_budget`	人数	不	`32768`	为推理过程保留的最大令牌。到393216。·射程：1 – 393216
`reasoning_effort`	枚举	不	`"medium"`	推理努力程度。没有人能让思考失效。低、中、高和最大设定了根据所选模型大小的有界思维预算。以类似OpenAI的 reasoning_effort 字段形式发送，转换为模型服务的enable_thinking和thinking_budget。·允许：`none`、`low`、`medium`、`high`、`max`
`tool_web_search`	布尔值	不	错误	启用实时网络搜索。启用时会在请求费用上增加$0.02附加费。

`:variant2`

场地	价值
型号ID	`deepseek-v4-flash:variant2`
车型发布日期	2026-04-24
地区	中国
上下文窗口	1M
重量精度	-
最大输出令牌	384,000
特色	推理、function_calling、快web_search、缓存
本土推断	不
支持的端点	`POST /v1/chat/completions`，`POST /v1/responses`，`POST /v1/messages`

价格

冲锋	规格	速率
输入	每100万个提示词标记	$0.138（曾经$0.14）
输出	每100万个生成代币	$0.275（曾经$0.28）
隐式缓存读取	每 1M 缓存输入标记	$0.028
网络搜索	启用时每个请求	$0.01

参数

参数	类型	必修	默认	描述
`temperature`	人数	不	`0.7`	采样温度。0 = 确定性，2 = 最大随机性。·射程：0 – 2
`top_p`	人数	不	`0.9`	核抽样概率质量。低 = 更专注。·射程：0 – 1
`max_tokens`	人数	不	`4096`	最大输出令牌。·射程：1 – 393216
`stop`	弦	不	-	最多有4串字符串，模型会停止生成更多代币。
`enable_thinking`	布尔值	不	确实如此	在回答之前，先step-by-step理性思考。
`thinking_budget`	人数	不	`32768`	为推理过程保留的最大令牌。到393216。·射程：1 – 393216
`reasoning_effort`	枚举	不	`"medium"`	推理努力程度。没有人能让思考失效。低、中、高和最大设定了根据所选模型大小的有界思维预算。以类似OpenAI的 reasoning_effort 字段形式发送，转换为模型服务的enable_thinking和thinking_budget。·允许：`none`、`low`、`medium`、`high`、`max`
`tool_web_search`	布尔值	不	错误	启用实时网络搜索。启用后会增加$0.01请求费用。

Machine可读模式： GET https://api.empiriolabs.ai/v1/models/deepseek-v4-flash。