DeepSeek V4 Flash

DeepSeek · Text Generation
POST /v1/chat/completionsModelo MoE leve com 284B totais / 13B parâmetros ativos e contexto nativo de 1M, ajustado para baixa latência e uso econômico e alta concorrência.
De um olhar
| Campo | Valor |
|---|---|
| ID do modelo | deepseek-v4-flash |
| Data de lançamento do modelo | 2026-04-24 |
| Modalidades de entrada | Texto |
| Modalidades de saída | Texto |
| Janela de contexto | 1M |
| Precisão do peso | - |
| Tokens de saída máxima | 393,216 |
| Região | Alemanha |
| Características | Raciocínio |
| Inferência nativa | Não |
| Novo | Sim |
| Endpoints suportados | POST /v1/chat/completions, POST /v1/responses, POST /v1/messages |
Precificação
| Carga | Especificação | Taxa |
|---|---|---|
| Entrada | por 1M de tokens de prompt | $0.14 |
| Produção | por 1M de tokens gerados | $0.28 |
| Busca na Web (Linkup) | por chamada quando invocada | $0.013 |
Exemplo de pedido
$ curl https://api.empiriolabs.ai/v1/chat/completions \ > -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \ > -H 'Content-Type: application/json' \ > -d '{"model": "deepseek-v4-flash", "messages": [{"role":"user","content":"Hello"}]}'
Parâmetros
| Parâmetro | Tipo | Obrigatório | Padrão | Descrição |
|---|---|---|---|---|
temperature | Número | Não | 0.7 | Temperatura de amostragem. 0 = determinística, 2 = aleatoriedade máxima. · Intervalo: 0 – 2 |
top_p | Número | Não | 0.9 | Amostragem do núcleo com a probabilidade de massa. Menor = mais focado. · Intervalo: 0 – 1 |
max_tokens | Número | Não | 4096 | Tokens de saída máximos. · Intervalo: 1 – 393216 |
stop | String | Não | - | Até 4 strings em que o modelo para de gerar mais tokens. |
enable_thinking | Booleano | Não | Verdade | Ative step-by-step raciocínio antes de responder. |
thinking_budget | Número | Não | 32768 | Tokens máximos reservados para o processo de raciocínio. Até 393216. · Intervalo: 1 – 393216 |
reasoning_effort | enum | Não | "medium" | Nível de esforço de raciocínio. Nenhum impede o pensamento. orçamentos limitados de pensamento de conjuntos baixos, médios, altos e máximos, dimensionados para o modelo selecionado. Enviado como um campo de reasoning_effort estilo OpenAI, traduzido em enable_thinking e thinking_budget para o serviço modelo. · Permitido: none, low, medium, high, max |
web_search_linkup | Booleano | Não | falso | Busca opcional na web alimentada pelo Linkup. Quando ativadas, fontes web recentes são recuperadas usando sua última mensagem de usuário como consulta e fornecidas ao modelo como contexto adicional. Adiciona uma $0.013 fixa por requisição além do custo normal do token do modelo. Desativado por padrão. |
disable_formatting | Booleano | Não | falso | Quando ativado, o gateway não adiciona o rodapé “Fontes” às respostas assistentes que usaram busca web do Linkup. Útil quando a saída do modelo é canalizada para outro sistema que não espera decoração. |
Variantes
:variant1
| Campo | Valor |
|---|---|
| ID do modelo | deepseek-v4-flash:variant1 |
| Data de lançamento do modelo | 2026-04-24 |
| Região | Singapura |
| Janela de contexto | 1M |
| Precisão do peso | - |
| Tokens de saída máxima | 393,216 |
| Características | Raciocínio, web_search |
| Inferência nativa | Não |
| Endpoints suportados | POST /v1/chat/completions, POST /v1/responses, POST /v1/messages |
Preço
| Carga | Especificação | Taxa |
|---|---|---|
| Entrada | por 1M de tokens de prompt | $0.20 |
| Produção | por 1M de tokens gerados | $0.40 |
| Busca na web | por requisição quando ativado | $0.02 |
Parâmetros
| Parâmetro | Tipo | Obrigatório | Padrão | Descrição |
|---|---|---|---|---|
temperature | Número | Não | 0.7 | Temperatura de amostragem. 0 = determinística, 2 = aleatoriedade máxima. · Intervalo: 0 – 2 |
top_p | Número | Não | 0.9 | Amostragem do núcleo com a probabilidade de massa. Menor = mais focado. · Intervalo: 0 – 1 |
max_tokens | Número | Não | 4096 | Tokens de saída máximos. · Intervalo: 1 – 393216 |
stop | String | Não | - | Até 4 strings em que o modelo para de gerar mais tokens. |
enable_thinking | Booleano | Não | Verdade | Ative step-by-step raciocínio antes de responder. |
thinking_budget | Número | Não | 32768 | Tokens máximos reservados para o processo de raciocínio. Até 393216. · Intervalo: 1 – 393216 |
reasoning_effort | enum | Não | "medium" | Nível de esforço de raciocínio. Nenhum impede o pensamento. orçamentos limitados de pensamento de conjuntos baixos, médios, altos e máximos, dimensionados para o modelo selecionado. Enviado como um campo de reasoning_effort estilo OpenAI, traduzido em enable_thinking e thinking_budget para o serviço modelo. · Permitido: none, low, medium, high, max |
tool_web_search | Booleano | Não | falso | Ative a busca ao vivo na web. Adiciona uma sobretaxa $0.02 ao custo da solicitação quando ativado. |
:variant2
| Campo | Valor |
|---|---|
| ID do modelo | deepseek-v4-flash:variant2 |
| Data de lançamento do modelo | 2026-04-24 |
| Região | China |
| Janela de contexto | 1M |
| Precisão do peso | - |
| Tokens de saída máxima | 384,000 |
| Características | Raciocínio, function_calling, web_search, cache |
| Inferência nativa | Não |
| Endpoints suportados | POST /v1/chat/completions, POST /v1/responses, POST /v1/messages |
Preço
| Carga | Especificação | Taxa |
|---|---|---|
| Entrada | por 1M de tokens de prompt | $0.138 (era $0.14) |
| Produção | por 1M de tokens gerados | $0.275 (era $0.28) |
| Leitura implícita do cache | por 1M de tokens de entrada cacheados | $0.028 |
| Busca na web | por requisição quando ativado | $0.01 |
Parâmetros
| Parâmetro | Tipo | Obrigatório | Padrão | Descrição |
|---|---|---|---|---|
temperature | Número | Não | 0.7 | Temperatura de amostragem. 0 = determinística, 2 = aleatoriedade máxima. · Intervalo: 0 – 2 |
top_p | Número | Não | 0.9 | Amostragem do núcleo com a probabilidade de massa. Menor = mais focado. · Intervalo: 0 – 1 |
max_tokens | Número | Não | 4096 | Tokens de saída máximos. · Intervalo: 1 – 393216 |
stop | String | Não | - | Até 4 strings em que o modelo para de gerar mais tokens. |
enable_thinking | Booleano | Não | Verdade | Ative step-by-step raciocínio antes de responder. |
thinking_budget | Número | Não | 32768 | Tokens máximos reservados para o processo de raciocínio. Até 393216. · Intervalo: 1 – 393216 |
reasoning_effort | enum | Não | "medium" | Nível de esforço de raciocínio. Nenhum impede o pensamento. orçamentos limitados de pensamento de conjuntos baixos, médios, altos e máximos, dimensionados para o modelo selecionado. Enviado como um campo de reasoning_effort estilo OpenAI, traduzido em enable_thinking e thinking_budget para o serviço modelo. · Permitido: none, low, medium, high, max |
tool_web_search | Booleano | Não | falso | Ative a busca ao vivo na web. Adiciona $0.01 ao custo da solicitação quando ativado. |
Machine esquema legível: GET https://api.empiriolabs.ai/v1/models/deepseek-v4-flash.
