DeepSeek V4 Flash

DeepSeek · Text Generation
POST /v1/chat/completionsModèle MoE léger avec 284 B de paramètres totaux / 13 milliards de paramètres actifs et un contexte natif 1M, ajusté pour une utilisation à faible latence et à haute concurrence économique.
En un coup d’œil
| Terrain | Valeur |
|---|---|
| Identifiant de modèle | deepseek-v4-flash |
| Date de sortie du modèle | 2026-04-24 |
| Modalités d’entrée | Texte |
| Modalités de sortie | Texte |
| Fenêtre de contexte | 1M |
| Précision du poids | - |
| Jetons de sortie max | 393,216 |
| Région | Allemagne |
| Caractéristiques | Raisonnement |
| Inférence autochtone | Non |
| Nouveau | Oui |
| Points de terminaison pris en charge | POST /v1/chat/completions, POST /v1/responses, POST /v1/messages |
Tarification
| Charge | Spec | Taux |
|---|---|---|
| Entrée | par 1M de jetons d’invite | $0.14 |
| Production | par 1M de jetons générés | $0.28 |
| Recherche Web (Linkup) | par appel lors de l’invocation | $0.013 |
Exemple de demande
$ curl https://api.empiriolabs.ai/v1/chat/completions \ > -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \ > -H 'Content-Type: application/json' \ > -d '{"model": "deepseek-v4-flash", "messages": [{"role":"user","content":"Hello"}]}'
Paramètres
| Paramètre | Type | Obligatoire | Par défaut | Description |
|---|---|---|---|---|
temperature | Nombre | non | 0.7 | Température d’échantillonnage. 0 = déterministe, 2 = aléatoire maximal. · Plage: 0 – 2 |
top_p | Nombre | non | 0.9 | Probabilité d’échantillonnage du noyau, masse. Plus bas = plus concentré. · Répartition: 0 – 1 |
max_tokens | Nombre | non | 4096 | Jetons de sortie maximum. · Répartition: 1 – 393216 |
stop | Corde | non | - | Jusqu’à 4 chaînes où le modèle cesse de générer d’autres jetons. |
enable_thinking | Booléen | non | Vrai | Activez step-by-step raisonnement avant de répondre. |
thinking_budget | Nombre | non | 32768 | Le maximum de jetons est réservé au processus de raisonnement. Jusqu’à 393216. · Répartition: 1 – 393216 |
reasoning_effort | enum | non | "medium" | Niveau d’effort de raisonnement. Aucun ne décourage la pensée. budgets de pensée limités faible, moyen, élevé et maximal adaptés au modèle sélectionné. Envoyé sous forme de champ reasoning_effort de type OpenAI, traduit en enable_thinking et thinking_budget pour le service modèle. · Autorisé: none, low, medium, high, max |
web_search_linkup | Booléen | non | faux | Recherche web optionnelle propulsée par Linkup. Lorsqu’activées, les sources web récentes sont récupérées en utilisant votre dernier message utilisateur comme requête et fournies au modèle comme contexte supplémentaire. Ajoute un $0.013 fixe par requête en plus du coût normal du jeton du modèle. Désactivé par défaut. |
disable_formatting | Booléen | non | faux | Une fois activée, la passerelle n’ajoutera pas le pied de page « Sources » aux réponses des assistants ayant utilisé la recherche web Linkup. Utile lorsque la sortie du modèle est canalisée vers un autre système qui n’attend aucune décoration. |
Variantes
:variant1
| Terrain | Valeur |
|---|---|
| Identifiant de modèle | deepseek-v4-flash:variant1 |
| Date de sortie du modèle | 2026-04-24 |
| Région | Singapour |
| Fenêtre de contexte | 1M |
| Précision du poids | - |
| Jetons de sortie max | 393,216 |
| Caractéristiques | raisonnement, web_search |
| Inférence autochtone | Non |
| Points de terminaison pris en charge | POST /v1/chat/completions, POST /v1/responses, POST /v1/messages |
Prix
| Charge | Spec | Taux |
|---|---|---|
| Entrée | par 1M de jetons d’invite | $0.20 |
| Production | par 1M de jetons générés | $0.40 |
| Recherche web | par requête lorsqu’activé | $0.02 |
Paramètres
| Paramètre | Type | Obligatoire | Par défaut | Description |
|---|---|---|---|---|
temperature | Nombre | non | 0.7 | Température d’échantillonnage. 0 = déterministe, 2 = aléatoire maximal. · Plage: 0 – 2 |
top_p | Nombre | non | 0.9 | Probabilité d’échantillonnage du noyau, masse. Plus bas = plus concentré. · Répartition: 0 – 1 |
max_tokens | Nombre | non | 4096 | Jetons de sortie maximum. · Répartition: 1 – 393216 |
stop | Corde | non | - | Jusqu’à 4 chaînes où le modèle cesse de générer d’autres jetons. |
enable_thinking | Booléen | non | Vrai | Activez step-by-step raisonnement avant de répondre. |
thinking_budget | Nombre | non | 32768 | Le maximum de jetons est réservé au processus de raisonnement. Jusqu’à 393216. · Répartition: 1 – 393216 |
reasoning_effort | enum | non | "medium" | Niveau d’effort de raisonnement. Aucun ne décourage la pensée. budgets de pensée limités faible, moyen, élevé et maximal adaptés au modèle sélectionné. Envoyé sous forme de champ reasoning_effort de type OpenAI, traduit en enable_thinking et thinking_budget pour le service modèle. · Autorisé: none, low, medium, high, max |
tool_web_search | Booléen | non | faux | Activez la recherche web en direct. Ajoute une surcharge $0.02 au coût de la requête lorsqu’il est activé. |
:variant2
| Terrain | Valeur |
|---|---|
| Identifiant de modèle | deepseek-v4-flash:variant2 |
| Date de sortie du modèle | 2026-04-24 |
| Région | Chine |
| Fenêtre de contexte | 1M |
| Précision du poids | - |
| Jetons de sortie max | 384,000 |
| Caractéristiques | Raisonnement, function_calling, web_search, cache |
| Inférence autochtone | Non |
| Points de terminaison pris en charge | POST /v1/chat/completions, POST /v1/responses, POST /v1/messages |
Prix
| Charge | Spec | Taux |
|---|---|---|
| Entrée | par 1M de jetons d’invite | $0.138 (était $0.14) |
| Production | par 1M de jetons générés | $0.275 (était $0.28) |
| Lecture implicite du cache | par 1M de jetons d’entrée mis en cache | $0.028 |
| Recherche web | par requête lorsqu’activé | $0.01 |
Paramètres
| Paramètre | Type | Obligatoire | Par défaut | Description |
|---|---|---|---|---|
temperature | Nombre | non | 0.7 | Température d’échantillonnage. 0 = déterministe, 2 = aléatoire maximal. · Plage: 0 – 2 |
top_p | Nombre | non | 0.9 | Probabilité d’échantillonnage du noyau, masse. Plus bas = plus concentré. · Répartition: 0 – 1 |
max_tokens | Nombre | non | 4096 | Jetons de sortie maximum. · Répartition: 1 – 393216 |
stop | Corde | non | - | Jusqu’à 4 chaînes où le modèle cesse de générer d’autres jetons. |
enable_thinking | Booléen | non | Vrai | Activez step-by-step raisonnement avant de répondre. |
thinking_budget | Nombre | non | 32768 | Le maximum de jetons est réservé au processus de raisonnement. Jusqu’à 393216. · Répartition: 1 – 393216 |
reasoning_effort | enum | non | "medium" | Niveau d’effort de raisonnement. Aucun ne décourage la pensée. budgets de pensée limités faible, moyen, élevé et maximal adaptés au modèle sélectionné. Envoyé sous forme de champ reasoning_effort de type OpenAI, traduit en enable_thinking et thinking_budget pour le service modèle. · Autorisé: none, low, medium, high, max |
tool_web_search | Booléen | non | faux | Activez la recherche web en direct. Ajoute $0.01 au coût de la requête lorsqu’il est activé. |
_Machine schéma lisible: _ GET https://api.empiriolabs.ai/v1/models/deepseek-v4-flash.
