DeepSeek V4 Flash | EmpirioLabs AI Docs

DeepSeek · Text Generation

POST /v1/chat/completions

Modèle MoE léger avec 284 B de paramètres totaux / 13 milliards de paramètres actifs et un contexte natif 1M, ajusté pour une utilisation à faible latence et à haute concurrence économique.

En un coup d’œil

Terrain	Valeur
Identifiant de modèle	`deepseek-v4-flash`
Date de sortie du modèle	2026-04-24
Modalités d’entrée	Texte
Modalités de sortie	Texte
Fenêtre de contexte	1M
Précision du poids	-
Jetons de sortie max	393,216
Région	Allemagne
Caractéristiques	Raisonnement
Inférence autochtone	Non
Nouveau	Oui
Points de terminaison pris en charge	`POST /v1/chat/completions`, `POST /v1/responses`, `POST /v1/messages`

Tarification

Charge	Spec	Taux
Entrée	par 1M de jetons d’invite	$0.14
Production	par 1M de jetons générés	$0.28
Recherche Web (Linkup)	par appel lors de l’invocation	$0.013

Exemple de demande

$ curl https://api.empiriolabs.ai/v1/chat/completions \
>   -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
>   -H 'Content-Type: application/json' \
>   -d '{"model": "deepseek-v4-flash", "messages": [{"role":"user","content":"Hello"}]}'

Paramètres

Paramètre	Type	Obligatoire	Par défaut	Description
`temperature`	Nombre	non	`0.7`	Température d’échantillonnage. 0 = déterministe, 2 = aléatoire maximal. · Plage: 0 – 2
`top_p`	Nombre	non	`0.9`	Probabilité d’échantillonnage du noyau, masse. Plus bas = plus concentré. · Répartition: 0 – 1
`max_tokens`	Nombre	non	`4096`	Jetons de sortie maximum. · Répartition: 1 – 393216
`stop`	Corde	non	-	Jusqu’à 4 chaînes où le modèle cesse de générer d’autres jetons.
`enable_thinking`	Booléen	non	Vrai	Activez step-by-step raisonnement avant de répondre.
`thinking_budget`	Nombre	non	`32768`	Le maximum de jetons est réservé au processus de raisonnement. Jusqu’à 393216. · Répartition: 1 – 393216
`reasoning_effort`	enum	non	`"medium"`	Niveau d’effort de raisonnement. Aucun ne décourage la pensée. budgets de pensée limités faible, moyen, élevé et maximal adaptés au modèle sélectionné. Envoyé sous forme de champ reasoning_effort de type OpenAI, traduit en enable_thinking et thinking_budget pour le service modèle. · Autorisé: `none`, `low`, `medium`, `high`, `max`
`web_search_linkup`	Booléen	non	faux	Recherche web optionnelle propulsée par Linkup. Lorsqu’activées, les sources web récentes sont récupérées en utilisant votre dernier message utilisateur comme requête et fournies au modèle comme contexte supplémentaire. Ajoute un $0.013 fixe par requête en plus du coût normal du jeton du modèle. Désactivé par défaut.
`disable_formatting`	Booléen	non	faux	Une fois activée, la passerelle n’ajoutera pas le pied de page « Sources » aux réponses des assistants ayant utilisé la recherche web Linkup. Utile lorsque la sortie du modèle est canalisée vers un autre système qui n’attend aucune décoration.

Variantes

`:variant1`

Terrain	Valeur
Identifiant de modèle	`deepseek-v4-flash:variant1`
Date de sortie du modèle	2026-04-24
Région	Singapour
Fenêtre de contexte	1M
Précision du poids	-
Jetons de sortie max	393,216
Caractéristiques	raisonnement, web_search
Inférence autochtone	Non
Points de terminaison pris en charge	`POST /v1/chat/completions`, `POST /v1/responses`, `POST /v1/messages`

Prix

Charge	Spec	Taux
Entrée	par 1M de jetons d’invite	$0.20
Production	par 1M de jetons générés	$0.40
Recherche web	par requête lorsqu’activé	$0.02

Paramètres

Paramètre	Type	Obligatoire	Par défaut	Description
`temperature`	Nombre	non	`0.7`	Température d’échantillonnage. 0 = déterministe, 2 = aléatoire maximal. · Plage: 0 – 2
`top_p`	Nombre	non	`0.9`	Probabilité d’échantillonnage du noyau, masse. Plus bas = plus concentré. · Répartition: 0 – 1
`max_tokens`	Nombre	non	`4096`	Jetons de sortie maximum. · Répartition: 1 – 393216
`stop`	Corde	non	-	Jusqu’à 4 chaînes où le modèle cesse de générer d’autres jetons.
`enable_thinking`	Booléen	non	Vrai	Activez step-by-step raisonnement avant de répondre.
`thinking_budget`	Nombre	non	`32768`	Le maximum de jetons est réservé au processus de raisonnement. Jusqu’à 393216. · Répartition: 1 – 393216
`reasoning_effort`	enum	non	`"medium"`	Niveau d’effort de raisonnement. Aucun ne décourage la pensée. budgets de pensée limités faible, moyen, élevé et maximal adaptés au modèle sélectionné. Envoyé sous forme de champ reasoning_effort de type OpenAI, traduit en enable_thinking et thinking_budget pour le service modèle. · Autorisé: `none`, `low`, `medium`, `high`, `max`
`tool_web_search`	Booléen	non	faux	Activez la recherche web en direct. Ajoute une surcharge $0.02 au coût de la requête lorsqu’il est activé.

`:variant2`

Terrain	Valeur
Identifiant de modèle	`deepseek-v4-flash:variant2`
Date de sortie du modèle	2026-04-24
Région	Chine
Fenêtre de contexte	1M
Précision du poids	-
Jetons de sortie max	384,000
Caractéristiques	Raisonnement, function_calling, web_search, cache
Inférence autochtone	Non
Points de terminaison pris en charge	`POST /v1/chat/completions`, `POST /v1/responses`, `POST /v1/messages`

Prix

Charge	Spec	Taux
Entrée	par 1M de jetons d’invite	$0.138 (était $0.14)
Production	par 1M de jetons générés	$0.275 (était $0.28)
Lecture implicite du cache	par 1M de jetons d’entrée mis en cache	$0.028
Recherche web	par requête lorsqu’activé	$0.01

Paramètres

Paramètre	Type	Obligatoire	Par défaut	Description
`temperature`	Nombre	non	`0.7`	Température d’échantillonnage. 0 = déterministe, 2 = aléatoire maximal. · Plage: 0 – 2
`top_p`	Nombre	non	`0.9`	Probabilité d’échantillonnage du noyau, masse. Plus bas = plus concentré. · Répartition: 0 – 1
`max_tokens`	Nombre	non	`4096`	Jetons de sortie maximum. · Répartition: 1 – 393216
`stop`	Corde	non	-	Jusqu’à 4 chaînes où le modèle cesse de générer d’autres jetons.
`enable_thinking`	Booléen	non	Vrai	Activez step-by-step raisonnement avant de répondre.
`thinking_budget`	Nombre	non	`32768`	Le maximum de jetons est réservé au processus de raisonnement. Jusqu’à 393216. · Répartition: 1 – 393216
`reasoning_effort`	enum	non	`"medium"`	Niveau d’effort de raisonnement. Aucun ne décourage la pensée. budgets de pensée limités faible, moyen, élevé et maximal adaptés au modèle sélectionné. Envoyé sous forme de champ reasoning_effort de type OpenAI, traduit en enable_thinking et thinking_budget pour le service modèle. · Autorisé: `none`, `low`, `medium`, `high`, `max`
`tool_web_search`	Booléen	non	faux	Activez la recherche web en direct. Ajoute $0.01 au coût de la requête lorsqu’il est activé.

_Machine schéma lisible: _ GET https://api.empiriolabs.ai/v1/models/deepseek-v4-flash.