DeepSeek V4 Flash | EmpirioLabs AI Docs

DeepSeek · Text Generation

POST /v1/chat/completions

Leichtes MoE-Modell mit insgesamt 284 Milliarden / 13 Milliarden aktiven Parametern und nativem 1M Kontext, abgestimmt auf eine niedrige Latenz und kosteneffiziente Nutzung mit hoher Nebenläufigkeit.

Auf einen Blick

Spielfeld	Wert
Modell-ID	`deepseek-v4-flash`
Modell-Veröffentlichungsdatum	2026-04-24
Eingabemodalitäten	Text
Ausgabemodalitäten	Text
Kontextfenster	1M
Gewichtspräzision	-
Maximale Ausgabetoken	393,216
Region	Deutschland
Merkmale	Begründung
Native Schlussfolgerung	Nein
Neu	Ja
Unterstützte Endpunkte	`POST /v1/chat/completions`, `POST /v1/responses`, `POST /v1/messages`

Preisgestaltung

Berechnen	Spezifikation	Zinssatz
Eingabe	pro 1M Prompt-Token	$0.14
Ausgabe	pro 1 Million generierter Token	$0.28
Websuche (Linkup)	pro Aufruf beim Aufruf	$0.013

Beispielanfrage

$ curl https://api.empiriolabs.ai/v1/chat/completions \
>   -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
>   -H 'Content-Type: application/json' \
>   -d '{"model": "deepseek-v4-flash", "messages": [{"role":"user","content":"Hello"}]}'

Parameter

Parameter	Typ	Erforderlich	Default	Beschreibung
`temperature`	Anzahl	Nein	`0.7`	Temperatur wird geprochen. 0 = deterministisch, 2 = maximale Zufälligkeit. · Reichweite: 0 – 2
`top_p`	Anzahl	Nein	`0.9`	Kernprobenwahrscheinlichkeitsmasse. Niedriger = fokussierter. · Reichweite: 0 – 1
`max_tokens`	Anzahl	Nein	`4096`	Maximale Ausgabe-Token. · Reichweite: 1 – 393216
`stop`	String	Nein	-	Bis zu 4 Zeichenketten, bei denen das Modell aufhört, weitere Token zu generieren.
`enable_thinking`	Boolean	Nein	Stimmt	Aktiviere step-by-step Argumentation, bevor du antwortest.
`thinking_budget`	Anzahl	Nein	`32768`	Maximale Token, die für den Schlussfolgerungsprozess reserviert sind. Bis 393216. · Reichweite: 1 – 393216
`reasoning_effort`	ENUM	Nein	`"medium"`	Der Aufwand des Schlussfolgerungsaufwands. Keiner verhindert das Denken. Niedrige, mittlere, hohe und maximale begrenzte Denkbudgets, die auf das gewählte Modell zugeschnitten sind. Gesendet als OpenAI-ähnliches reasoning_effort Feld, übersetzt in enable_thinking und thinking_budget für den Modelldienst. · Erlaubt: `none`, `low`, `medium`, `high`, `max`
`web_search_linkup`	Boolean	Nein	falsch	Optionale Websuche, betrieben von Linkup. Wenn aktiviert, werden aktuelle Webquellen mit Ihrer neuesten Benutzernachricht als Abfrage abgerufen und dem Modell als zusätzlicher Kontext bereitgestellt. Fügt pro Anfrage ein festes $0.013 zu den normalen Tokenkosten des Modells hinzu. Standardmäßig deaktiviert.
`disable_formatting`	Boolean	Nein	falsch	Wenn aktiviert, fügt das Gateway den “Sources”-Footer nicht an Assistant-Antworten an, die die Linkup-Websuche verwendet haben. Nützlich, wenn die Modellausgabe an ein anderes System weitergeleitet wird, das keine Dekoration erwartet.

Varianten

`:variant1`

Spielfeld	Wert
Modell-ID	`deepseek-v4-flash:variant1`
Modell-Veröffentlichungsdatum	2026-04-24
Region	Singapur
Kontextfenster	1M
Gewichtspräzision	-
Maximale Ausgabetoken	393,216
Merkmale	Begründung, web_search
Native Schlussfolgerung	Nein
Unterstützte Endpunkte	`POST /v1/chat/completions`, `POST /v1/responses`, `POST /v1/messages`

Preisgestaltung

Berechnen	Spezifikation	Zinssatz
Eingabe	pro 1M Prompt-Token	$0.20
Ausgabe	pro 1 Million generierter Token	$0.40
Websuche	pro Anfrage, wenn aktiviert	$0.02

Parameter

Parameter	Typ	Erforderlich	Default	Beschreibung
`temperature`	Anzahl	Nein	`0.7`	Temperatur wird geprochen. 0 = deterministisch, 2 = maximale Zufälligkeit. · Reichweite: 0 – 2
`top_p`	Anzahl	Nein	`0.9`	Kernprobenwahrscheinlichkeitsmasse. Niedriger = fokussierter. · Reichweite: 0 – 1
`max_tokens`	Anzahl	Nein	`4096`	Maximale Ausgabe-Token. · Reichweite: 1 – 393216
`stop`	String	Nein	-	Bis zu 4 Zeichenketten, bei denen das Modell aufhört, weitere Token zu generieren.
`enable_thinking`	Boolean	Nein	Stimmt	Aktiviere step-by-step Argumentation, bevor du antwortest.
`thinking_budget`	Anzahl	Nein	`32768`	Maximale Token, die für den Schlussfolgerungsprozess reserviert sind. Bis 393216. · Reichweite: 1 – 393216
`reasoning_effort`	ENUM	Nein	`"medium"`	Der Aufwand des Schlussfolgerungsaufwands. Keiner verhindert das Denken. Niedrige, mittlere, hohe und maximale begrenzte Denkbudgets, die auf das gewählte Modell zugeschnitten sind. Gesendet als OpenAI-ähnliches reasoning_effort Feld, übersetzt in enable_thinking und thinking_budget für den Modelldienst. · Erlaubt: `none`, `low`, `medium`, `high`, `max`
`tool_web_search`	Boolean	Nein	falsch	Aktivieren Sie die Live-Websuche. Fügt beim Aktivieren eine $0.02 Zuschlag auf die Anfragekosten hinzu.

`:variant2`

Spielfeld	Wert
Modell-ID	`deepseek-v4-flash:variant2`
Modell-Veröffentlichungsdatum	2026-04-24
Region	China
Kontextfenster	1M
Gewichtspräzision	-
Maximale Ausgabetoken	384,000
Merkmale	Begründung, function_calling, web_search, Cache
Native Schlussfolgerung	Nein
Unterstützte Endpunkte	`POST /v1/chat/completions`, `POST /v1/responses`, `POST /v1/messages`

Preisgestaltung

Berechnen	Spezifikation	Zinssatz
Eingabe	pro 1M Prompt-Token	$0.138 (war $0.14)
Ausgabe	pro 1 Million generierter Token	$0.275 (war $0.28)
Implizite Cache-Leseart	pro 1M zwischengespeicherten Eingabetoken	$0.028
Websuche	pro Anfrage, wenn aktiviert	$0.01

Parameter

Parameter	Typ	Erforderlich	Default	Beschreibung
`temperature`	Anzahl	Nein	`0.7`	Temperatur wird geprochen. 0 = deterministisch, 2 = maximale Zufälligkeit. · Reichweite: 0 – 2
`top_p`	Anzahl	Nein	`0.9`	Kernprobenwahrscheinlichkeitsmasse. Niedriger = fokussierter. · Reichweite: 0 – 1
`max_tokens`	Anzahl	Nein	`4096`	Maximale Ausgabe-Token. · Reichweite: 1 – 393216
`stop`	String	Nein	-	Bis zu 4 Zeichenketten, bei denen das Modell aufhört, weitere Token zu generieren.
`enable_thinking`	Boolean	Nein	Stimmt	Aktiviere step-by-step Argumentation, bevor du antwortest.
`thinking_budget`	Anzahl	Nein	`32768`	Maximale Token, die für den Schlussfolgerungsprozess reserviert sind. Bis 393216. · Reichweite: 1 – 393216
`reasoning_effort`	ENUM	Nein	`"medium"`	Der Aufwand des Schlussfolgerungsaufwands. Keiner verhindert das Denken. Niedrige, mittlere, hohe und maximale begrenzte Denkbudgets, die auf das gewählte Modell zugeschnitten sind. Gesendet als OpenAI-ähnliches reasoning_effort Feld, übersetzt in enable_thinking und thinking_budget für den Modelldienst. · Erlaubt: `none`, `low`, `medium`, `high`, `max`
`tool_web_search`	Boolean	Nein	falsch	Aktivieren Sie die Live-Websuche. Das erhöht $0.01 auf die Anforderungskosten, wenn es aktiviert ist.

Machine-lesbares Schema: GET https://api.empiriolabs.ai/v1/models/deepseek-v4-flash.