DeepSeek V4 Flash

DeepSeek · Text Generation
POST /v1/chat/completionsLeichtes MoE-Modell mit insgesamt 284 Milliarden / 13 Milliarden aktiven Parametern und nativem 1M Kontext, abgestimmt auf eine niedrige Latenz und kosteneffiziente Nutzung mit hoher Nebenläufigkeit.
Auf einen Blick
| Spielfeld | Wert |
|---|---|
| Modell-ID | deepseek-v4-flash |
| Modell-Veröffentlichungsdatum | 2026-04-24 |
| Eingabemodalitäten | Text |
| Ausgabemodalitäten | Text |
| Kontextfenster | 1M |
| Gewichtspräzision | - |
| Maximale Ausgabetoken | 393,216 |
| Region | Deutschland |
| Merkmale | Begründung |
| Native Schlussfolgerung | Nein |
| Neu | Ja |
| Unterstützte Endpunkte | POST /v1/chat/completions, POST /v1/responses, POST /v1/messages |
Preisgestaltung
| Berechnen | Spezifikation | Zinssatz |
|---|---|---|
| Eingabe | pro 1M Prompt-Token | $0.14 |
| Ausgabe | pro 1 Million generierter Token | $0.28 |
| Websuche (Linkup) | pro Aufruf beim Aufruf | $0.013 |
Beispielanfrage
$ curl https://api.empiriolabs.ai/v1/chat/completions \ > -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \ > -H 'Content-Type: application/json' \ > -d '{"model": "deepseek-v4-flash", "messages": [{"role":"user","content":"Hello"}]}'
Parameter
| Parameter | Typ | Erforderlich | Default | Beschreibung |
|---|---|---|---|---|
temperature | Anzahl | Nein | 0.7 | Temperatur wird geprochen. 0 = deterministisch, 2 = maximale Zufälligkeit. · Reichweite: 0 – 2 |
top_p | Anzahl | Nein | 0.9 | Kernprobenwahrscheinlichkeitsmasse. Niedriger = fokussierter. · Reichweite: 0 – 1 |
max_tokens | Anzahl | Nein | 4096 | Maximale Ausgabe-Token. · Reichweite: 1 – 393216 |
stop | String | Nein | - | Bis zu 4 Zeichenketten, bei denen das Modell aufhört, weitere Token zu generieren. |
enable_thinking | Boolean | Nein | Stimmt | Aktiviere step-by-step Argumentation, bevor du antwortest. |
thinking_budget | Anzahl | Nein | 32768 | Maximale Token, die für den Schlussfolgerungsprozess reserviert sind. Bis 393216. · Reichweite: 1 – 393216 |
reasoning_effort | ENUM | Nein | "medium" | Der Aufwand des Schlussfolgerungsaufwands. Keiner verhindert das Denken. Niedrige, mittlere, hohe und maximale begrenzte Denkbudgets, die auf das gewählte Modell zugeschnitten sind. Gesendet als OpenAI-ähnliches reasoning_effort Feld, übersetzt in enable_thinking und thinking_budget für den Modelldienst. · Erlaubt: none, low, medium, high, max |
web_search_linkup | Boolean | Nein | falsch | Optionale Websuche, betrieben von Linkup. Wenn aktiviert, werden aktuelle Webquellen mit Ihrer neuesten Benutzernachricht als Abfrage abgerufen und dem Modell als zusätzlicher Kontext bereitgestellt. Fügt pro Anfrage ein festes $0.013 zu den normalen Tokenkosten des Modells hinzu. Standardmäßig deaktiviert. |
disable_formatting | Boolean | Nein | falsch | Wenn aktiviert, fügt das Gateway den “Sources”-Footer nicht an Assistant-Antworten an, die die Linkup-Websuche verwendet haben. Nützlich, wenn die Modellausgabe an ein anderes System weitergeleitet wird, das keine Dekoration erwartet. |
Varianten
:variant1
| Spielfeld | Wert |
|---|---|
| Modell-ID | deepseek-v4-flash:variant1 |
| Modell-Veröffentlichungsdatum | 2026-04-24 |
| Region | Singapur |
| Kontextfenster | 1M |
| Gewichtspräzision | - |
| Maximale Ausgabetoken | 393,216 |
| Merkmale | Begründung, web_search |
| Native Schlussfolgerung | Nein |
| Unterstützte Endpunkte | POST /v1/chat/completions, POST /v1/responses, POST /v1/messages |
Preisgestaltung
| Berechnen | Spezifikation | Zinssatz |
|---|---|---|
| Eingabe | pro 1M Prompt-Token | $0.20 |
| Ausgabe | pro 1 Million generierter Token | $0.40 |
| Websuche | pro Anfrage, wenn aktiviert | $0.02 |
Parameter
| Parameter | Typ | Erforderlich | Default | Beschreibung |
|---|---|---|---|---|
temperature | Anzahl | Nein | 0.7 | Temperatur wird geprochen. 0 = deterministisch, 2 = maximale Zufälligkeit. · Reichweite: 0 – 2 |
top_p | Anzahl | Nein | 0.9 | Kernprobenwahrscheinlichkeitsmasse. Niedriger = fokussierter. · Reichweite: 0 – 1 |
max_tokens | Anzahl | Nein | 4096 | Maximale Ausgabe-Token. · Reichweite: 1 – 393216 |
stop | String | Nein | - | Bis zu 4 Zeichenketten, bei denen das Modell aufhört, weitere Token zu generieren. |
enable_thinking | Boolean | Nein | Stimmt | Aktiviere step-by-step Argumentation, bevor du antwortest. |
thinking_budget | Anzahl | Nein | 32768 | Maximale Token, die für den Schlussfolgerungsprozess reserviert sind. Bis 393216. · Reichweite: 1 – 393216 |
reasoning_effort | ENUM | Nein | "medium" | Der Aufwand des Schlussfolgerungsaufwands. Keiner verhindert das Denken. Niedrige, mittlere, hohe und maximale begrenzte Denkbudgets, die auf das gewählte Modell zugeschnitten sind. Gesendet als OpenAI-ähnliches reasoning_effort Feld, übersetzt in enable_thinking und thinking_budget für den Modelldienst. · Erlaubt: none, low, medium, high, max |
tool_web_search | Boolean | Nein | falsch | Aktivieren Sie die Live-Websuche. Fügt beim Aktivieren eine $0.02 Zuschlag auf die Anfragekosten hinzu. |
:variant2
| Spielfeld | Wert |
|---|---|
| Modell-ID | deepseek-v4-flash:variant2 |
| Modell-Veröffentlichungsdatum | 2026-04-24 |
| Region | China |
| Kontextfenster | 1M |
| Gewichtspräzision | - |
| Maximale Ausgabetoken | 384,000 |
| Merkmale | Begründung, function_calling, web_search, Cache |
| Native Schlussfolgerung | Nein |
| Unterstützte Endpunkte | POST /v1/chat/completions, POST /v1/responses, POST /v1/messages |
Preisgestaltung
| Berechnen | Spezifikation | Zinssatz |
|---|---|---|
| Eingabe | pro 1M Prompt-Token | $0.138 (war $0.14) |
| Ausgabe | pro 1 Million generierter Token | $0.275 (war $0.28) |
| Implizite Cache-Leseart | pro 1M zwischengespeicherten Eingabetoken | $0.028 |
| Websuche | pro Anfrage, wenn aktiviert | $0.01 |
Parameter
| Parameter | Typ | Erforderlich | Default | Beschreibung |
|---|---|---|---|---|
temperature | Anzahl | Nein | 0.7 | Temperatur wird geprochen. 0 = deterministisch, 2 = maximale Zufälligkeit. · Reichweite: 0 – 2 |
top_p | Anzahl | Nein | 0.9 | Kernprobenwahrscheinlichkeitsmasse. Niedriger = fokussierter. · Reichweite: 0 – 1 |
max_tokens | Anzahl | Nein | 4096 | Maximale Ausgabe-Token. · Reichweite: 1 – 393216 |
stop | String | Nein | - | Bis zu 4 Zeichenketten, bei denen das Modell aufhört, weitere Token zu generieren. |
enable_thinking | Boolean | Nein | Stimmt | Aktiviere step-by-step Argumentation, bevor du antwortest. |
thinking_budget | Anzahl | Nein | 32768 | Maximale Token, die für den Schlussfolgerungsprozess reserviert sind. Bis 393216. · Reichweite: 1 – 393216 |
reasoning_effort | ENUM | Nein | "medium" | Der Aufwand des Schlussfolgerungsaufwands. Keiner verhindert das Denken. Niedrige, mittlere, hohe und maximale begrenzte Denkbudgets, die auf das gewählte Modell zugeschnitten sind. Gesendet als OpenAI-ähnliches reasoning_effort Feld, übersetzt in enable_thinking und thinking_budget für den Modelldienst. · Erlaubt: none, low, medium, high, max |
tool_web_search | Boolean | Nein | falsch | Aktivieren Sie die Live-Websuche. Das erhöht $0.01 auf die Anforderungskosten, wenn es aktiviert ist. |
Machine-lesbares Schema: GET https://api.empiriolabs.ai/v1/models/deepseek-v4-flash.
