DeepSeek V4 Flash | EmpirioLabs AI Docs

DeepSeek · Text Generation

POST /v1/chat/completions

軽量なMoEモデルは、合計284B、アクティブパラメータ13B、ネイティブ1Mコンテキストを持ち、低レイテンシでコスト効率の高い高並行利用に最適化されています。

一目で

フィールド	価値
モデルID	`deepseek-v4-flash`
モデル発売日	2026-04-24
入力モダリティ	本文
出力モダリティ	本文
コンテキストウィンドウ	1M
重量精度	-
最大出力トークン	393,216
地域	ドイツ
特徴	理由
ネイティブ推論	いいえ
新作	はい
サポート端末	`POST /v1/chat/completions`、`POST /v1/responses`、`POST /v1/messages`

価格設定

チャージ	スペック	レート
入力	1Mプロンプトトークンあたり	$0.14
出力	生成された1Mトークンあたり	$0.28
ウェブ検索(Linkup)	呼び出し時の通話ごと	$0.013

例示リクエスト

$ curl https://api.empiriolabs.ai/v1/chat/completions \
>   -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
>   -H 'Content-Type: application/json' \
>   -d '{"model": "deepseek-v4-flash", "messages": [{"role":"user","content":"Hello"}]}'

パラメータ

パラメータ	種類	必須	デフォルト	概要
`temperature`	番号	いいえ	`0.7`	サンプリング温度。0 = 決定論的、2 = 最大ランダム性。·射程:0 – 2
`top_p`	番号	いいえ	`0.9`	原子核サンプリング確率質量。低い方が = より集中しています。·射程:0 – 1
`max_tokens`	番号	いいえ	`4096`	最大出力トークン。·射程:1 – 393216
`stop`	ストリング	いいえ	-	最大4つの文字列で、モデルはこれ以上のトークン生成を停止します。
`enable_thinking`	ブール値	いいえ	確かに	答える前に、step-by-step理由をつけておきましょう。
`thinking_budget`	番号	いいえ	`32768`	推論プロセスのために最大トークンが予約されています。393216まで。·射程:1 – 393216
`reasoning_effort`	エヌム	いいえ	`"medium"`	推論の努力レベル。誰も思考を妨げるものではありません。低、中、高、最大は選択したモデルに合わせて限定された思考予算を設定します。OpenAIスタイルのreasoning_effortフィールドとして送られ、モデルサービス用にenable_thinkingとthinking_budgetに翻訳されました。·許可:`none`、`low`、`medium`、`high`、`max`
`web_search_linkup`	ブール値	いいえ	偽り	Linkupによるオプションのウェブ検索機能。有効化すると、最新のウェブソースが最新のユーザーメッセージをクエリとして取得し、モデルに追加のコンテキストとして提供されます。モデルの通常のトークンコストに加えて、リクエストごとに定額$0.013が加算されます。デフォルトで無効化されています。
`disable_formatting`	ブール値	いいえ	偽り	有効化されると、Linkupウェブ検索を使用したアシスタント応答に「ソース」フッターを付け加えません。モデル出力が装飾を期待しない別のシステムに送られる場合に有用です。

バリエーション

`:variant1`

フィールド	価値
モデルID	`deepseek-v4-flash:variant1`
モデル発売日	2026-04-24
地域	シンガポール
コンテキストウィンドウ	1M
重量精度	-
最大出力トークン	393,216
特徴	理由は、web_search
ネイティブ推論	いいえ
サポート端末	`POST /v1/chat/completions`、`POST /v1/responses`、`POST /v1/messages`

価格設定

チャージ	スペック	レート
入力	1Mプロンプトトークンあたり	$0.20
出力	生成された1Mトークンあたり	$0.40
ウェブ検索	有効時のリクエストごと	$0.02

パラメータ

パラメータ	種類	必須	デフォルト	概要
`temperature`	番号	いいえ	`0.7`	サンプリング温度。0 = 決定論的、2 = 最大ランダム性。·射程:0 – 2
`top_p`	番号	いいえ	`0.9`	原子核サンプリング確率質量。低い方が = より集中しています。·射程:0 – 1
`max_tokens`	番号	いいえ	`4096`	最大出力トークン。·射程:1 – 393216
`stop`	ストリング	いいえ	-	最大4つの文字列で、モデルはこれ以上のトークン生成を停止します。
`enable_thinking`	ブール値	いいえ	確かに	答える前に、step-by-step理由をつけておきましょう。
`thinking_budget`	番号	いいえ	`32768`	推論プロセスのために最大トークンが予約されています。393216まで。·射程:1 – 393216
`reasoning_effort`	エヌム	いいえ	`"medium"`	推論の努力レベル。誰も思考を妨げるものではありません。低、中、高、最大は選択したモデルに合わせて限定された思考予算を設定します。OpenAIスタイルのreasoning_effortフィールドとして送られ、モデルサービス用にenable_thinkingとthinking_budgetに翻訳されました。·許可:`none`、`low`、`medium`、`high`、`max`
`tool_web_search`	ブール値	いいえ	偽り	ライブウェブ検索を有効にしてください。有効化するとリクエストコストに$0.02の追加料金が加算されます。

`:variant2`

フィールド	価値
モデルID	`deepseek-v4-flash:variant2`
モデル発売日	2026-04-24
地域	中国
コンテキストウィンドウ	1M
重量精度	-
最大出力トークン	384,000
特徴	推論、function_calling、web_search、キャッシュ
ネイティブ推論	いいえ
サポート端末	`POST /v1/chat/completions`、`POST /v1/responses`、`POST /v1/messages`

価格設定

チャージ	スペック	レート
入力	1Mプロンプトトークンあたり	$0.138(だった$0.14)
出力	生成された1Mトークンあたり	$0.275(だった$0.28)
暗黙のキャッシュ読み取り	1Mのキャッシュ入力トークンごとに	$0.028
ウェブ検索	有効時のリクエストごと	$0.01

パラメータ

パラメータ	種類	必須	デフォルト	概要
`temperature`	番号	いいえ	`0.7`	サンプリング温度。0 = 決定論的、2 = 最大ランダム性。·射程:0 – 2
`top_p`	番号	いいえ	`0.9`	原子核サンプリング確率質量。低い方が = より集中しています。·射程:0 – 1
`max_tokens`	番号	いいえ	`4096`	最大出力トークン。·射程:1 – 393216
`stop`	ストリング	いいえ	-	最大4つの文字列で、モデルはこれ以上のトークン生成を停止します。
`enable_thinking`	ブール値	いいえ	確かに	答える前に、step-by-step理由をつけておきましょう。
`thinking_budget`	番号	いいえ	`32768`	推論プロセスのために最大トークンが予約されています。393216まで。·射程:1 – 393216
`reasoning_effort`	エヌム	いいえ	`"medium"`	推論の努力レベル。誰も思考を妨げるものではありません。低、中、高、最大は選択したモデルに合わせて限定された思考予算を設定します。OpenAIスタイルのreasoning_effortフィールドとして送られ、モデルサービス用にenable_thinkingとthinking_budgetに翻訳されました。·許可:`none`、`low`、`medium`、`high`、`max`
`tool_web_search`	ブール値	いいえ	偽り	ライブウェブ検索を有効にしてください。有効になるとリクエストコストが$0.01増加します。

Machine-readable schema: GET https://api.empiriolabs.ai/v1/models/deepseek-v4-flash。