DeepSeek V4 Flash | EmpirioLabs AI Docs

DeepSeek · Text Generation

POST /v1/chat/completions

284B कुल/13B सक्रिय मापदंडों और मूल 1M संदर्भ के साथ हल्का MoE मॉडल, कम-विलंबता, लागत प्रभावी उच्च-समवर्ती उपयोग के लिए ट्यून किया गया।

एक नजर में

फ़ील्ड	मूल्य
मॉडल आईडी	`deepseek-v4-flash`
मॉडल रिलीज की तारीख	2026-04-24
इनपुट तौर-तरीके	टेक्स्ट
आउटपुट के तौर-तरीके	टेक्स्ट
संदर्भ विंडो	1 मी
वजन परिशुद्धता	-
अधिकतम आउटपुट टोकन	393,216
क्षेत्र	जर्मनी
सुविधाऐं	तर्कपूर्ण आधार
मूल अनुमान	नहीं
नया	हाँ
समर्थित समापन बिंदु	`POST /v1/chat/completions`, `POST /v1/responses`, `POST /v1/messages`

मूल्य निर्धारण

आवेशित करना	युक्ति	दर
इनपुट	प्रति 1M प्रॉम्प्ट टोकन	$0.14
उत्पादन	प्रति 1M जेनरेट किए गए टोकन	$0.28
वेब खोज (Linkup)	प्रति कॉल जब लागू किया जाता है	$0.013

उदाहरण अनुरोध

$ curl https://api.empiriolabs.ai/v1/chat/completions \
>   -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
>   -H 'Content-Type: application/json' \
>   -d '{"model": "deepseek-v4-flash", "messages": [{"role":"user","content":"Hello"}]}'

पैरामीटर

प्राचल	प्रकार	आवश्यक	डिफ़ॉल्ट	या क़िस्‍म
`temperature`	संख्या	नहीं	`0.7`	नमूना तापमान। 0 = नियतात्मक, 2 = अधिकतम यादृच्छिकता। · रेंज: 0 - 2
`top_p`	संख्या	नहीं	`0.9`	नाभिक नमूनाकरण संभाव्यता द्रव्यमान। निचला = अधिक केंद्रित। · रेंज: 0 - 1
`max_tokens`	संख्या	नहीं	`4096`	अधिकतम आउटपुट टोकन। · रेंज: 1 - 393216
`stop`	तार	नहीं	-	4 स्ट्रिंग्स तक जहां मॉडल आगे टोकन उत्पन्न करना बंद कर देगा।
`enable_thinking`	बूलियन	नहीं	सच	उत्तर देने से पहले step-by-step तर्क सक्षम करें।
`thinking_budget`	संख्या	नहीं	`32768`	रीजनिंग प्रक्रिया के लिए आरक्षित अधिकतम टोकन। 393216 तक। · रेंज: 1 - 393216
`reasoning_effort`	एनम	नहीं	`"medium"`	तर्क प्रयास स्तर। कोई भी सोच को अक्षम नहीं करता है। निम्न, मध्यम, उच्च और अधिकतम सेट चयनित मॉडल के आकार के बाउंड थिंकिंग बजट। OpenAI-शैली reasoning_effort फ़ील्ड के रूप में भेजा गया, मॉडल सेवा के लिए enable_thinking और thinking_budget में अनुवादित किया गया। · अनुमति: `none`, `low`, `medium`, `high`, `max`
`web_search_linkup`	बूलियन	नहीं	गलत	लिंकअप द्वारा संचालित वैकल्पिक वेब खोज। सक्षम होने पर, हाल के वेब स्रोतों को आपके नवीनतम उपयोगकर्ता संदेश को क्वेरी के रूप में उपयोग करके पुनर्प्राप्त किया जाता है और मॉडल को अतिरिक्त संदर्भ के रूप में प्रदान किया जाता है। मॉडल की सामान्य टोकन लागत के शीर्ष पर प्रति अनुरोध एक समान $0.013 जोड़ता है। डिफ़ॉल्ट रूप से अक्षम।
`disable_formatting`	बूलियन	नहीं	गलत	सक्षम होने पर, गेटवे वेब खोज Linkup उपयोग किए जाने वाले सहायक प्रतिक्रियाओं के लिए “स्रोत” पाद लेख नहीं जोड़ेगा। उपयोगी जब मॉडल आउटपुट को किसी अन्य सिस्टम में पाइप किया जाता है जो सजावट की उम्मीद नहीं करता है।

विकल्प

`:variant1`

फ़ील्ड	मूल्य
मॉडल आईडी	`deepseek-v4-flash:variant1`
मॉडल रिलीज की तारीख	2026-04-24
क्षेत्र	सिंगापुर
संदर्भ विंडो	1 मी
वजन परिशुद्धता	-
अधिकतम आउटपुट टोकन	393,216
सुविधाऐं	रीजनिंग, web_search
मूल अनुमान	नहीं
समर्थित समापन बिंदु	`POST /v1/chat/completions`, `POST /v1/responses`, `POST /v1/messages`

मूल्य निर्धारण

आवेशित करना	युक्ति	दर
इनपुट	प्रति 1M प्रॉम्प्ट टोकन	$0.20
उत्पादन	प्रति 1M जेनरेट किए गए टोकन	$0.40
वेब खोज	सक्षम होने पर प्रति अनुरोध	$0.02

पैरामीटर

प्राचल	प्रकार	आवश्यक	डिफ़ॉल्ट	या क़िस्‍म
`temperature`	संख्या	नहीं	`0.7`	नमूना तापमान। 0 = नियतात्मक, 2 = अधिकतम यादृच्छिकता। · रेंज: 0 - 2
`top_p`	संख्या	नहीं	`0.9`	नाभिक नमूनाकरण संभाव्यता द्रव्यमान। निचला = अधिक केंद्रित। · रेंज: 0 - 1
`max_tokens`	संख्या	नहीं	`4096`	अधिकतम आउटपुट टोकन। · रेंज: 1 - 393216
`stop`	तार	नहीं	-	4 स्ट्रिंग्स तक जहां मॉडल आगे टोकन उत्पन्न करना बंद कर देगा।
`enable_thinking`	बूलियन	नहीं	सच	उत्तर देने से पहले step-by-step तर्क सक्षम करें।
`thinking_budget`	संख्या	नहीं	`32768`	रीजनिंग प्रक्रिया के लिए आरक्षित अधिकतम टोकन। 393216 तक। · रेंज: 1 - 393216
`reasoning_effort`	एनम	नहीं	`"medium"`	तर्क प्रयास स्तर। कोई भी सोच को अक्षम नहीं करता है। निम्न, मध्यम, उच्च और अधिकतम सेट चयनित मॉडल के आकार के बाउंड थिंकिंग बजट। OpenAI-शैली reasoning_effort फ़ील्ड के रूप में भेजा गया, मॉडल सेवा के लिए enable_thinking और thinking_budget में अनुवादित किया गया। · अनुमति: `none`, `low`, `medium`, `high`, `max`
`tool_web_search`	बूलियन	नहीं	गलत	लाइव वेब खोज सक्षम करें। सक्षम होने पर अनुरोध लागत में $0.02 अधिभार जोड़ता है।

`:variant2`

फ़ील्ड	मूल्य
मॉडल आईडी	`deepseek-v4-flash:variant2`
मॉडल रिलीज की तारीख	2026-04-24
क्षेत्र	चीन
संदर्भ विंडो	1 मी
वजन परिशुद्धता	-
अधिकतम आउटपुट टोकन	384,000
सुविधाऐं	रीजनिंग, function_calling, web_search, कैश
मूल अनुमान	नहीं
समर्थित समापन बिंदु	`POST /v1/chat/completions`, `POST /v1/responses`, `POST /v1/messages`

मूल्य निर्धारण

आवेशित करना	युक्ति	दर
इनपुट	प्रति 1M प्रॉम्प्ट टोकन	$0.138 ($0.14 था)
उत्पादन	प्रति 1M जेनरेट किए गए टोकन	$0.275 ($0.28 था)
अंतर्निहित कैश पढ़ा गया	प्रति 1M कैश्ड इनपुट टोकन	$0.028
वेब खोज	सक्षम होने पर प्रति अनुरोध	$0.01

पैरामीटर

प्राचल	प्रकार	आवश्यक	डिफ़ॉल्ट	या क़िस्‍म
`temperature`	संख्या	नहीं	`0.7`	नमूना तापमान। 0 = नियतात्मक, 2 = अधिकतम यादृच्छिकता। · रेंज: 0 - 2
`top_p`	संख्या	नहीं	`0.9`	नाभिक नमूनाकरण संभाव्यता द्रव्यमान। निचला = अधिक केंद्रित। · रेंज: 0 - 1
`max_tokens`	संख्या	नहीं	`4096`	अधिकतम आउटपुट टोकन। · रेंज: 1 - 393216
`stop`	तार	नहीं	-	4 स्ट्रिंग्स तक जहां मॉडल आगे टोकन उत्पन्न करना बंद कर देगा।
`enable_thinking`	बूलियन	नहीं	सच	उत्तर देने से पहले step-by-step तर्क सक्षम करें।
`thinking_budget`	संख्या	नहीं	`32768`	रीजनिंग प्रक्रिया के लिए आरक्षित अधिकतम टोकन। 393216 तक। · रेंज: 1 - 393216
`reasoning_effort`	एनम	नहीं	`"medium"`	तर्क प्रयास स्तर। कोई भी सोच को अक्षम नहीं करता है। निम्न, मध्यम, उच्च और अधिकतम सेट चयनित मॉडल के आकार के बाउंड थिंकिंग बजट। OpenAI-शैली reasoning_effort फ़ील्ड के रूप में भेजा गया, मॉडल सेवा के लिए enable_thinking और thinking_budget में अनुवादित किया गया। · अनुमति: `none`, `low`, `medium`, `high`, `max`
`tool_web_search`	बूलियन	नहीं	गलत	लाइव वेब खोज सक्षम करें। सक्षम होने पर अनुरोध लागत में $0.01 जोड़ता है।

Machine-पठनीय स्कीमा: GET https://api.empiriolabs.ai/v1/models/deepseek-v4-flash।