Qwen3.5 9B | EmpirioLabs AI Docs

POST /v1/chat/completions

Qwen3.5 9B 256K संदर्भ, छवि और वीडियो इनपुट, फ़ंक्शन टूल और संरचित आउटपुट के साथ एक कॉम्पैक्ट मल्टीमॉडल रीजनिंग मॉडल है।

एक नजर में

फ़ील्ड	मूल्य
मॉडल आईडी	`qwen3-5-9b`
मॉडल रिलीज की तारीख	2026-03-02
इनपुट तौर-तरीके	पाठ, छवि, वीडियो
आउटपुट के तौर-तरीके	टेक्स्ट
संदर्भ विंडो	256 के
वजन परिशुद्धता	FP8 वजन + FP8 KV
अधिकतम आउटपुट टोकन	32,768
सुविधाऐं	रीजनिंग, विजन, वीडियो, function_calling, structured_output, कैश, मल्टीमोडल, json_mode, लॉगप्रोब
मूल अनुमान	हाँ
नया	हाँ
समर्थित समापन बिंदु	`POST /v1/chat/completions`, `POST /v1/responses`, `POST /v1/messages`, `POST /v1/completions`

मूल्य निर्धारण

आवेशित करना	युक्ति	दर
इनपुट	प्रति 1M प्रॉम्प्ट टोकन	$0.09 ($0.10 था)
उत्पादन	प्रति 1M जेनरेट किए गए टोकन	$0.13 ($0.15 था)
अंतर्निहित कैश पढ़ा गया	प्रति 1M कैश्ड इनपुट टोकन	$0.045
वेब खोज (Linkup)	प्रति कॉल जब लागू किया जाता है	$0.013

उदाहरण अनुरोध

$ curl https://api.empiriolabs.ai/v1/chat/completions \
>   -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
>   -H 'Content-Type: application/json' \
>   -d '{"model": "qwen3-5-9b", "messages": [{"role":"user","content":"Hello"}]}'

पैरामीटर

प्राचल	प्रकार	आवश्यक	डिफ़ॉल्ट	या क़िस्‍म
`temperature`	संख्या	नहीं	`0.7`	नमूना तापमान। 0 नियतात्मक है और 2 अधिकतम यादृच्छिकता है। · रेंज: 0 - 2
`top_p`	संख्या	नहीं	`0.95`	नाभिक नमूनाकरण संभाव्यता द्रव्यमान। कम मान आउटपुट को अधिक केंद्रित बनाते हैं। · रेंज: 0 - 1
`max_tokens`	पूर्ण संख्‍या	नहीं	`4096`	अधिकतम आउटपुट टोकन। · रेंज: 1 - 32768
`stop`	तार	नहीं	-	4 स्ट्रिंग्स तक जहां मॉडल आगे टोकन उत्पन्न करना बंद कर देगा।
`reasoning_effort`	एनम	नहीं	`"medium"`	तर्क प्रयास। कोई भी सोच को अक्षम नहीं करता है; निम्न, मध्यम, उच्च और अधिकतम सेट बाध्य सोच बजट। · अनुमति: `none`, `low`, `medium`, `high`, `max`
`enable_thinking`	बूलियन	नहीं	सच	अंतिम आउटपुट से पहले मॉडल रीजनिंग चैनल को सक्षम करें।
`thinking_budget`	पूर्ण संख्‍या	नहीं	`4096`	अंतिम उत्तर से पहले अधिकतम सोच टोकन। यदि max_tokens कम है, तो सेवा उत्तर के लिए जगह आरक्षित करती है। · रेंज: 1024 - 32768
`top_k`	पूर्ण संख्‍या	नहीं	`20`	समर्थित होने पर नमूनाकरण को शीर्ष K उम्मीदवार टोकन तक सीमित करें। · रेंज: 1 - 200
`min_p`	संख्या	नहीं	`0`	टोकन नमूने के लिए न्यूनतम संभावना सीमा। · रेंज: 0 - 1
`presence_penalty`	संख्या	नहीं	`0`	टोकन के लिए जुर्माना जो पहले से ही जेनरेट किए गए टेक्स्ट में दिखाई दे रहे हैं। · रेंज: -2 - 2
`frequency_penalty`	संख्या	नहीं	`0`	टोकन कितनी बार पहले ही दिखाई दे चुका है, इसके आधार पर जुर्माना। · रेंज: -2 - 2
`repetition_penalty`	संख्या	नहीं	`1`	बार-बार पाठ को कम करने के लिए SGLang द्वारा उपयोग किया जाने वाला जुर्माना। · रेंज: 0.1 - 2
`seed`	पूर्ण संख्‍या	नहीं	-	प्रतिलिपि प्रस्तुत करने योग्य नमूने के लिए वैकल्पिक यादृच्छिक बीज। · रेंज: 0 - 2147483647
`logprobs`	बूलियन	नहीं	गलत	समर्थित होने पर टोकन लॉग संभावनाएँ लौटाएँ।
`top_logprobs`	पूर्ण संख्‍या	नहीं	-	इस कई शीर्ष टोकन लॉग संभावनाओं तक लौटें। · रेंज: 0 - 20
`logit_bias`	वस्तु	नहीं	-	नमूना लेने से पहले सकारात्मक या नकारात्मक मान जोड़कर पूर्वाग्रह टोकन आईडी।
`tools`	सरणी	नहीं	-	OpenAI-संगत फ़ंक्शन टूल परिभाषाएँ।
`tool_choice`	वस्तु	नहीं	-	OpenAI-संगत फ़ंक्शन टूल चयन।
`response_format`	वस्तु	नहीं	-	संरचित JSON आउटपुट निर्देश।
`stream`	बूलियन	नहीं	गलत	सर्वर द्वारा भेजे गए ईवेंट का उपयोग करके प्रतिक्रिया डेल्टा स्ट्रीम करें।
`web_search_linkup`	बूलियन	नहीं	गलत	लिंकअप द्वारा संचालित वैकल्पिक वेब खोज। सक्षम होने पर, हाल के वेब स्रोतों को आपके नवीनतम उपयोगकर्ता संदेश को क्वेरी के रूप में उपयोग करके पुनर्प्राप्त किया जाता है और मॉडल को अतिरिक्त संदर्भ के रूप में प्रदान किया जाता है। मॉडल की सामान्य टोकन लागत के शीर्ष पर प्रति अनुरोध एक समान $0.013 जोड़ता है। डिफ़ॉल्ट रूप से अक्षम।
`disable_formatting`	बूलियन	नहीं	गलत	सक्षम होने पर, गेटवे वेब खोज Linkup उपयोग किए जाने वाले सहायक प्रतिक्रियाओं के लिए “स्रोत” पाद लेख नहीं जोड़ेगा। उपयोगी जब मॉडल आउटपुट को किसी अन्य सिस्टम में पाइप किया जाता है जो सजावट की उम्मीद नहीं करता है।

डिफ़ॉल्ट रूप से टेक्स्ट, इमेज और वीडियो इनपुट, स्ट्रीमिंग, फंक्शन टूल, स्ट्रक्चर्ड JSON आउटपुट, सीड कंट्रोल और थिंकिंग मोड का समर्थन करता है। बाध्य सोच के लिए reasoning_effort या thinking_budget का उपयोग करें, या सीधे उत्तरों के लिए enable_thinking=false का उपयोग करें। स्वचालित कैश रीड्स को कैश्ड-इनपुट दर पर बिल किया जाता है जब मॉडल सेवा द्वारा रिपोर्ट किया जाता है। स्पष्ट कैश नियंत्रण समर्थित नहीं हैं.

Machine-पठनीय स्कीमा: GET https://api.empiriolabs.ai/v1/models/qwen3-5-9b।

एक नजर में

मूल्य निर्धारण

उदाहरण अनुरोध

पैरामीटर

टिप्पणियाँ