GLM 5.1 | EmpirioLabs AI Docs

Z.ai · Text Generation

/v1/chat/completions

202K संदर्भ, 128K आउटपुट, टूल कॉलिंग, संरचित आउटपुट और कैश समर्थन के साथ लंबे संदर्भ वाला Zhipu AI रीजनिंग मॉडल।

एक नजर में

फ़ील्ड	मूल्य
मॉडल आईडी	`glm-5-1`
मॉडल रिलीज की तारीख	2026-04-07
इनपुट तौर-तरीके	टेक्स्ट
आउटपुट के तौर-तरीके	टेक्स्ट
संदर्भ विंडो	202कश्मीर
वजन परिशुद्धता	-
क्षेत्र	चीन
सुविधाऐं	रीजनिंग, function_calling, structured_output, कैश
मूल अनुमान	नहीं
नया	हाँ
समर्थित समापन बिंदु	`/v1/chat/completions`, `/v1/responses`, `/v1/messages`

मूल्य निर्धारण

आवेशित करना	युक्ति	दर
इनपुट	प्रति 1M प्रॉम्प्ट टोकन	<=32K $0.825 ($1.40 था); 32K-200K $1.10 ($1.40 था)
उत्पादन	प्रति 1M जेनरेट किए गए टोकन	<=32K $3.301 ($4.40 था); 32K-200K $3.851 ($4.40 था)
अंतर्निहित कैश पढ़ा गया	प्रति 1M कैश्ड इनपुट टोकन	<=32K $0.165 ($0.26 था); 32K-200K $0.22 ($0.26 था)
वेब खोज (Linkup)	प्रति कॉल जब लागू किया जाता है	$0.013

उदाहरण अनुरोध

$ curl https://api.empiriolabs.ai/v1/chat/completions \
>   -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
>   -H 'Content-Type: application/json' \
>   -d '{"model": "glm-5-1", "messages": [{"role":"user","content":"Hello"}]}'

पैरामीटर

प्राचल	प्रकार	आवश्यक	डिफ़ॉल्ट	या क़िस्‍म
`max_tokens`	पूर्ण संख्‍या	नहीं	`4096`	उत्पन्न करने के लिए आउटपुट टोकन की अधिकतम संख्या। · रेंज: 1 - 128000
`temperature`	संख्या	नहीं	`1`	यादृच्छिकता को नियंत्रित करता है। कम मान प्रतिक्रियाओं को अधिक नियतात्मक बनाते हैं। · रेंज: 0 - 2
`top_p`	संख्या	नहीं	`0.95`	न्यूक्लियस सैंपलिंग कटऑफ। · रेंज: 0 - 1
`top_k`	पूर्ण संख्‍या	नहीं	`20`	शीर्ष K टोकन तक नमूनाकरण सीमित करता है। · रेंज: 1 - 100
`repetition_penalty`	संख्या	नहीं	`1`	बार-बार टोकन को दंडित करता है। · रेंज: 0.1 - 2
`reasoning_effort`	एनम	नहीं	`"medium"`	तर्क प्रयास स्तर। कोई भी सोच को अक्षम नहीं करता है। निम्न, मध्यम, उच्च और अधिकतम सेट चयनित मॉडल के आकार के बाउंड थिंकिंग बजट। OpenAI-शैली reasoning_effort फ़ील्ड के रूप में भेजा गया, मॉडल सेवा के लिए enable_thinking और thinking_budget में अनुवादित किया गया। · अनुमति: `none`, `low`, `medium`, `high`, `max`
`enable_thinking`	बूलियन	नहीं	सच	जवाब देने से पहले मॉडल को तर्क करने दें। सख्त संरचित आउटपुट के लिए इसे अक्षम करें।
`thinking_budget`	पूर्ण संख्‍या	नहीं	`32768`	सोच सक्षम होने पर तर्क सामग्री के लिए अधिकतम टोकन उपलब्ध होते हैं। · रेंज: 1 - 38912
`tool_stream`	बूलियन	नहीं	गलत	स्ट्रीमिंग करते समय फ़ंक्शन-कॉल तर्कों को वृद्धिशील रूप से स्ट्रीम करें।
`tools`	सरणी	नहीं	`[]`	OpenAI-संगत फ़ंक्शन कॉलिंग टूल परिभाषाएँ।
`tool_choice`	वस्तु	नहीं	-	OpenAI-संगत उपकरण विकल्प नियंत्रण।
`parallel_tool_calls`	बूलियन	नहीं	सच	समर्थित होने पर एक ही सहायक मोड़ में कई टूल कॉल की अनुमति दें।
`response_format`	वस्तु	नहीं	-	OpenAI-संगत JSON मोड या JSON स्कीमा प्रतिक्रिया प्रारूप। सख्त स्कीमा के लिए गैर-सोच मोड का उपयोग करें।
`stop`	सरणी	नहीं	-	वैकल्पिक स्टॉप अनुक्रम।
`web_search_linkup`	बूलियन	नहीं	गलत	लिंकअप द्वारा संचालित वैकल्पिक वेब खोज। सक्षम होने पर, हाल के वेब स्रोतों को आपके नवीनतम उपयोगकर्ता संदेश को क्वेरी के रूप में उपयोग करके पुनर्प्राप्त किया जाता है और मॉडल को अतिरिक्त संदर्भ के रूप में प्रदान किया जाता है। मॉडल की सामान्य टोकन लागत के शीर्ष पर प्रति अनुरोध एक समान $0.013 जोड़ता है। डिफ़ॉल्ट रूप से अक्षम।
`disable_formatting`	बूलियन	नहीं	गलत	सक्षम होने पर, गेटवे वेब खोज Linkup उपयोग किए जाने वाले सहायक प्रतिक्रियाओं के लिए “स्रोत” पाद लेख नहीं जोड़ेगा। उपयोगी जब मॉडल आउटपुट को किसी अन्य सिस्टम में पाइप किया जाता है जो सजावट की उम्मीद नहीं करता है।

Machine-पठनीय स्कीमा: GET https://api.empiriolabs.ai/v1/models/glm-5-1।