GLM 5.1

GLM 5.1
Z.ai · Text Generation
/v1/chat/completions

202K संदर्भ, 128K आउटपुट, टूल कॉलिंग, संरचित आउटपुट और कैश समर्थन के साथ लंबे संदर्भ वाला Zhipu AI रीजनिंग मॉडल।

एक नजर में

फ़ील्डमूल्य
मॉडल आईडीglm-5-1
मॉडल रिलीज की तारीख2026-04-07
इनपुट तौर-तरीकेटेक्स्ट
आउटपुट के तौर-तरीकेटेक्स्ट
संदर्भ विंडो202कश्मीर
वजन परिशुद्धता-
क्षेत्रचीन
सुविधाऐंरीजनिंग, function_calling, structured_output, कैश
मूल अनुमाननहीं
नयाहाँ
समर्थित समापन बिंदु/v1/chat/completions, /v1/responses, /v1/messages

मूल्य निर्धारण

आवेशित करनायुक्तिदर
इनपुटप्रति 1M प्रॉम्प्ट टोकन<=32K $0.825 ($1.40 था); 32K-200K $1.10 ($1.40 था)
उत्पादनप्रति 1M जेनरेट किए गए टोकन<=32K $3.301 ($4.40 था); 32K-200K $3.851 ($4.40 था)
अंतर्निहित कैश पढ़ा गयाप्रति 1M कैश्ड इनपुट टोकन<=32K $0.165 ($0.26 था); 32K-200K $0.22 ($0.26 था)
वेब खोज (Linkup)प्रति कॉल जब लागू किया जाता है$0.013

उदाहरण अनुरोध

$curl https://api.empiriolabs.ai/v1/chat/completions \
> -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
> -H 'Content-Type: application/json' \
> -d '{"model": "glm-5-1", "messages": [{"role":"user","content":"Hello"}]}'

पैरामीटर

प्राचलप्रकारआवश्यकडिफ़ॉल्टया क़िस्‍म
max_tokensपूर्ण संख्‍यानहीं4096उत्पन्न करने के लिए आउटपुट टोकन की अधिकतम संख्या। · रेंज: 1 - 128000
temperatureसंख्यानहीं1यादृच्छिकता को नियंत्रित करता है। कम मान प्रतिक्रियाओं को अधिक नियतात्मक बनाते हैं। · रेंज: 0 - 2
top_pसंख्यानहीं0.95न्यूक्लियस सैंपलिंग कटऑफ। · रेंज: 0 - 1
top_kपूर्ण संख्‍यानहीं20शीर्ष K टोकन तक नमूनाकरण सीमित करता है। · रेंज: 1 - 100
repetition_penaltyसंख्यानहीं1बार-बार टोकन को दंडित करता है। · रेंज: 0.1 - 2
reasoning_effortएनमनहीं"medium"तर्क प्रयास स्तर। कोई भी सोच को अक्षम नहीं करता है। निम्न, मध्यम, उच्च और अधिकतम सेट चयनित मॉडल के आकार के बाउंड थिंकिंग बजट। OpenAI-शैली reasoning_effort फ़ील्ड के रूप में भेजा गया, मॉडल सेवा के लिए enable_thinking और thinking_budget में अनुवादित किया गया। · अनुमति: none, low, medium, high, max
enable_thinkingबूलियननहींसचजवाब देने से पहले मॉडल को तर्क करने दें। सख्त संरचित आउटपुट के लिए इसे अक्षम करें।
thinking_budgetपूर्ण संख्‍यानहीं32768सोच सक्षम होने पर तर्क सामग्री के लिए अधिकतम टोकन उपलब्ध होते हैं। · रेंज: 1 - 38912
tool_streamबूलियननहींगलतस्ट्रीमिंग करते समय फ़ंक्शन-कॉल तर्कों को वृद्धिशील रूप से स्ट्रीम करें।
toolsसरणीनहीं[]OpenAI-संगत फ़ंक्शन कॉलिंग टूल परिभाषाएँ।
tool_choiceवस्तुनहीं-OpenAI-संगत उपकरण विकल्प नियंत्रण।
parallel_tool_callsबूलियननहींसचसमर्थित होने पर एक ही सहायक मोड़ में कई टूल कॉल की अनुमति दें।
response_formatवस्तुनहीं-OpenAI-संगत JSON मोड या JSON स्कीमा प्रतिक्रिया प्रारूप। सख्त स्कीमा के लिए गैर-सोच मोड का उपयोग करें।
stopसरणीनहीं-वैकल्पिक स्टॉप अनुक्रम।
web_search_linkupबूलियननहींगलतलिंकअप द्वारा संचालित वैकल्पिक वेब खोज। सक्षम होने पर, हाल के वेब स्रोतों को आपके नवीनतम उपयोगकर्ता संदेश को क्वेरी के रूप में उपयोग करके पुनर्प्राप्त किया जाता है और मॉडल को अतिरिक्त संदर्भ के रूप में प्रदान किया जाता है। मॉडल की सामान्य टोकन लागत के शीर्ष पर प्रति अनुरोध एक समान $0.013 जोड़ता है। डिफ़ॉल्ट रूप से अक्षम।
disable_formattingबूलियननहींगलतसक्षम होने पर, गेटवे वेब खोज Linkup उपयोग किए जाने वाले सहायक प्रतिक्रियाओं के लिए “स्रोत” पाद लेख नहीं जोड़ेगा। उपयोगी जब मॉडल आउटपुट को किसी अन्य सिस्टम में पाइप किया जाता है जो सजावट की उम्मीद नहीं करता है।

Machine-पठनीय स्कीमा: GET https://api.empiriolabs.ai/v1/models/glm-5-1