GLM 5.2

Z.ai · Text Generation
/v1/chat/completions1M टोकन संदर्भ, 128K आउटपुट, समायोज्य तर्क प्रयास, मूल वेब खोज और टूल कॉलिंग के साथ रीजनिंग और कोडिंग मॉडल।
एक नजर में
| फ़ील्ड | मूल्य |
|---|---|
| मॉडल आईडी | glm-5-2 |
| मॉडल रिलीज की तारीख | 2026-06-16 |
| इनपुट तौर-तरीके | टेक्स्ट |
| आउटपुट के तौर-तरीके | टेक्स्ट |
| संदर्भ विंडो | 1 मी |
| वजन परिशुद्धता | - |
| अधिकतम आउटपुट टोकन | 131,072 |
| क्षेत्र | सिंगापुर |
| सुविधाऐं | रीजनिंग, function_calling, structured_output, web_search |
| मूल अनुमान | नहीं |
| नया | हाँ |
| समर्थित समापन बिंदु | /v1/chat/completions, /v1/responses, /v1/messages |
मूल्य निर्धारण
| आवेशित करना | युक्ति | दर |
|---|---|---|
| इनपुट | प्रति 1M प्रॉम्प्ट टोकन | $1.40 |
| उत्पादन | प्रति 1M जेनरेट किए गए टोकन | $4.40 |
| वेब खोज | प्रति अनुरोध | $0.033 |
उदाहरण अनुरोध
$ curl https://api.empiriolabs.ai/v1/chat/completions \ > -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \ > -H 'Content-Type: application/json' \ > -d '{"model": "glm-5-2", "messages": [{"role":"user","content":"Hello"}]}'
पैरामीटर
| प्राचल | प्रकार | आवश्यक | डिफ़ॉल्ट | या क़िस्म |
|---|---|---|---|---|
max_tokens | पूर्ण संख्या | नहीं | 65536 | उत्पन्न करने के लिए आउटपुट टोकन की अधिकतम संख्या। · रेंज: 1 - 131072 |
temperature | संख्या | नहीं | 1 | यादृच्छिकता को नियंत्रित करता है। कम मान प्रतिक्रियाओं को अधिक नियतात्मक बनाते हैं। · रेंज: 0 - 1 |
top_p | संख्या | नहीं | 0.95 | न्यूक्लियस सैंपलिंग कटऑफ। · रेंज: 0.01 - 1 |
reasoning_effort | एनम | नहीं | "max" | GLM-5.2 तर्क प्रयास। कोई भी सोच को अक्षम नहीं करता है; अधिकतम के माध्यम से न्यूनतम सेट करें कि जवाब देने से पहले मॉडल कितना कठिन कारण है। जटिल कोडिंग के लिए अधिकतम की सिफारिश की जाती है। · अनुमति: none, minimal, low, medium, high, xhigh, max |
enable_thinking | बूलियन | नहीं | सच | जवाब देने से पहले मॉडल को तर्क करने दें। सबसे कम-विलंबता उत्तरों या सख्त संरचित आउटपुट के लिए बंद करें। |
do_sample | बूलियन | नहीं | सच | नमूनाकरण सक्षम करें। लालची नियतात्मक आउटपुट के लिए बंद करें (तापमान और top_p को नजरअंदाज कर दिया जाता है)। |
tool_web_search | बूलियन | नहीं | गलत | अंतर्निहित वेब खोज सक्षम करें। उपयोग किए जाने पर प्रति अनुरोध $0.033 जोड़ता है। |
search_recency_filter | एनम | नहीं | "noLimit" | वेब खोज परिणामों को एक रीसेंसी विंडो तक सीमित करें। · अनुमति: oneDay, oneWeek, oneMonth, oneYear, noLimit |
count | पूर्ण संख्या | नहीं | 10 | वेब खोज सक्षम होने पर पुनर्प्राप्त करने के लिए वेब खोज परिणामों की संख्या. · रेंज: 1 - 50 |
search_domain_filter | तार | नहीं | - | वेब खोज को किसी विशिष्ट डोमेन तक सीमित करें. |
search_prompt | तार | नहीं | - | पुनर्प्राप्त किए गए वेब खोज परिणामों को सारांशित करने के लिए वैकल्पिक संकेत का उपयोग किया जाता है। |
search_result | बूलियन | नहीं | सच | वेब खोज सक्षम होने पर प्रतिक्रिया में वेब खोज परिणाम मेटाडेटा लौटाएं. |
tool_stream | बूलियन | नहीं | गलत | स्ट्रीमिंग करते समय फ़ंक्शन-कॉल तर्कों को वृद्धिशील रूप से स्ट्रीम करें। |
tools | सरणी | नहीं | [] | OpenAI-संगत फ़ंक्शन कॉलिंग टूल परिभाषाएँ। |
tool_choice | वस्तु | नहीं | - | OpenAI-संगत उपकरण विकल्प नियंत्रण। |
response_format | वस्तु | नहीं | - | OpenAI-संगत JSON मोड। सख्त संरचित आउटपुट के लिए सोच अक्षम का उपयोग करें। |
stop | सरणी | नहीं | - | वैकल्पिक स्टॉप अनुक्रम (4 तक)। |
विकल्प
:variant1
| फ़ील्ड | मूल्य |
|---|---|
| मॉडल आईडी | glm-5-2:variant1 |
| मॉडल रिलीज की तारीख | 2026-06-16 |
| क्षेत्र | जर्मनी |
| संदर्भ विंडो | 1 मी |
| वजन परिशुद्धता | - |
| अधिकतम आउटपुट टोकन | 131,072 |
| सुविधाऐं | रीजनिंग, function_calling, structured_output, कैश |
| मूल अनुमान | नहीं |
| समर्थित समापन बिंदु | POST /v1/chat/completions, POST /v1/responses, POST /v1/messages |
मूल्य निर्धारण
| आवेशित करना | युक्ति | दर |
|---|---|---|
| इनपुट | प्रति 1M प्रॉम्प्ट टोकन | $1.10 ($1.40 था) |
| उत्पादन | प्रति 1M जेनरेट किए गए टोकन | $3.851 ($4.40 था) |
| अंतर्निहित कैश पढ़ा गया | प्रति 1M कैश्ड इनपुट टोकन | $0.275 |
पैरामीटर
| प्राचल | प्रकार | आवश्यक | डिफ़ॉल्ट | या क़िस्म |
|---|---|---|---|---|
temperature | संख्या | नहीं | 0.7 | नमूना तापमान। 0 = नियतात्मक, 2 = अधिकतम यादृच्छिकता। · रेंज: 0 - 2 |
top_p | संख्या | नहीं | 0.9 | नाभिक नमूनाकरण संभाव्यता द्रव्यमान। निचला = अधिक केंद्रित। · रेंज: 0 - 1 |
max_tokens | संख्या | नहीं | 4096 | अधिकतम आउटपुट टोकन। · रेंज: 1 - 131072 |
stop | तार | नहीं | - | 4 स्ट्रिंग्स तक जहां मॉडल आगे टोकन उत्पन्न करना बंद कर देगा। |
enable_thinking | बूलियन | नहीं | सच | उत्तर देने से पहले step-by-step तर्क सक्षम करें। |
reasoning_effort | एनम | नहीं | "medium" | तर्क प्रयास स्तर। कोई भी सोच को अक्षम नहीं करता है। निम्न, मध्यम, उच्च और अधिकतम सेट चयनित मॉडल के आकार के बाउंड थिंकिंग बजट। OpenAI-शैली reasoning_effort फ़ील्ड के रूप में भेजा गया, मॉडल सेवा के लिए enable_thinking और thinking_budget में अनुवादित किया गया। · अनुमति: none, low, medium, high, max |
thinking_budget | संख्या | नहीं | 32768 | रीजनिंग प्रक्रिया के लिए आरक्षित अधिकतम टोकन। 131072 तक। · रेंज: 1 - 131072 |
Machine-पठनीय स्कीमा: GET https://api.empiriolabs.ai/v1/models/glm-5-2।
