GLM 5.2 | EmpirioLabs AI Docs

Z.ai · Text Generation

/v1/chat/completions

1M टोकन संदर्भ, 128K आउटपुट, समायोज्य तर्क प्रयास, मूल वेब खोज और टूल कॉलिंग के साथ रीजनिंग और कोडिंग मॉडल।

एक नजर में

फ़ील्ड	मूल्य
मॉडल आईडी	`glm-5-2`
मॉडल रिलीज की तारीख	2026-06-16
इनपुट तौर-तरीके	टेक्स्ट
आउटपुट के तौर-तरीके	टेक्स्ट
संदर्भ विंडो	1 मी
वजन परिशुद्धता	-
अधिकतम आउटपुट टोकन	131,072
क्षेत्र	सिंगापुर
सुविधाऐं	रीजनिंग, function_calling, structured_output, web_search
मूल अनुमान	नहीं
नया	हाँ
समर्थित समापन बिंदु	`/v1/chat/completions`, `/v1/responses`, `/v1/messages`

मूल्य निर्धारण

आवेशित करना	युक्ति	दर
इनपुट	प्रति 1M प्रॉम्प्ट टोकन	$1.40
उत्पादन	प्रति 1M जेनरेट किए गए टोकन	$4.40
वेब खोज	प्रति अनुरोध	$0.033

उदाहरण अनुरोध

$ curl https://api.empiriolabs.ai/v1/chat/completions \
>   -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
>   -H 'Content-Type: application/json' \
>   -d '{"model": "glm-5-2", "messages": [{"role":"user","content":"Hello"}]}'

पैरामीटर

प्राचल	प्रकार	आवश्यक	डिफ़ॉल्ट	या क़िस्‍म
`max_tokens`	पूर्ण संख्‍या	नहीं	`65536`	उत्पन्न करने के लिए आउटपुट टोकन की अधिकतम संख्या। · रेंज: 1 - 131072
`temperature`	संख्या	नहीं	`1`	यादृच्छिकता को नियंत्रित करता है। कम मान प्रतिक्रियाओं को अधिक नियतात्मक बनाते हैं। · रेंज: 0 - 1
`top_p`	संख्या	नहीं	`0.95`	न्यूक्लियस सैंपलिंग कटऑफ। · रेंज: 0.01 - 1
`reasoning_effort`	एनम	नहीं	`"max"`	GLM-5.2 तर्क प्रयास। कोई भी सोच को अक्षम नहीं करता है; अधिकतम के माध्यम से न्यूनतम सेट करें कि जवाब देने से पहले मॉडल कितना कठिन कारण है। जटिल कोडिंग के लिए अधिकतम की सिफारिश की जाती है। · अनुमति: `none`, `minimal`, `low`, `medium`, `high`, `xhigh`, `max`
`enable_thinking`	बूलियन	नहीं	सच	जवाब देने से पहले मॉडल को तर्क करने दें। सबसे कम-विलंबता उत्तरों या सख्त संरचित आउटपुट के लिए बंद करें।
`do_sample`	बूलियन	नहीं	सच	नमूनाकरण सक्षम करें। लालची नियतात्मक आउटपुट के लिए बंद करें (तापमान और top_p को नजरअंदाज कर दिया जाता है)।
`tool_web_search`	बूलियन	नहीं	गलत	अंतर्निहित वेब खोज सक्षम करें। उपयोग किए जाने पर प्रति अनुरोध $0.033 जोड़ता है।
`search_recency_filter`	एनम	नहीं	`"noLimit"`	वेब खोज परिणामों को एक रीसेंसी विंडो तक सीमित करें। · अनुमति: `oneDay`, `oneWeek`, `oneMonth`, `oneYear`, `noLimit`
`count`	पूर्ण संख्‍या	नहीं	`10`	वेब खोज सक्षम होने पर पुनर्प्राप्त करने के लिए वेब खोज परिणामों की संख्या. · रेंज: 1 - 50
`search_domain_filter`	तार	नहीं	-	वेब खोज को किसी विशिष्ट डोमेन तक सीमित करें.
`search_prompt`	तार	नहीं	-	पुनर्प्राप्त किए गए वेब खोज परिणामों को सारांशित करने के लिए वैकल्पिक संकेत का उपयोग किया जाता है।
`search_result`	बूलियन	नहीं	सच	वेब खोज सक्षम होने पर प्रतिक्रिया में वेब खोज परिणाम मेटाडेटा लौटाएं.
`tool_stream`	बूलियन	नहीं	गलत	स्ट्रीमिंग करते समय फ़ंक्शन-कॉल तर्कों को वृद्धिशील रूप से स्ट्रीम करें।
`tools`	सरणी	नहीं	`[]`	OpenAI-संगत फ़ंक्शन कॉलिंग टूल परिभाषाएँ।
`tool_choice`	वस्तु	नहीं	-	OpenAI-संगत उपकरण विकल्प नियंत्रण।
`response_format`	वस्तु	नहीं	-	OpenAI-संगत JSON मोड। सख्त संरचित आउटपुट के लिए सोच अक्षम का उपयोग करें।
`stop`	सरणी	नहीं	-	वैकल्पिक स्टॉप अनुक्रम (4 तक)।

विकल्प

`:variant1`

फ़ील्ड	मूल्य
मॉडल आईडी	`glm-5-2:variant1`
मॉडल रिलीज की तारीख	2026-06-16
क्षेत्र	जर्मनी
संदर्भ विंडो	1 मी
वजन परिशुद्धता	-
अधिकतम आउटपुट टोकन	131,072
सुविधाऐं	रीजनिंग, function_calling, structured_output, कैश
मूल अनुमान	नहीं
समर्थित समापन बिंदु	`POST /v1/chat/completions`, `POST /v1/responses`, `POST /v1/messages`

मूल्य निर्धारण

आवेशित करना	युक्ति	दर
इनपुट	प्रति 1M प्रॉम्प्ट टोकन	$1.10 ($1.40 था)
उत्पादन	प्रति 1M जेनरेट किए गए टोकन	$3.851 ($4.40 था)
अंतर्निहित कैश पढ़ा गया	प्रति 1M कैश्ड इनपुट टोकन	$0.275

पैरामीटर

प्राचल	प्रकार	आवश्यक	डिफ़ॉल्ट	या क़िस्‍म
`temperature`	संख्या	नहीं	`0.7`	नमूना तापमान। 0 = नियतात्मक, 2 = अधिकतम यादृच्छिकता। · रेंज: 0 - 2
`top_p`	संख्या	नहीं	`0.9`	नाभिक नमूनाकरण संभाव्यता द्रव्यमान। निचला = अधिक केंद्रित। · रेंज: 0 - 1
`max_tokens`	संख्या	नहीं	`4096`	अधिकतम आउटपुट टोकन। · रेंज: 1 - 131072
`stop`	तार	नहीं	-	4 स्ट्रिंग्स तक जहां मॉडल आगे टोकन उत्पन्न करना बंद कर देगा।
`enable_thinking`	बूलियन	नहीं	सच	उत्तर देने से पहले step-by-step तर्क सक्षम करें।
`reasoning_effort`	एनम	नहीं	`"medium"`	तर्क प्रयास स्तर। कोई भी सोच को अक्षम नहीं करता है। निम्न, मध्यम, उच्च और अधिकतम सेट चयनित मॉडल के आकार के बाउंड थिंकिंग बजट। OpenAI-शैली reasoning_effort फ़ील्ड के रूप में भेजा गया, मॉडल सेवा के लिए enable_thinking और thinking_budget में अनुवादित किया गया। · अनुमति: `none`, `low`, `medium`, `high`, `max`
`thinking_budget`	संख्या	नहीं	`32768`	रीजनिंग प्रक्रिया के लिए आरक्षित अधिकतम टोकन। 131072 तक। · रेंज: 1 - 131072

Machine-पठनीय स्कीमा: GET https://api.empiriolabs.ai/v1/models/glm-5-2।