GPU Cloud
प्रबंधित GPU इंस्टेंस को तैनात करें, मॉडल या डॉकर वर्कलोड चलाएं और EmpirioLabs API के माध्यम से कनेक्ट करें।
GPU Cloud प्रावधान मॉडल सर्विंग, नोटबुक, ComfyUI, वेब टर्मिनल, ओलामा, या आपकी अपनी CUDA छवि के लिए GPU उदाहरणों का प्रबंधन करते हैं। बिलिंग आपके क्रेडिट बैलेंस के खिलाफ दूसरे से मीटर की जाती है। प्रमाणित EmpirioLabs API पथों के माध्यम से चल रहे कार्यभार से कनेक्ट करें।
आप डैशबोर्ड में GPU Cloud पेज से या यहां प्रलेखित एपीआई के माध्यम से इंस्टेंस प्रबंधित कर सकते हैं।
यह काम किस प्रकार करता है
- कैटलॉग से एक GPU चुनें प्रत्येक पंक्ति वीआरएएम, प्रति घंटा मूल्य निर्धारण और सटीक उपलब्ध संख्या दिखाती है।
- एक कार्यभार चुनें: एक क्यूरेटेड मॉडल, एक Hugging Face मॉडल आईडी, एक टेम्पलेट, या एक कस्टम CUDA डॉकर छवि।
- उदाहरण तैनात करें। आपकी डैशबोर्ड सेटिंग्स आपके खाते के लिए वर्तमान GPU सीमा दिखाती हैं।
- तत्परता की प्रतीक्षा करें। नए उदाहरण
provisioningके माध्यम से आगे बढ़ते हैं, फिरloading, फिरrunning। - **अपनी EmpirioLabs API कुंजी का उपयोग करके API के माध्यम से कनेक्ट करें।
- जब आपका काम पूरा हो जाए तो रुकें या नष्ट करें। रोके गए उदाहरण GPU और रनटाइम डिस्क को एक नई शुरुआत के लिए परिनियोजन युक्ति को संरक्षित करते हुए जारी करते हैं। नष्ट किए गए उदाहरणों को स्थायी रूप से हटा दिया जाता है।
मूल्य निर्धारण और सीमाएं
- कीमतें प्रति GPU प्रति घंटे सूचीबद्ध होती हैं और दूसरे द्वारा बिल की जाती हैं।
- मल्टी-GPU परिनियोजन को
listed hourly price x GPU countके रूप में बिल किया जाता है। - बिलिंग तब शुरू होती है जब कोई इंस्टेंस
runningतक पहुंच जाता है. - बिलिंग तब बंद हो जाती है जब कोई आवृत्ति रोक दी जाती है या नष्ट कर दी जाती है.
- परिनियोजन और प्रारंभ करने के लिए एक आवृत्ति प्रारंभिक चल रही विंडो के लिए पर्याप्त क्रेडिट शेष की आवश्यकता होती है।
- चल रहे आवृत्तियों स्वचालित रूप से रोक दिए जाते हैं जब संतुलन थ्रेशोल्ड अब पर्याप्त नहीं है।
- GPU Cloud सीमाएं खाता-स्कोप हैं। आपकी डैशबोर्ड सेटिंग्स आपकी प्रभावी सीमा दिखाती हैं।
- डिस्क का आकार 100 जीबी से 300 जीबी तक का अनुरोध किया जा सकता है।
कैटलॉग ब्राउज़ करें
कैटलॉग ग्राहक-सुरक्षित GPU मेटाडेटा, मूल्य निर्धारण और वर्तमान उपलब्धता लौटाता है।
एक आवृत्ति परिनियोजित करें
परिनियोजन प्रोविज़निंग प्रारंभ करता है और provisioning स्थिति में एक आवृत्ति लौटाता है। पोल status running होने तक GET /v1/gpu/instances/\{id\} है। यदि आवंटन या सेटअप समय पर तैयार नहीं हो सकता है, तो इंस्टेंस error पर चला जाता है और आवंटन स्वचालित रूप से रद्द हो जाता है।
एक मॉडल तैनात करें
एक क्यूरेटेड template_slug पास करें या किसी भी Hugging Face रेपो आईडी पेस्ट करें। मॉडल परिनियोजन उदाहरण पर OpenAI-संगत /v1 समापन बिंदु से परोसा जाता है।
गेटेड रेपो के लिए, टोकन को env में पास करें:
एक टेम्पलेट परिनियोजित करें
टेम्प्लेट ready-to-run वातावरण हैं। उपलब्ध टेम्पलेट्स में PyTorch + JupyterLab, ComfyUI, Web Terminal और Ollama शामिल हैं।
एक कस्टम Docker छवि परिनियोजित करें
अपनी खुद की CUDA छवि चलाएं। CPU-केवल छवियां विफल हो सकती हैं क्योंकि रनटाइम GPU-संगत कंटेनर की अपेक्षा करता है।
जीवनचक्र प्रबंधित करें
स्थिति को फिर से सिंक करने के लिए refresh का उपयोग करें, चल रहे आवंटन को रिलीज़ करने और बिलिंग को रोकने के लिए stop करें, और सहेजे गए इंस्टेंस स्पेक को फिर से तैनात करने के लिए start करें।
किसी उदाहरण को नष्ट करने से बिलिंग स्थायी रूप से बंद हो जाती है और उसे पूर्ववत नहीं किया जा सकता.
स्थितियाँ
चल रहे इंस्टेंस से कनेक्ट करें
अपनी EmpirioLabs API कुंजी के साथ कनेक्ट एंडपॉइंट का उपयोग करें। यह GET, POST, PUT, PATCH, DELETE और स्ट्रीमिंग प्रतिक्रियाओं का समर्थन करता है।
मॉडल परिनियोजन के लिए, उदाहरण पर OpenAI-संगत समापन बिंदु पर कॉल करें:
JupyterLab, ComfyUI, Web Terminal, या Ollama के लिए, डैशबोर्ड से इंस्टेंस कनेक्ट URL खोलें या संबंधित कनेक्ट पथ पर अनुरोध भेजें।
डैशबोर्ड में अपने मॉडल के साथ चैट करें
जब आप एक मॉडल (या कोई भी उदाहरण जो OpenAI-संगत API की सेवा करता है) तैनात करते हैं, तो डैशबोर्ड आपको एक अंतर्निहित चैट पृष्ठ देता है ताकि आप बिना कोई कोड लिखे तुरंत मॉडल को आज़मा सकें। GPU Cloud पेज से इंस्टेंस खोलें और इस मॉडल के साथ चैट करें चुनें। चैट पेज प्रतिक्रियाओं को स्ट्रीम करता है, सिस्टम प्रॉम्प्ट और सामान्य सैंपलिंग नियंत्रण (तापमान, टॉप-पी, अधिकतम टोकन) का समर्थन करता है, और आपको मल्टीमॉडल मॉडल के लिए चित्र या ऑडियो संलग्न करने देता है। यह एपीआई के समान प्रमाणित कनेक्ट पथ के खिलाफ चलता है, इसलिए कोई अतिरिक्त सेटअप नहीं है और कोई अलग बिलिंग नहीं है: उदाहरण पहले से ही दूसरे द्वारा मीटर किया गया है।
एसएसएच और शेल एक्सेस
वेब टर्मिनल टेम्पलेट का उपयोग करें जब आपको कार्यभार के अंदर एक शेल की आवश्यकता होती है, या किसी कस्टम कंटेनर से HTTP सेवा को प्रदर्शित करें और /v1/gpu/connect/\{instance_id\}/\{path\} के माध्यम से उस तक पहुँचें।
उपयोग और बिलिंग रिकॉर्ड
GPU Cloud डैशबोर्ड चल रहा खर्च और आजीवन GPU खर्च दिखाता है। एपीआई जीवनचक्र प्रतिक्रियाओं में उदाहरण मूल्य, जीपीयू गणना, बिलिंग स्थिति और बिल राशि शामिल है ताकि आप अपने स्वयं के सिस्टम से उपयोग का समाधान कर सकें।
