GPU Cloud | EmpirioLabs AI Docs

GPU Cloud प्रावधान मॉडल सर्विंग, नोटबुक, ComfyUI, वेब टर्मिनल, ओलामा, या आपकी अपनी CUDA छवि के लिए GPU उदाहरणों का प्रबंधन करते हैं। बिलिंग आपके क्रेडिट बैलेंस के खिलाफ दूसरे से मीटर की जाती है। प्रमाणित EmpirioLabs API पथों के माध्यम से चल रहे कार्यभार से कनेक्ट करें।

आप डैशबोर्ड में GPU Cloud पेज से या यहां प्रलेखित एपीआई के माध्यम से इंस्टेंस प्रबंधित कर सकते हैं।

यह काम किस प्रकार करता है

कैटलॉग से एक GPU चुनें प्रत्येक पंक्ति वीआरएएम, प्रति घंटा मूल्य निर्धारण और सटीक उपलब्ध संख्या दिखाती है।
एक कार्यभार चुनें: एक क्यूरेटेड मॉडल, एक Hugging Face मॉडल आईडी, एक टेम्पलेट, या एक कस्टम CUDA डॉकर छवि।
उदाहरण तैनात करें। आपकी डैशबोर्ड सेटिंग्स आपके खाते के लिए वर्तमान GPU सीमा दिखाती हैं।
तत्परता की प्रतीक्षा करें। नए उदाहरण provisioning के माध्यम से आगे बढ़ते हैं, फिर loading, फिर running।
**अपनी EmpirioLabs API कुंजी का उपयोग करके API के माध्यम से कनेक्ट करें।
जब आपका काम पूरा हो जाए तो रुकें या नष्ट करें। रोके गए उदाहरण GPU और रनटाइम डिस्क को एक नई शुरुआत के लिए परिनियोजन युक्ति को संरक्षित करते हुए जारी करते हैं। नष्ट किए गए उदाहरणों को स्थायी रूप से हटा दिया जाता है।

मूल्य निर्धारण और सीमाएं

कीमतें प्रति GPU प्रति घंटे सूचीबद्ध होती हैं और दूसरे द्वारा बिल की जाती हैं।
मल्टी-GPU परिनियोजन को listed hourly price x GPU count के रूप में बिल किया जाता है।
बिलिंग तब शुरू होती है जब कोई इंस्टेंस running तक पहुंच जाता है.
बिलिंग तब बंद हो जाती है जब कोई आवृत्ति रोक दी जाती है या नष्ट कर दी जाती है.
परिनियोजन और प्रारंभ करने के लिए एक आवृत्ति प्रारंभिक चल रही विंडो के लिए पर्याप्त क्रेडिट शेष की आवश्यकता होती है।
चल रहे आवृत्तियों स्वचालित रूप से रोक दिए जाते हैं जब संतुलन थ्रेशोल्ड अब पर्याप्त नहीं है।
GPU Cloud सीमाएं खाता-स्कोप हैं। आपकी डैशबोर्ड सेटिंग्स आपकी प्रभावी सीमा दिखाती हैं।
डिस्क का आकार 100 जीबी से 300 जीबी तक का अनुरोध किया जा सकता है।

कैटलॉग ब्राउज़ करें

कैटलॉग ग्राहक-सुरक्षित GPU मेटाडेटा, मूल्य निर्धारण और वर्तमान उपलब्धता लौटाता है।

GET

/v1/gpu/catalog

1 curl https://api.empiriolabs.ai/v1/gpu/catalog

Try it

$ curl https://api.empiriolabs.ai/v1/gpu/catalog

1 {
2   "object": "list",
3   "data": [
4     {
5       "slug": "rtx-4090",
6       "name": "RTX 4090",
7       "vram_gb": 24,
8       "price_hourly": 0.65,
9       "available": true,
10       "available_count": 21,
11       "max_gpus": 8,
12       "regions": ["US", "EU"]
13     }
14   ]
15 }

GET

/v1/gpu/catalog/:slug

1 curl https://api.empiriolabs.ai/v1/gpu/catalog/rtx-4090

Try it

एक आवृत्ति परिनियोजित करें

परिनियोजन प्रोविज़निंग प्रारंभ करता है और provisioning स्थिति में एक आवृत्ति लौटाता है। पोल status running होने तक GET /v1/gpu/instances/\{id\} है। यदि आवंटन या सेटअप समय पर तैयार नहीं हो सकता है, तो इंस्टेंस error पर चला जाता है और आवंटन स्वचालित रूप से रद्द हो जाता है।

POST

/v1/gpu/instances

1 curl -X POST https://api.empiriolabs.ai/v1/gpu/instances \
2      -H "Authorization: Bearer <token>" \
3      -H "Content-Type: application/json" \
4      -d '{
5   "gpu_slug": "rtx-4090"
6 }'

Try it

एक मॉडल तैनात करें

एक क्यूरेटेड template_slug पास करें या किसी भी Hugging Face रेपो आईडी पेस्ट करें। मॉडल परिनियोजन उदाहरण पर OpenAI-संगत /v1 समापन बिंदु से परोसा जाता है।

$ curl https://api.empiriolabs.ai/v1/gpu/instances \
>   -H "Authorization: Bearer $EMPIRIOLABS_API_KEY" \
>   -H "Content-Type: application/json" \
>   -d '{
>     "gpu_slug": "rtx-4090",
>     "mode": "model",
>     "hf_id": "Qwen/Qwen2.5-7B-Instruct"
>   }'

गेटेड रेपो के लिए, टोकन को env में पास करें:

1 {
2   "gpu_slug": "a100-80gb",
3   "mode": "model",
4   "hf_id": "meta-llama/Llama-3.1-8B-Instruct",
5   "env": { "HF_TOKEN": "hf_..." }
6 }

एक टेम्पलेट परिनियोजित करें

टेम्प्लेट ready-to-run वातावरण हैं। उपलब्ध टेम्पलेट्स में PyTorch + JupyterLab, ComfyUI, Web Terminal और Ollama शामिल हैं।

$ curl https://api.empiriolabs.ai/v1/gpu/instances \
>   -H "Authorization: Bearer $EMPIRIOLABS_API_KEY" \
>   -H "Content-Type: application/json" \
>   -d '{
>     "gpu_slug": "rtx-4090",
>     "mode": "template",
>     "template_slug": "pytorch-jupyter",
>     "disk_gb": 150
>   }'

एक कस्टम Docker छवि परिनियोजित करें

अपनी खुद की CUDA छवि चलाएं। CPU-केवल छवियां विफल हो सकती हैं क्योंकि रनटाइम GPU-संगत कंटेनर की अपेक्षा करता है।

$ curl https://api.empiriolabs.ai/v1/gpu/instances \
>   -H "Authorization: Bearer $EMPIRIOLABS_API_KEY" \
>   -H "Content-Type: application/json" \
>   -d '{
>     "gpu_slug": "rtx-4090",
>     "mode": "custom",
>     "image": "pytorch/pytorch:2.4.0-cuda12.1-cudnn9-runtime",
>     "ports": [8000],
>     "disk_gb": 150,
>     "env": { "MY_VAR": "value" }
>   }'

जीवनचक्र प्रबंधित करें

GET

/v1/gpu/instances

1 curl https://api.empiriolabs.ai/v1/gpu/instances \
2      -H "Authorization: Bearer <token>" \
3      -H "Content-Type: application/json"

Try it

GET

/v1/gpu/instances/:instance_id

1 curl https://api.empiriolabs.ai/v1/gpu/instances/instance_id \
2      -H "Authorization: Bearer <token>" \
3      -H "Content-Type: application/json"

Try it

POST

/v1/gpu/instances/:instance_id/:action

1 curl -X POST https://api.empiriolabs.ai/v1/gpu/instances/instance_id/stop \
2      -H "Authorization: Bearer <token>" \
3      -H "Content-Type: application/json" \
4      -d '{}'

Try it

स्थिति को फिर से सिंक करने के लिए refresh का उपयोग करें, चल रहे आवंटन को रिलीज़ करने और बिलिंग को रोकने के लिए stop करें, और सहेजे गए इंस्टेंस स्पेक को फिर से तैनात करने के लिए start करें।

$ curl -X POST https://api.empiriolabs.ai/v1/gpu/instances/$ID/stop \
>   -H "Authorization: Bearer $EMPIRIOLABS_API_KEY"

DELETE

/v1/gpu/instances/:instance_id

1 curl -X DELETE https://api.empiriolabs.ai/v1/gpu/instances/instance_id \
2      -H "Authorization: Bearer <token>" \
3      -H "Content-Type: application/json" \
4      -d '{}'

Try it

किसी उदाहरण को नष्ट करने से बिलिंग स्थायी रूप से बंद हो जाती है और उसे पूर्ववत नहीं किया जा सकता.

स्थितियाँ

स्थिति	अर्थ
`provisioning`	क्षमता का आवंटन किया जा रहा है।
`loading`	काम का बोझ शुरू हो रहा है या गर्म हो रहा है।
`running`	कार्यभार कनेक्ट पथ के माध्यम से पहुंचा जा सकता है और बिलिंग सक्रिय है।
`stopping`	एक स्टॉप या नष्ट ऑपरेशन लागू किया जा रहा है।
`stopped`	GPU बिलिंग रोक दी गई है। प्रारंभ सहेजे गए आवृत्ति युक्ति को ताज़ा रनटाइम डिस्क के साथ पुन: परिनियोजित करता है।
`error`	प्रोविज़निंग या रनटाइम सेटअप विफल रहा, या आवंटन समय पर तैयार नहीं हुआ। उदाहरण को ताज़ा या नष्ट किया जा सकता है।
`destroyed`	आवृत्ति को स्थायी रूप से निकाल दिया गया है।

चल रहे इंस्टेंस से कनेक्ट करें

अपनी EmpirioLabs API कुंजी के साथ कनेक्ट एंडपॉइंट का उपयोग करें। यह GET, POST, PUT, PATCH, DELETE और स्ट्रीमिंग प्रतिक्रियाओं का समर्थन करता है।

GET

/v1/gpu/connect/:instance_id/:path

1 curl https://api.empiriolabs.ai/v1/gpu/connect/instance_id/v1%2Fchat%2Fcompletions \
2      -H "Authorization: Bearer <token>" \
3      -H "Content-Type: application/json"

Try it

मॉडल परिनियोजन के लिए, उदाहरण पर OpenAI-संगत समापन बिंदु पर कॉल करें:

$ curl https://api.empiriolabs.ai/v1/gpu/connect/$ID/v1/chat/completions \
>   -H "Authorization: Bearer $EMPIRIOLABS_API_KEY" \
>   -H "Content-Type: application/json" \
>   -d '{
>     "model": "Qwen/Qwen2.5-7B-Instruct",
>     "messages": [{ "role": "user", "content": "Hello!" }]
>   }'

1 from openai import OpenAI
2 
3 client = OpenAI(
4     base_url="https://api.empiriolabs.ai/v1/gpu/connect/INSTANCE_ID/v1",
5     api_key="EMPIRIOLABS_API_KEY",
6 )
7 
8 resp = client.chat.completions.create(
9     model="Qwen/Qwen2.5-7B-Instruct",
10     messages=[{"role": "user", "content": "Hello!"}],
11 )
12 print(resp.choices[0].message.content)

JupyterLab, ComfyUI, Web Terminal, या Ollama के लिए, डैशबोर्ड से इंस्टेंस कनेक्ट URL खोलें या संबंधित कनेक्ट पथ पर अनुरोध भेजें।

डैशबोर्ड में अपने मॉडल के साथ चैट करें

जब आप एक मॉडल (या कोई भी उदाहरण जो OpenAI-संगत API की सेवा करता है) तैनात करते हैं, तो डैशबोर्ड आपको एक अंतर्निहित चैट पृष्ठ देता है ताकि आप बिना कोई कोड लिखे तुरंत मॉडल को आज़मा सकें। GPU Cloud पेज से इंस्टेंस खोलें और इस मॉडल के साथ चैट करें चुनें। चैट पेज प्रतिक्रियाओं को स्ट्रीम करता है, सिस्टम प्रॉम्प्ट और सामान्य सैंपलिंग नियंत्रण (तापमान, टॉप-पी, अधिकतम टोकन) का समर्थन करता है, और आपको मल्टीमॉडल मॉडल के लिए चित्र या ऑडियो संलग्न करने देता है। यह एपीआई के समान प्रमाणित कनेक्ट पथ के खिलाफ चलता है, इसलिए कोई अतिरिक्त सेटअप नहीं है और कोई अलग बिलिंग नहीं है: उदाहरण पहले से ही दूसरे द्वारा मीटर किया गया है।

एसएसएच और शेल एक्सेस

वेब टर्मिनल टेम्पलेट का उपयोग करें जब आपको कार्यभार के अंदर एक शेल की आवश्यकता होती है, या किसी कस्टम कंटेनर से HTTP सेवा को प्रदर्शित करें और /v1/gpu/connect/\{instance_id\}/\{path\} के माध्यम से उस तक पहुँचें।

उपयोग और बिलिंग रिकॉर्ड

GPU Cloud डैशबोर्ड चल रहा खर्च और आजीवन GPU खर्च दिखाता है। एपीआई जीवनचक्र प्रतिक्रियाओं में उदाहरण मूल्य, जीपीयू गणना, बिलिंग स्थिति और बिल राशि शामिल है ताकि आप अपने स्वयं के सिस्टम से उपयोग का समाधान कर सकें।