GPU Cloud

प्रबंधित GPU इंस्टेंस को तैनात करें, मॉडल या डॉकर वर्कलोड चलाएं और EmpirioLabs API के माध्यम से कनेक्ट करें।

GPU Cloud प्रावधान मॉडल सर्विंग, नोटबुक, ComfyUI, वेब टर्मिनल, ओलामा, या आपकी अपनी CUDA छवि के लिए GPU उदाहरणों का प्रबंधन करते हैं। बिलिंग आपके क्रेडिट बैलेंस के खिलाफ दूसरे से मीटर की जाती है। प्रमाणित EmpirioLabs API पथों के माध्यम से चल रहे कार्यभार से कनेक्ट करें।

आप डैशबोर्ड में GPU Cloud पेज से या यहां प्रलेखित एपीआई के माध्यम से इंस्टेंस प्रबंधित कर सकते हैं।

यह काम किस प्रकार करता है

  1. कैटलॉग से एक GPU चुनें प्रत्येक पंक्ति वीआरएएम, प्रति घंटा मूल्य निर्धारण और सटीक उपलब्ध संख्या दिखाती है।
  2. एक कार्यभार चुनें: एक क्यूरेटेड मॉडल, एक Hugging Face मॉडल आईडी, एक टेम्पलेट, या एक कस्टम CUDA डॉकर छवि।
  3. उदाहरण तैनात करें। आपकी डैशबोर्ड सेटिंग्स आपके खाते के लिए वर्तमान GPU सीमा दिखाती हैं।
  4. तत्परता की प्रतीक्षा करें। नए उदाहरण provisioning के माध्यम से आगे बढ़ते हैं, फिर loading, फिर running
  5. **अपनी EmpirioLabs API कुंजी का उपयोग करके API के माध्यम से कनेक्ट करें।
  6. जब आपका काम पूरा हो जाए तो रुकें या नष्ट करें। रोके गए उदाहरण GPU और रनटाइम डिस्क को एक नई शुरुआत के लिए परिनियोजन युक्ति को संरक्षित करते हुए जारी करते हैं। नष्ट किए गए उदाहरणों को स्थायी रूप से हटा दिया जाता है।

मूल्य निर्धारण और सीमाएं

  • कीमतें प्रति GPU प्रति घंटे सूचीबद्ध होती हैं और दूसरे द्वारा बिल की जाती हैं।
  • मल्टी-GPU परिनियोजन को listed hourly price x GPU count के रूप में बिल किया जाता है।
  • बिलिंग तब शुरू होती है जब कोई इंस्टेंस running तक पहुंच जाता है.
  • बिलिंग तब बंद हो जाती है जब कोई आवृत्ति रोक दी जाती है या नष्ट कर दी जाती है.
  • परिनियोजन और प्रारंभ करने के लिए एक आवृत्ति प्रारंभिक चल रही विंडो के लिए पर्याप्त क्रेडिट शेष की आवश्यकता होती है।
  • चल रहे आवृत्तियों स्वचालित रूप से रोक दिए जाते हैं जब संतुलन थ्रेशोल्ड अब पर्याप्त नहीं है।
  • GPU Cloud सीमाएं खाता-स्कोप हैं। आपकी डैशबोर्ड सेटिंग्स आपकी प्रभावी सीमा दिखाती हैं।
  • डिस्क का आकार 100 जीबी से 300 जीबी तक का अनुरोध किया जा सकता है।

कैटलॉग ब्राउज़ करें

कैटलॉग ग्राहक-सुरक्षित GPU मेटाडेटा, मूल्य निर्धारण और वर्तमान उपलब्धता लौटाता है।

GET
/v1/gpu/catalog
1curl https://api.empiriolabs.ai/v1/gpu/catalog
$curl https://api.empiriolabs.ai/v1/gpu/catalog
1{
2 "object": "list",
3 "data": [
4 {
5 "slug": "rtx-4090",
6 "name": "RTX 4090",
7 "vram_gb": 24,
8 "price_hourly": 0.65,
9 "available": true,
10 "available_count": 21,
11 "max_gpus": 8,
12 "regions": ["US", "EU"]
13 }
14 ]
15}
GET
/v1/gpu/catalog/:slug
1curl https://api.empiriolabs.ai/v1/gpu/catalog/rtx-4090

एक आवृत्ति परिनियोजित करें

परिनियोजन प्रोविज़निंग प्रारंभ करता है और provisioning स्थिति में एक आवृत्ति लौटाता है। पोल status running होने तक GET /v1/gpu/instances/\{id\} है। यदि आवंटन या सेटअप समय पर तैयार नहीं हो सकता है, तो इंस्टेंस error पर चला जाता है और आवंटन स्वचालित रूप से रद्द हो जाता है।

POST
/v1/gpu/instances
1curl -X POST https://api.empiriolabs.ai/v1/gpu/instances \
2 -H "Authorization: Bearer <token>" \
3 -H "Content-Type: application/json" \
4 -d '{
5 "gpu_slug": "rtx-4090"
6}'

एक मॉडल तैनात करें

एक क्यूरेटेड template_slug पास करें या किसी भी Hugging Face रेपो आईडी पेस्ट करें। मॉडल परिनियोजन उदाहरण पर OpenAI-संगत /v1 समापन बिंदु से परोसा जाता है।

$curl https://api.empiriolabs.ai/v1/gpu/instances \
> -H "Authorization: Bearer $EMPIRIOLABS_API_KEY" \
> -H "Content-Type: application/json" \
> -d '{
> "gpu_slug": "rtx-4090",
> "mode": "model",
> "hf_id": "Qwen/Qwen2.5-7B-Instruct"
> }'

गेटेड रेपो के लिए, टोकन को env में पास करें:

1{
2 "gpu_slug": "a100-80gb",
3 "mode": "model",
4 "hf_id": "meta-llama/Llama-3.1-8B-Instruct",
5 "env": { "HF_TOKEN": "hf_..." }
6}

एक टेम्पलेट परिनियोजित करें

टेम्प्लेट ready-to-run वातावरण हैं। उपलब्ध टेम्पलेट्स में PyTorch + JupyterLab, ComfyUI, Web Terminal और Ollama शामिल हैं।

$curl https://api.empiriolabs.ai/v1/gpu/instances \
> -H "Authorization: Bearer $EMPIRIOLABS_API_KEY" \
> -H "Content-Type: application/json" \
> -d '{
> "gpu_slug": "rtx-4090",
> "mode": "template",
> "template_slug": "pytorch-jupyter",
> "disk_gb": 150
> }'

एक कस्टम Docker छवि परिनियोजित करें

अपनी खुद की CUDA छवि चलाएं। CPU-केवल छवियां विफल हो सकती हैं क्योंकि रनटाइम GPU-संगत कंटेनर की अपेक्षा करता है।

$curl https://api.empiriolabs.ai/v1/gpu/instances \
> -H "Authorization: Bearer $EMPIRIOLABS_API_KEY" \
> -H "Content-Type: application/json" \
> -d '{
> "gpu_slug": "rtx-4090",
> "mode": "custom",
> "image": "pytorch/pytorch:2.4.0-cuda12.1-cudnn9-runtime",
> "ports": [8000],
> "disk_gb": 150,
> "env": { "MY_VAR": "value" }
> }'

जीवनचक्र प्रबंधित करें

GET
/v1/gpu/instances
1curl https://api.empiriolabs.ai/v1/gpu/instances \
2 -H "Authorization: Bearer <token>" \
3 -H "Content-Type: application/json"
GET
/v1/gpu/instances/:instance_id
1curl https://api.empiriolabs.ai/v1/gpu/instances/instance_id \
2 -H "Authorization: Bearer <token>" \
3 -H "Content-Type: application/json"
POST
/v1/gpu/instances/:instance_id/:action
1curl -X POST https://api.empiriolabs.ai/v1/gpu/instances/instance_id/stop \
2 -H "Authorization: Bearer <token>" \
3 -H "Content-Type: application/json" \
4 -d '{}'

स्थिति को फिर से सिंक करने के लिए refresh का उपयोग करें, चल रहे आवंटन को रिलीज़ करने और बिलिंग को रोकने के लिए stop करें, और सहेजे गए इंस्टेंस स्पेक को फिर से तैनात करने के लिए start करें।

$curl -X POST https://api.empiriolabs.ai/v1/gpu/instances/$ID/stop \
> -H "Authorization: Bearer $EMPIRIOLABS_API_KEY"
DELETE
/v1/gpu/instances/:instance_id
1curl -X DELETE https://api.empiriolabs.ai/v1/gpu/instances/instance_id \
2 -H "Authorization: Bearer <token>" \
3 -H "Content-Type: application/json" \
4 -d '{}'

किसी उदाहरण को नष्ट करने से बिलिंग स्थायी रूप से बंद हो जाती है और उसे पूर्ववत नहीं किया जा सकता.

स्थितियाँ

स्थितिअर्थ
provisioningक्षमता का आवंटन किया जा रहा है।
loadingकाम का बोझ शुरू हो रहा है या गर्म हो रहा है।
runningकार्यभार कनेक्ट पथ के माध्यम से पहुंचा जा सकता है और बिलिंग सक्रिय है।
stoppingएक स्टॉप या नष्ट ऑपरेशन लागू किया जा रहा है।
stoppedGPU बिलिंग रोक दी गई है। प्रारंभ सहेजे गए आवृत्ति युक्ति को ताज़ा रनटाइम डिस्क के साथ पुन: परिनियोजित करता है।
errorप्रोविज़निंग या रनटाइम सेटअप विफल रहा, या आवंटन समय पर तैयार नहीं हुआ। उदाहरण को ताज़ा या नष्ट किया जा सकता है।
destroyedआवृत्ति को स्थायी रूप से निकाल दिया गया है।

चल रहे इंस्टेंस से कनेक्ट करें

अपनी EmpirioLabs API कुंजी के साथ कनेक्ट एंडपॉइंट का उपयोग करें। यह GET, POST, PUT, PATCH, DELETE और स्ट्रीमिंग प्रतिक्रियाओं का समर्थन करता है।

GET
/v1/gpu/connect/:instance_id/:path
1curl https://api.empiriolabs.ai/v1/gpu/connect/instance_id/v1%2Fchat%2Fcompletions \
2 -H "Authorization: Bearer <token>" \
3 -H "Content-Type: application/json"

मॉडल परिनियोजन के लिए, उदाहरण पर OpenAI-संगत समापन बिंदु पर कॉल करें:

$curl https://api.empiriolabs.ai/v1/gpu/connect/$ID/v1/chat/completions \
> -H "Authorization: Bearer $EMPIRIOLABS_API_KEY" \
> -H "Content-Type: application/json" \
> -d '{
> "model": "Qwen/Qwen2.5-7B-Instruct",
> "messages": [{ "role": "user", "content": "Hello!" }]
> }'
1from openai import OpenAI
2
3client = OpenAI(
4 base_url="https://api.empiriolabs.ai/v1/gpu/connect/INSTANCE_ID/v1",
5 api_key="EMPIRIOLABS_API_KEY",
6)
7
8resp = client.chat.completions.create(
9 model="Qwen/Qwen2.5-7B-Instruct",
10 messages=[{"role": "user", "content": "Hello!"}],
11)
12print(resp.choices[0].message.content)

JupyterLab, ComfyUI, Web Terminal, या Ollama के लिए, डैशबोर्ड से इंस्टेंस कनेक्ट URL खोलें या संबंधित कनेक्ट पथ पर अनुरोध भेजें।

डैशबोर्ड में अपने मॉडल के साथ चैट करें

जब आप एक मॉडल (या कोई भी उदाहरण जो OpenAI-संगत API की सेवा करता है) तैनात करते हैं, तो डैशबोर्ड आपको एक अंतर्निहित चैट पृष्ठ देता है ताकि आप बिना कोई कोड लिखे तुरंत मॉडल को आज़मा सकें। GPU Cloud पेज से इंस्टेंस खोलें और इस मॉडल के साथ चैट करें चुनें। चैट पेज प्रतिक्रियाओं को स्ट्रीम करता है, सिस्टम प्रॉम्प्ट और सामान्य सैंपलिंग नियंत्रण (तापमान, टॉप-पी, अधिकतम टोकन) का समर्थन करता है, और आपको मल्टीमॉडल मॉडल के लिए चित्र या ऑडियो संलग्न करने देता है। यह एपीआई के समान प्रमाणित कनेक्ट पथ के खिलाफ चलता है, इसलिए कोई अतिरिक्त सेटअप नहीं है और कोई अलग बिलिंग नहीं है: उदाहरण पहले से ही दूसरे द्वारा मीटर किया गया है।

एसएसएच और शेल एक्सेस

वेब टर्मिनल टेम्पलेट का उपयोग करें जब आपको कार्यभार के अंदर एक शेल की आवश्यकता होती है, या किसी कस्टम कंटेनर से HTTP सेवा को प्रदर्शित करें और /v1/gpu/connect/\{instance_id\}/\{path\} के माध्यम से उस तक पहुँचें।

उपयोग और बिलिंग रिकॉर्ड

GPU Cloud डैशबोर्ड चल रहा खर्च और आजीवन GPU खर्च दिखाता है। एपीआई जीवनचक्र प्रतिक्रियाओं में उदाहरण मूल्य, जीपीयू गणना, बिलिंग स्थिति और बिल राशि शामिल है ताकि आप अपने स्वयं के सिस्टम से उपयोग का समाधान कर सकें।