GPU Cloud | EmpirioLabs AI Docs

GPU Cloud stellt verwaltete GPU-Instanzen für Model Serving, Notebooks, ComfyUI, Web Terminal, Ollama oder Ihr eigenes CUDA-Image bereit. Die Abrechnung wird sekzweit auf Ihren Kreditstand abgerechnet. Verbinden Sie sich mit laufenden Workloads über authentifizierte EmpirioLabs API-Pfade.

Sie können Instanzen über die GPU Cloud-Seite im Dashboard oder über die hier dokumentierte API verwalten.

Wie es funktioniert

Wähle eine GPU aus dem Katalog. Jede Reihe zeigt VRAM, Stundenpreise und die genaue verfügbare Anzahl an.
Wähle eine Arbeitslast: ein kuratiertes Modell, eine Hugging Face-Modell-ID, eine Vorlage oder ein benutzerdefiniertes CUDA-Docker-Image.
Deploye die Instanz. Deine Dashboard-Einstellungen zeigen das aktuelle GPU-Limit für dein Konto an.
Warte auf Bereitschaft. Neue Instanzen bewegen sich durch provisioning, dann loading, dann running.
Verbinden Sie sich über die API mit Ihrem EmpirioLabs API-Schlüssel.
Stopp oder zerstöre, wenn du fertig bist. Gestoppte Instanzen veröffentlichen die GPU und die Laufzeit-Diskette, während die Deploy-Spezifikation für einen Neuanfang erhalten bleibt. Zerstörte Instanzen werden dauerhaft entfernt.

Preisgestaltung und Limits

Die Preise werden pro GPU und Stunde angegeben und nach Sekunde berechnet.
Multi-GPU-Deployments werden als listed hourly price x GPU count abgerechnet.
Die Abrechnung beginnt, wenn eine Instanz running erreicht.
Die Abrechnung stoppt, wenn eine Instanz gestoppt oder zerstört wird.
Das Deployen und Starten einer Instanz erfordert genug Guthaben für das anfängliche Laufzeitfenster.
Laufende Instanzen werden automatisch gestoppt, wenn die Balance-Schwelle nicht mehr ausreicht.
GPU Cloud Limits sind account-scoped. Ihre Dashboard-Einstellungen zeigen Ihr effektives Limit an.
Die Festplattengröße kann von 100 GB bis 300 GB angefordert werden.

Durchstöbern Sie den Katalog

Der Katalog liefert kundensichere GPU-Metadaten, Preise und aktuelle Verfügbarkeit.

GET

/v1/gpu/catalog

1 curl https://api.empiriolabs.ai/v1/gpu/catalog

Ausprobieren

$ curl https://api.empiriolabs.ai/v1/gpu/catalog

1 {
2   "object": "list",
3   "data": [
4     {
5       "slug": "rtx-4090",
6       "name": "RTX 4090",
7       "vram_gb": 24,
8       "price_hourly": 0.65,
9       "available": true,
10       "available_count": 21,
11       "max_gpus": 8,
12       "regions": ["US", "EU"]
13     }
14   ]
15 }

GET

/v1/gpu/catalog/:slug

1 curl https://api.empiriolabs.ai/v1/gpu/catalog/rtx-4090

Ausprobieren

Deployen Sie eine Instanz

Die Bereitstellung startet die Bereitstellung und gibt eine Instanz im provisioning Status zurück. Umfrage GET /v1/gpu/instances/\{id\}, bis status running ist. Wenn die Zuweisung oder Einrichtung nicht rechtzeitig bereit sein kann, wechselt die Instanz zu error und die Zuweisung wird automatisch storniert.

POST

/v1/gpu/instances

1 curl -X POST https://api.empiriolabs.ai/v1/gpu/instances \
2      -H "Authorization: Bearer <token>" \
3      -H "Content-Type: application/json" \
4      -d '{
5   "gpu_slug": "rtx-4090"
6 }'

Ausprobieren

Bereitstellen Sie ein Modell ein

Reiche eine kuratierte template_slug oder füge eine beliebige Hugging Face-Repo-ID ein. Modellbereitstellungen werden von einem OpenAI-kompatiblen /v1-Endpunkt auf der Instanz bereitgestellt.

$ curl https://api.empiriolabs.ai/v1/gpu/instances \
>   -H "Authorization: Bearer $EMPIRIOLABS_API_KEY" \
>   -H "Content-Type: application/json" \
>   -d '{
>     "gpu_slug": "rtx-4090",
>     "mode": "model",
>     "hf_id": "Qwen/Qwen2.5-7B-Instruct"
>   }'

Für Gated Repos geben Sie den Token in env weiter:

1 {
2   "gpu_slug": "a100-80gb",
3   "mode": "model",
4   "hf_id": "meta-llama/Llama-3.1-8B-Instruct",
5   "env": { "HF_TOKEN": "hf_..." }
6 }

Setzen Sie eine Vorlage bereit

Vorlagen sind ready-to-run Umgebungen. Verfügbare Vorlagen sind PyTorch + JupyterLab, ComfyUI, Web Terminal und Ollama.

$ curl https://api.empiriolabs.ai/v1/gpu/instances \
>   -H "Authorization: Bearer $EMPIRIOLABS_API_KEY" \
>   -H "Content-Type: application/json" \
>   -d '{
>     "gpu_slug": "rtx-4090",
>     "mode": "template",
>     "template_slug": "pytorch-jupyter",
>     "disk_gb": 150
>   }'

Bereitstellen Sie ein benutzerdefiniertes Docker-Image bereit

Führe dein eigenes CUDA-Bild. CPU-only Images können ausfallen, weil die Laufzeit einen GPU-kompatiblen Container erwartet.

$ curl https://api.empiriolabs.ai/v1/gpu/instances \
>   -H "Authorization: Bearer $EMPIRIOLABS_API_KEY" \
>   -H "Content-Type: application/json" \
>   -d '{
>     "gpu_slug": "rtx-4090",
>     "mode": "custom",
>     "image": "pytorch/pytorch:2.4.0-cuda12.1-cudnn9-runtime",
>     "ports": [8000],
>     "disk_gb": 150,
>     "env": { "MY_VAR": "value" }
>   }'

Lebenszyklus verwalten

GET

/v1/gpu/instances

1 curl https://api.empiriolabs.ai/v1/gpu/instances \
2      -H "Authorization: Bearer <token>" \
3      -H "Content-Type: application/json"

Ausprobieren

GET

/v1/gpu/instances/:instance_id

1 curl https://api.empiriolabs.ai/v1/gpu/instances/instance_id \
2      -H "Authorization: Bearer <token>" \
3      -H "Content-Type: application/json"

Ausprobieren

POST

/v1/gpu/instances/:instance_id/:action

1 curl -X POST https://api.empiriolabs.ai/v1/gpu/instances/instance_id/stop \
2      -H "Authorization: Bearer <token>" \
3      -H "Content-Type: application/json" \
4      -d '{}'

Ausprobieren

Verwenden Sie refresh, um den Status neu zu synchronisieren, stop, um die laufende Zuweisung freizugeben und die Abrechnung zu pausieren, sowie start, um die gespeicherte Instanzspezifikation neu zu deployen.

$ curl -X POST https://api.empiriolabs.ai/v1/gpu/instances/$ID/stop \
>   -H "Authorization: Bearer $EMPIRIOLABS_API_KEY"

DELETE

/v1/gpu/instances/:instance_id

1 curl -X DELETE https://api.empiriolabs.ai/v1/gpu/instances/instance_id \
2      -H "Authorization: Bearer <token>" \
3      -H "Content-Type: application/json" \
4      -d '{}'

Ausprobieren

Das Zerstören einer Instanz stoppt die Abrechnung dauerhaft und kann nicht rückgängig gemacht werden.

Status

Status	Bedeutung
`provisioning`	Die Kapazität wird zugeteilt.
`loading`	Die Arbeitsbelastung beginnt oder steigt an.
`running`	Die Arbeitslast ist über den Connect-Pfad erreichbar und die Abrechnung ist aktiv.
`stopping`	Es wird eine Stopp-oder-Zerstör-Operation durchgeführt.
`stopped`	Die GPU-Abrechnung ist pausiert. Start bereitet die gespeicherte Instanz-Spezifikation mit einer frischen Laufzeit-Festplatte neu aus.
`error`	Die Bereitstellung oder Laufzeiteinrichtung scheiterte oder die Zuweisung wurde nicht rechtzeitig bereit. Die Instanz kann aktualisiert oder zerstört werden.
`destroyed`	Die Instanz wurde dauerhaft entfernt.

Verbinden Sie sich mit einer laufenden Instanz

Verwenden Sie den Connect-Endpunkt mit Ihrem EmpirioLabs API-Schlüssel. Es unterstützt GET, POST, PUT, PATCH, DELETE und Streaming-Antworten.

GET

/v1/gpu/connect/:instance_id/:path

1 curl https://api.empiriolabs.ai/v1/gpu/connect/instance_id/v1%2Fchat%2Fcompletions \
2      -H "Authorization: Bearer <token>" \
3      -H "Content-Type: application/json"

Ausprobieren

Für eine Modellbereitstellung rufen Sie den OpenAI-kompatiblen Endpunkt auf der Instanz auf:

$ curl https://api.empiriolabs.ai/v1/gpu/connect/$ID/v1/chat/completions \
>   -H "Authorization: Bearer $EMPIRIOLABS_API_KEY" \
>   -H "Content-Type: application/json" \
>   -d '{
>     "model": "Qwen/Qwen2.5-7B-Instruct",
>     "messages": [{ "role": "user", "content": "Hello!" }]
>   }'

1 from openai import OpenAI
2 
3 client = OpenAI(
4     base_url="https://api.empiriolabs.ai/v1/gpu/connect/INSTANCE_ID/v1",
5     api_key="EMPIRIOLABS_API_KEY",
6 )
7 
8 resp = client.chat.completions.create(
9     model="Qwen/Qwen2.5-7B-Instruct",
10     messages=[{"role": "user", "content": "Hello!"}],
11 )
12 print(resp.choices[0].message.content)

Für JupyterLab, ComfyUI, Web Terminal oder Ollama öffnen Sie die Instance Connect URL aus dem Dashboard oder senden Sie Anfragen an den entsprechenden Connect-Pfad.

Chatte mit deinem Modell im Dashboard

Wenn du ein Modell (oder eine beliebige Instanz, die eine OpenAI-kompatible API bedient) bereitstellst, gibt dir das Dashboard eine integrierte Chatseite, damit du das Modell sofort ausprobieren kannst, ohne Code schreiben zu müssen. Öffne die Instanz auf der GPU Cloud-Seite und wähle Mit diesem Modell chatten. Die Chat-Seite streamt Antworten, unterstützt eine Systemanweisung und die üblichen Sampling-Steuerungen (Temperatur, Top-P, maximale Tokens) und erlaubt es, Bilder oder Audio für multimodale Modelle anzuhängen. Es läuft mit demselben authentifizierten Connect-Pfad wie die API, daher gibt es keine zusätzliche Einrichtung und keine separate Abrechnung: Die Instanz wird bereits sekundenweise gemessen.

SSH und Shell-Zugriff

Verwenden Sie die Webterminal-Vorlage, wenn Sie eine Shell innerhalb der Arbeitslast benötigen, oder stellen Sie einen HTTP-Dienst aus einem benutzerdefinierten Container bereit und erreichen Sie ihn über /v1/gpu/connect/\{instance_id\}/\{path\}.

Nutzungs- und Abrechnungsaufzeichnungen

Das GPU Cloud-Dashboard zeigt laufende Ausgaben und lebenslange GPU-Ausgaben an. API-Lebenszyklus-Antworten beinhalten den Instanzpreis, die GPU-Anzahl, den Abrechnungsstatus und den Rechnungsbetrag, damit Sie die Nutzung von Ihren eigenen Systemen abgleichen können.