GPU Cloud
Bereite verwaltete GPU-Instanzen aus, führe Modell- oder Docker-Workloads aus und verbinde dich über die EmpirioLabs-API.
GPU Cloud stellt verwaltete GPU-Instanzen für Model Serving, Notebooks, ComfyUI, Web Terminal, Ollama oder Ihr eigenes CUDA-Image bereit. Die Abrechnung wird sekzweit auf Ihren Kreditstand abgerechnet. Verbinden Sie sich mit laufenden Workloads über authentifizierte EmpirioLabs API-Pfade.
Sie können Instanzen über die GPU Cloud-Seite im Dashboard oder über die hier dokumentierte API verwalten.
Wie es funktioniert
- Wähle eine GPU aus dem Katalog. Jede Reihe zeigt VRAM, Stundenpreise und die genaue verfügbare Anzahl an.
- Wähle eine Arbeitslast: ein kuratiertes Modell, eine Hugging Face-Modell-ID, eine Vorlage oder ein benutzerdefiniertes CUDA-Docker-Image.
- Deploye die Instanz. Deine Dashboard-Einstellungen zeigen das aktuelle GPU-Limit für dein Konto an.
- Warte auf Bereitschaft. Neue Instanzen bewegen sich durch
provisioning, dannloading, dannrunning. - Verbinden Sie sich über die API mit Ihrem EmpirioLabs API-Schlüssel.
- Stopp oder zerstöre, wenn du fertig bist. Gestoppte Instanzen veröffentlichen die GPU und die Laufzeit-Diskette, während die Deploy-Spezifikation für einen Neuanfang erhalten bleibt. Zerstörte Instanzen werden dauerhaft entfernt.
Preisgestaltung und Limits
- Die Preise werden pro GPU und Stunde angegeben und nach Sekunde berechnet.
- Multi-GPU-Deployments werden als
listed hourly price x GPU countabgerechnet. - Die Abrechnung beginnt, wenn eine Instanz
runningerreicht. - Die Abrechnung stoppt, wenn eine Instanz gestoppt oder zerstört wird.
- Das Deployen und Starten einer Instanz erfordert genug Guthaben für das anfängliche Laufzeitfenster.
- Laufende Instanzen werden automatisch gestoppt, wenn die Balance-Schwelle nicht mehr ausreicht.
- GPU Cloud Limits sind account-scoped. Ihre Dashboard-Einstellungen zeigen Ihr effektives Limit an.
- Die Festplattengröße kann von 100 GB bis 300 GB angefordert werden.
Durchstöbern Sie den Katalog
Der Katalog liefert kundensichere GPU-Metadaten, Preise und aktuelle Verfügbarkeit.
Deployen Sie eine Instanz
Die Bereitstellung startet die Bereitstellung und gibt eine Instanz im provisioning Status zurück. Umfrage GET /v1/gpu/instances/\{id\}, bis status running ist. Wenn die Zuweisung oder Einrichtung nicht rechtzeitig bereit sein kann, wechselt die Instanz zu error und die Zuweisung wird automatisch storniert.
Bereitstellen Sie ein Modell ein
Reiche eine kuratierte template_slug oder füge eine beliebige Hugging Face-Repo-ID ein. Modellbereitstellungen werden von einem OpenAI-kompatiblen /v1-Endpunkt auf der Instanz bereitgestellt.
Für Gated Repos geben Sie den Token in env weiter:
Setzen Sie eine Vorlage bereit
Vorlagen sind ready-to-run Umgebungen. Verfügbare Vorlagen sind PyTorch + JupyterLab, ComfyUI, Web Terminal und Ollama.
Bereitstellen Sie ein benutzerdefiniertes Docker-Image bereit
Führe dein eigenes CUDA-Bild. CPU-only Images können ausfallen, weil die Laufzeit einen GPU-kompatiblen Container erwartet.
Lebenszyklus verwalten
Verwenden Sie refresh, um den Status neu zu synchronisieren, stop, um die laufende Zuweisung freizugeben und die Abrechnung zu pausieren, sowie start, um die gespeicherte Instanzspezifikation neu zu deployen.
Das Zerstören einer Instanz stoppt die Abrechnung dauerhaft und kann nicht rückgängig gemacht werden.
Status
Verbinden Sie sich mit einer laufenden Instanz
Verwenden Sie den Connect-Endpunkt mit Ihrem EmpirioLabs API-Schlüssel. Es unterstützt GET, POST, PUT, PATCH, DELETE und Streaming-Antworten.
Für eine Modellbereitstellung rufen Sie den OpenAI-kompatiblen Endpunkt auf der Instanz auf:
Für JupyterLab, ComfyUI, Web Terminal oder Ollama öffnen Sie die Instance Connect URL aus dem Dashboard oder senden Sie Anfragen an den entsprechenden Connect-Pfad.
Chatte mit deinem Modell im Dashboard
Wenn du ein Modell (oder eine beliebige Instanz, die eine OpenAI-kompatible API bedient) bereitstellst, gibt dir das Dashboard eine integrierte Chatseite, damit du das Modell sofort ausprobieren kannst, ohne Code schreiben zu müssen. Öffne die Instanz auf der GPU Cloud-Seite und wähle Mit diesem Modell chatten. Die Chat-Seite streamt Antworten, unterstützt eine Systemanweisung und die üblichen Sampling-Steuerungen (Temperatur, Top-P, maximale Tokens) und erlaubt es, Bilder oder Audio für multimodale Modelle anzuhängen. Es läuft mit demselben authentifizierten Connect-Pfad wie die API, daher gibt es keine zusätzliche Einrichtung und keine separate Abrechnung: Die Instanz wird bereits sekundenweise gemessen.
SSH und Shell-Zugriff
Verwenden Sie die Webterminal-Vorlage, wenn Sie eine Shell innerhalb der Arbeitslast benötigen, oder stellen Sie einen HTTP-Dienst aus einem benutzerdefinierten Container bereit und erreichen Sie ihn über /v1/gpu/connect/\{instance_id\}/\{path\}.
Nutzungs- und Abrechnungsaufzeichnungen
Das GPU Cloud-Dashboard zeigt laufende Ausgaben und lebenslange GPU-Ausgaben an. API-Lebenszyklus-Antworten beinhalten den Instanzpreis, die GPU-Anzahl, den Abrechnungsstatus und den Rechnungsbetrag, damit Sie die Nutzung von Ihren eigenen Systemen abgleichen können.
