GPU Cloud
Déploie des instances GPU gérées, exécute des charges de travail modèles ou Docker, et connecte-toi via l’API EmpirioLabs.
GPU Cloud fournit des instances GPU gérées pour le service de modèles, notebooks, ComfyUI, Web Terminal, Ollama, ou votre propre image CUDA. La facturation est mesurée par seconde par rapport à votre solde de crédit. Connectez-vous aux charges de travail en cours via des chemins API EmpirioLabs authentifiés.
Vous pouvez gérer les instances depuis la page du GPU Cloud dans le tableau de bord ou via l’API documentée ici.
Comment ça fonctionne
- Choisissez un GPU dans le catalogue. Chaque rangée affiche la VRAM, les tarifs horaires et le nombre exact disponible.
- Choisissez une charge de travail: un modèle sélectionné, un identifiant de modèle Hugging Face, un modèle ou une image Docker CUDA personnalisée.
- Déployez l’instance. Les paramètres de votre tableau de bord affichent la limite actuelle de GPU pour votre compte.
- Attendez la préparation. De nouvelles instances passent
provisioning, puisloading, puisrunning. - Connectez-vous via l’API en utilisant votre clé API EmpirioLabs.
- Arrête ou détruis quand tu as fini. Les instances arrêtées libèrent le GPU et le disque d’exécution tout en conservant la spécification de déploiement pour un nouveau départ. Les instances détruites sont définitivement supprimées.
Tarification et limites
- Les prix sont affichés par GPU et par heure et facturés par seconde.
- Les déploiements multi-GPU sont présentés comme
listed hourly price x GPU count. - La facturation commence lorsqu’une instance atteint
running. - La facturation s’arrête lorsqu’une instance est arrêtée ou détruite.
- Le déploiement et le démarrage d’une instance nécessitent un solde de crédit suffisant pour la fenêtre initiale d’exécution.
- Les instances en cours sont arrêtées automatiquement lorsque le seuil d’équilibre n’est plus suffisant.
- Les limites du GPU Cloud sont limitées par rapport au compte. Les paramètres de votre tableau de bord affichent votre limite effective.
- La taille du disque peut être demandée de 100 Go à 300 Go.
Parcourez le catalogue
Le catalogue restitue les métadonnées GPU sûres pour les clients, les prix et la disponibilité actuelle.
Déploie une instance
Le déploiement commence le provisionnement et renvoie une instance en statut provisioning. Faites GET /v1/gpu/instances/\{id\} sondage jusqu’à ce que status soit running. Si l’allocation ou la configuration ne peut pas être prête à temps, l’instance passe à error et l’allocation est automatiquement annulée.
Déploiement d’un modèle
Passez un template_slug sélectionné ou collez n’importe quel identifiant de dépôt Hugging Face. Les déploiements de modèles sont servis depuis un point de terminaison /v1 compatible OpenAI sur l’instance.
Pour les dépôts avec entrée, passez le jeton dans env:
Déploiement d’un modèle
Les modèles sont ready-to-run environnements. Les modèles disponibles incluent PyTorch + JupyterLab, ComfyUI, Web Terminal et Ollama.
Déploie une image Docker personnalisée
Lance ta propre image CUDA. Les images uniquement CPU peuvent échouer car le temps d’exécution attend un conteneur compatible GPU.
Gérer le cycle de vie
Utilisez refresh pour resynchroniser le statut, stop pour libérer l’allocation en cours d’exécution et mettre la facturation en pause, et start pour redéployer la spécification de l’instance sauvegardée.
Détruire une instance arrête définitivement la facturation et ne peut pas être annulée.
Statuts
Connectez-vous à une instance en cours d’exécution
Utilisez le point de terminaison Connect avec votre clé API EmpirioLabs. Il prend en charge les réponses OBTENIR, PUBLIER, METTRE, PATCHER, SUPPRIMER et streaming.
Pour un déploiement de modèle, appelez le point de terminaison compatible OpenAI sur l’instance:
Pour JupyterLab, ComfyUI, Web Terminal ou Ollama, ouvrez l’URL de connexion d’instance depuis le tableau de bord ou envoyez des requêtes au chemin de connexion correspondant.
Discutez avec votre modèle dans le tableau de bord
Lorsque vous déployez un modèle (ou toute instance qui propose une API compatible OpenAI), le tableau de bord vous propose une page de chat intégrée pour que vous puissiez essayer le modèle immédiatement sans avoir à écrire de code. Ouvre l’instance depuis la page du GPU Cloud et choisis Discuter avec ce modèle. La page de chat diffuse les réponses, prend en charge une invite système et les contrôles d’échantillonnage habituels (température, top-p, jetons max), et vous permet d’attacher des images ou de l’audio pour les modèles multimodaux. Il fonctionne sur le même chemin de connexion authentifié que l’API, donc il n’y a pas de configuration supplémentaire ni de facturation séparée: l’instance est déjà mesurée à la seconde.
SSH et accès à la coque
Utilisez le modèle Web Terminal lorsque vous avez besoin d’un shell dans la charge de travail, ou exposez un service HTTP depuis un conteneur personnalisé et accèdez-le via /v1/gpu/connect/\{instance_id\}/\{path\}.
Utilisation et enregistrements de facturation
Le tableau de bord du GPU Cloud affiche la consommation en cours et la consommation à vie du GPU. Les réponses au cycle de vie de l’API incluent le prix de l’instance, le nombre de GPU, le statut de facturation et le montant facturé afin de pouvoir concilier l’utilisation depuis vos propres systèmes.
