GPU Cloud | EmpirioLabs AI Docs

GPU Cloud fournit des instances GPU gérées pour le service de modèles, notebooks, ComfyUI, Web Terminal, Ollama, ou votre propre image CUDA. La facturation est mesurée par seconde par rapport à votre solde de crédit. Connectez-vous aux charges de travail en cours via des chemins API EmpirioLabs authentifiés.

Vous pouvez gérer les instances depuis la page du GPU Cloud dans le tableau de bord ou via l’API documentée ici.

Comment ça fonctionne

Choisissez un GPU dans le catalogue. Chaque rangée affiche la VRAM, les tarifs horaires et le nombre exact disponible.
Choisissez une charge de travail: un modèle sélectionné, un identifiant de modèle Hugging Face, un modèle ou une image Docker CUDA personnalisée.
Déployez l’instance. Les paramètres de votre tableau de bord affichent la limite actuelle de GPU pour votre compte.
Attendez la préparation. De nouvelles instances passent provisioning, puis loading, puis running.
Connectez-vous via l’API en utilisant votre clé API EmpirioLabs.
Arrête ou détruis quand tu as fini. Les instances arrêtées libèrent le GPU et le disque d’exécution tout en conservant la spécification de déploiement pour un nouveau départ. Les instances détruites sont définitivement supprimées.

Tarification et limites

Les prix sont affichés par GPU et par heure et facturés par seconde.
Les déploiements multi-GPU sont présentés comme listed hourly price x GPU count.
La facturation commence lorsqu’une instance atteint running.
La facturation s’arrête lorsqu’une instance est arrêtée ou détruite.
Le déploiement et le démarrage d’une instance nécessitent un solde de crédit suffisant pour la fenêtre initiale d’exécution.
Les instances en cours sont arrêtées automatiquement lorsque le seuil d’équilibre n’est plus suffisant.
Les limites du GPU Cloud sont limitées par rapport au compte. Les paramètres de votre tableau de bord affichent votre limite effective.
La taille du disque peut être demandée de 100 Go à 300 Go.

Parcourez le catalogue

Le catalogue restitue les métadonnées GPU sûres pour les clients, les prix et la disponibilité actuelle.

GET

/v1/gpu/catalog

1 curl https://api.empiriolabs.ai/v1/gpu/catalog

Essayer

$ curl https://api.empiriolabs.ai/v1/gpu/catalog

1 {
2   "object": "list",
3   "data": [
4     {
5       "slug": "rtx-4090",
6       "name": "RTX 4090",
7       "vram_gb": 24,
8       "price_hourly": 0.65,
9       "available": true,
10       "available_count": 21,
11       "max_gpus": 8,
12       "regions": ["US", "EU"]
13     }
14   ]
15 }

GET

/v1/gpu/catalog/:slug

1 curl https://api.empiriolabs.ai/v1/gpu/catalog/rtx-4090

Essayer

Déploie une instance

Le déploiement commence le provisionnement et renvoie une instance en statut provisioning. Faites GET /v1/gpu/instances/\{id\} sondage jusqu’à ce que status soit running. Si l’allocation ou la configuration ne peut pas être prête à temps, l’instance passe à error et l’allocation est automatiquement annulée.

POST

/v1/gpu/instances

1 curl -X POST https://api.empiriolabs.ai/v1/gpu/instances \
2      -H "Authorization: Bearer <token>" \
3      -H "Content-Type: application/json" \
4      -d '{
5   "gpu_slug": "rtx-4090"
6 }'

Essayer

Déploiement d’un modèle

Passez un template_slug sélectionné ou collez n’importe quel identifiant de dépôt Hugging Face. Les déploiements de modèles sont servis depuis un point de terminaison /v1 compatible OpenAI sur l’instance.

$ curl https://api.empiriolabs.ai/v1/gpu/instances \
>   -H "Authorization: Bearer $EMPIRIOLABS_API_KEY" \
>   -H "Content-Type: application/json" \
>   -d '{
>     "gpu_slug": "rtx-4090",
>     "mode": "model",
>     "hf_id": "Qwen/Qwen2.5-7B-Instruct"
>   }'

Pour les dépôts avec entrée, passez le jeton dans env:

1 {
2   "gpu_slug": "a100-80gb",
3   "mode": "model",
4   "hf_id": "meta-llama/Llama-3.1-8B-Instruct",
5   "env": { "HF_TOKEN": "hf_..." }
6 }

Déploiement d’un modèle

Les modèles sont ready-to-run environnements. Les modèles disponibles incluent PyTorch + JupyterLab, ComfyUI, Web Terminal et Ollama.

$ curl https://api.empiriolabs.ai/v1/gpu/instances \
>   -H "Authorization: Bearer $EMPIRIOLABS_API_KEY" \
>   -H "Content-Type: application/json" \
>   -d '{
>     "gpu_slug": "rtx-4090",
>     "mode": "template",
>     "template_slug": "pytorch-jupyter",
>     "disk_gb": 150
>   }'

Déploie une image Docker personnalisée

Lance ta propre image CUDA. Les images uniquement CPU peuvent échouer car le temps d’exécution attend un conteneur compatible GPU.

$ curl https://api.empiriolabs.ai/v1/gpu/instances \
>   -H "Authorization: Bearer $EMPIRIOLABS_API_KEY" \
>   -H "Content-Type: application/json" \
>   -d '{
>     "gpu_slug": "rtx-4090",
>     "mode": "custom",
>     "image": "pytorch/pytorch:2.4.0-cuda12.1-cudnn9-runtime",
>     "ports": [8000],
>     "disk_gb": 150,
>     "env": { "MY_VAR": "value" }
>   }'

Gérer le cycle de vie

GET

/v1/gpu/instances

1 curl https://api.empiriolabs.ai/v1/gpu/instances \
2      -H "Authorization: Bearer <token>" \
3      -H "Content-Type: application/json"

Essayer

GET

/v1/gpu/instances/:instance_id

1 curl https://api.empiriolabs.ai/v1/gpu/instances/instance_id \
2      -H "Authorization: Bearer <token>" \
3      -H "Content-Type: application/json"

Essayer

POST

/v1/gpu/instances/:instance_id/:action

1 curl -X POST https://api.empiriolabs.ai/v1/gpu/instances/instance_id/stop \
2      -H "Authorization: Bearer <token>" \
3      -H "Content-Type: application/json" \
4      -d '{}'

Essayer

Utilisez refresh pour resynchroniser le statut, stop pour libérer l’allocation en cours d’exécution et mettre la facturation en pause, et start pour redéployer la spécification de l’instance sauvegardée.

$ curl -X POST https://api.empiriolabs.ai/v1/gpu/instances/$ID/stop \
>   -H "Authorization: Bearer $EMPIRIOLABS_API_KEY"

DELETE

/v1/gpu/instances/:instance_id

1 curl -X DELETE https://api.empiriolabs.ai/v1/gpu/instances/instance_id \
2      -H "Authorization: Bearer <token>" \
3      -H "Content-Type: application/json" \
4      -d '{}'

Essayer

Détruire une instance arrête définitivement la facturation et ne peut pas être annulée.

Statuts

Statut	Signification
`provisioning`	La capacité est allouée.
`loading`	La charge de travail commence ou se réchauffe.
`running`	La charge de travail est accessible via le chemin de connexion et la facturation est active.
`stopping`	Une opération d’arrêt ou de destruction est en cours d’application.
`stopped`	La facturation GPU est en pause. Start redéploie la spécification d’instance enregistrée avec un disque d’exécution renouvelé.
`error`	Le provisionnement ou la configuration à l’exécution échouaient, ou l’allocation ne devenait pas prête à temps. L’instance peut être rafraîchie ou détruite.
`destroyed`	L’instance a été définitivement supprimée.

Connectez-vous à une instance en cours d’exécution

Utilisez le point de terminaison Connect avec votre clé API EmpirioLabs. Il prend en charge les réponses OBTENIR, PUBLIER, METTRE, PATCHER, SUPPRIMER et streaming.

GET

/v1/gpu/connect/:instance_id/:path

1 curl https://api.empiriolabs.ai/v1/gpu/connect/instance_id/v1%2Fchat%2Fcompletions \
2      -H "Authorization: Bearer <token>" \
3      -H "Content-Type: application/json"

Essayer

Pour un déploiement de modèle, appelez le point de terminaison compatible OpenAI sur l’instance:

$ curl https://api.empiriolabs.ai/v1/gpu/connect/$ID/v1/chat/completions \
>   -H "Authorization: Bearer $EMPIRIOLABS_API_KEY" \
>   -H "Content-Type: application/json" \
>   -d '{
>     "model": "Qwen/Qwen2.5-7B-Instruct",
>     "messages": [{ "role": "user", "content": "Hello!" }]
>   }'

1 from openai import OpenAI
2 
3 client = OpenAI(
4     base_url="https://api.empiriolabs.ai/v1/gpu/connect/INSTANCE_ID/v1",
5     api_key="EMPIRIOLABS_API_KEY",
6 )
7 
8 resp = client.chat.completions.create(
9     model="Qwen/Qwen2.5-7B-Instruct",
10     messages=[{"role": "user", "content": "Hello!"}],
11 )
12 print(resp.choices[0].message.content)

Pour JupyterLab, ComfyUI, Web Terminal ou Ollama, ouvrez l’URL de connexion d’instance depuis le tableau de bord ou envoyez des requêtes au chemin de connexion correspondant.

Discutez avec votre modèle dans le tableau de bord

Lorsque vous déployez un modèle (ou toute instance qui propose une API compatible OpenAI), le tableau de bord vous propose une page de chat intégrée pour que vous puissiez essayer le modèle immédiatement sans avoir à écrire de code. Ouvre l’instance depuis la page du GPU Cloud et choisis Discuter avec ce modèle. La page de chat diffuse les réponses, prend en charge une invite système et les contrôles d’échantillonnage habituels (température, top-p, jetons max), et vous permet d’attacher des images ou de l’audio pour les modèles multimodaux. Il fonctionne sur le même chemin de connexion authentifié que l’API, donc il n’y a pas de configuration supplémentaire ni de facturation séparée: l’instance est déjà mesurée à la seconde.

SSH et accès à la coque

Utilisez le modèle Web Terminal lorsque vous avez besoin d’un shell dans la charge de travail, ou exposez un service HTTP depuis un conteneur personnalisé et accèdez-le via /v1/gpu/connect/\{instance_id\}/\{path\}.

Utilisation et enregistrements de facturation

Le tableau de bord du GPU Cloud affiche la consommation en cours et la consommation à vie du GPU. Les réponses au cycle de vie de l’API incluent le prix de l’instance, le nombre de GPU, le statut de facturation et le montant facturé afin de pouvoir concilier l’utilisation depuis vos propres systèmes.