GPU Cloud | EmpirioLabs AI Docs

GPU Cloud proporciona instancias GPU gestionadas para servir modelos, portátiles, ComfyUI, Web Terminal, Ollama o tu propia imagen CUDA. La facturación se mide por segundo respecto a tu saldo crediticio. Conéctate para cargas de trabajo en ejecución a través de rutas API autenticadas de EmpirioLabs.

Puedes gestionar las instancias desde la página GPU Cloud en el panel de control o a través de la API documentada aquí.

Cómo funciona

Elige una GPU del catálogo. Cada fila muestra la VRAM, precios por hora y el recuento exacto disponible.
Elige una carga de trabajo: un modelo seleccionado, un id de modelo de Hugging Face, una plantilla o una imagen personalizada de CUDA Docker.
Despliega la instancia. La configuración de tu panel muestra el límite actual de GPU para tu cuenta.
Espera a que estén listos. Las nuevas instancias pasan por provisioning, luego loading y después running.
Conéctate a través de la API usando tu clave API de EmpirioLabs.
Para o destruye cuando termines. Las instancias detenidas liberan la GPU y el disco de ejecución mientras se conserva la especificación de despliegue para empezar de cero. Las instancias destruidas se eliminan permanentemente.

Precios y límites

Los precios se muestran por GPU y por hora y se facturan por segundo.
Los despliegues multi-GPU se presentan como listed hourly price x GPU count.
La facturación comienza cuando una instancia llega a running.
La facturación se detiene cuando una instancia se detiene o se destruye.
Desplegar y iniciar una instancia requiere suficiente saldo crediticio para la ventana inicial de ejecución.
Las instancias en ejecución se detienen automáticamente cuando el umbral de equilibrio ya no es suficiente.
GPU Cloud límites están definidos por el alcance de la cuenta. La configuración de tu panel muestra tu límite efectivo.
El tamaño del disco puede solicitarse desde 100 GB hasta 300 GB.

Consulta el catálogo

El catálogo devuelve metadatos de GPU, precios y disponibilidad actual para el cliente.

GET

/v1/gpu/catalog

1 curl https://api.empiriolabs.ai/v1/gpu/catalog

Pruébalo

$ curl https://api.empiriolabs.ai/v1/gpu/catalog

1 {
2   "object": "list",
3   "data": [
4     {
5       "slug": "rtx-4090",
6       "name": "RTX 4090",
7       "vram_gb": 24,
8       "price_hourly": 0.65,
9       "available": true,
10       "available_count": 21,
11       "max_gpus": 8,
12       "regions": ["US", "EU"]
13     }
14   ]
15 }

GET

/v1/gpu/catalog/:slug

1 curl https://api.empiriolabs.ai/v1/gpu/catalog/rtx-4090

Pruébalo

Despliega una instancia

El despliegue comienza a aprovisionar y devuelve una instancia en estado provisioning. Encuesta GET /v1/gpu/instances/\{id\} hasta que status esté running. Si la asignación o configuración no puede estar lista a tiempo, la instancia pasa a error y la asignación se cancela automáticamente.

POST

/v1/gpu/instances

1 curl -X POST https://api.empiriolabs.ai/v1/gpu/instances \
2      -H "Authorization: Bearer <token>" \
3      -H "Content-Type: application/json" \
4      -d '{
5   "gpu_slug": "rtx-4090"
6 }'

Pruébalo

Despliega un modelo

Entrega un template_slug seleccionado o pega cualquier id de repositorio de Hugging Face. Los despliegues de modelos se sirven desde un punto final /v1 compatible con OpenAI en la instancia.

$ curl https://api.empiriolabs.ai/v1/gpu/instances \
>   -H "Authorization: Bearer $EMPIRIOLABS_API_KEY" \
>   -H "Content-Type: application/json" \
>   -d '{
>     "gpu_slug": "rtx-4090",
>     "mode": "model",
>     "hf_id": "Qwen/Qwen2.5-7B-Instruct"
>   }'

Para repositorios bloqueados, pasa el token en env:

1 {
2   "gpu_slug": "a100-80gb",
3   "mode": "model",
4   "hf_id": "meta-llama/Llama-3.1-8B-Instruct",
5   "env": { "HF_TOKEN": "hf_..." }
6 }

Desplegar una plantilla

Las plantillas son ready-to-run entornos. Las plantillas disponibles incluyen PyTorch + JupyterLab, ComfyUI, Web Terminal y Ollama.

$ curl https://api.empiriolabs.ai/v1/gpu/instances \
>   -H "Authorization: Bearer $EMPIRIOLABS_API_KEY" \
>   -H "Content-Type: application/json" \
>   -d '{
>     "gpu_slug": "rtx-4090",
>     "mode": "template",
>     "template_slug": "pytorch-jupyter",
>     "disk_gb": 150
>   }'

Despliega una imagen Docker personalizada

Ejecuta tu propia imagen CUDA. Las imágenes solo de CPU pueden fallar porque el tiempo de ejecución espera un contenedor compatible con GPU.

$ curl https://api.empiriolabs.ai/v1/gpu/instances \
>   -H "Authorization: Bearer $EMPIRIOLABS_API_KEY" \
>   -H "Content-Type: application/json" \
>   -d '{
>     "gpu_slug": "rtx-4090",
>     "mode": "custom",
>     "image": "pytorch/pytorch:2.4.0-cuda12.1-cudnn9-runtime",
>     "ports": [8000],
>     "disk_gb": 150,
>     "env": { "MY_VAR": "value" }
>   }'

Gestionar el ciclo de vida

GET

/v1/gpu/instances

1 curl https://api.empiriolabs.ai/v1/gpu/instances \
2      -H "Authorization: Bearer <token>" \
3      -H "Content-Type: application/json"

Pruébalo

GET

/v1/gpu/instances/:instance_id

1 curl https://api.empiriolabs.ai/v1/gpu/instances/instance_id \
2      -H "Authorization: Bearer <token>" \
3      -H "Content-Type: application/json"

Pruébalo

POST

/v1/gpu/instances/:instance_id/:action

1 curl -X POST https://api.empiriolabs.ai/v1/gpu/instances/instance_id/stop \
2      -H "Authorization: Bearer <token>" \
3      -H "Content-Type: application/json" \
4      -d '{}'

Pruébalo

Usa refresh para volver a sincronizar el estado, stop para liberar la asignación en ejecución y pausar la facturación, y start para volver a desplegar la especificación de la instancia guardada.

$ curl -X POST https://api.empiriolabs.ai/v1/gpu/instances/$ID/stop \
>   -H "Authorization: Bearer $EMPIRIOLABS_API_KEY"

DELETE

/v1/gpu/instances/:instance_id

1 curl -X DELETE https://api.empiriolabs.ai/v1/gpu/instances/instance_id \
2      -H "Authorization: Bearer <token>" \
3      -H "Content-Type: application/json" \
4      -d '{}'

Pruébalo

Destruir una instancia deja de facturar de forma permanente y no se puede deshacer.

Estatus

Estado	Significado
`provisioning`	Se está asignando capacidad.
`loading`	La carga de trabajo está empezando o calentándose.
`running`	La carga de trabajo es accesible a través de la ruta de conexión y la facturación está activa.
`stopping`	Se está aplicando una operación de detener o destruir.
`stopped`	La facturación por GPU está pausada. Start vuelve a desplegar la especificación de instancia guardada con un disco de ejecución nuevo.
`error`	El aprovisionamiento o la configuración en tiempo de ejecución fallaron, o la asignación no estuvo lista a tiempo. La instancia puede actualizarse o destruirse.
`destroyed`	La instancia ha sido eliminada de forma permanente.

Conectarse a una instancia en ejecución

Utiliza el punto final de connect con tu clave API de EmpirioLabs. Soporta respuestas OBTENER, PUBLICAR, PONER, PARCHEAR, ELIMINAR y transmitir.

GET

/v1/gpu/connect/:instance_id/:path

1 curl https://api.empiriolabs.ai/v1/gpu/connect/instance_id/v1%2Fchat%2Fcompletions \
2      -H "Authorization: Bearer <token>" \
3      -H "Content-Type: application/json"

Pruébalo

Para un despliegue de modelo, llama al punto final compatible con OpenAI en la instancia:

$ curl https://api.empiriolabs.ai/v1/gpu/connect/$ID/v1/chat/completions \
>   -H "Authorization: Bearer $EMPIRIOLABS_API_KEY" \
>   -H "Content-Type: application/json" \
>   -d '{
>     "model": "Qwen/Qwen2.5-7B-Instruct",
>     "messages": [{ "role": "user", "content": "Hello!" }]
>   }'

1 from openai import OpenAI
2 
3 client = OpenAI(
4     base_url="https://api.empiriolabs.ai/v1/gpu/connect/INSTANCE_ID/v1",
5     api_key="EMPIRIOLABS_API_KEY",
6 )
7 
8 resp = client.chat.completions.create(
9     model="Qwen/Qwen2.5-7B-Instruct",
10     messages=[{"role": "user", "content": "Hello!"}],
11 )
12 print(resp.choices[0].message.content)

Para JupyterLab, ComfyUI, Web Terminal u Ollama, abre la URL de conexión de la instancia desde el panel de control o envía solicitudes a la ruta de conexión correspondiente.

Chatea con tu modelo en el panel de control

Cuando despliegas un modelo (o cualquier instancia que sirva a una API compatible con OpenAI), el panel de control te da una página de chat integrada para que puedas probar el modelo de inmediato sin necesidad de escribir código. Abre la instancia desde la página GPU Cloud y elige Chatear con este modelo. La página de chat transmite respuestas, soporta una indicación del sistema y los controles habituales de muestreo (temperatura, top-p, tokens máximos), y te permite adjuntar imágenes o audio para modelos multimodales. Funciona con la misma ruta de conexión autenticada que la API, así que no hay configuración adicional ni facturación separada: la instancia ya está medida por segundo.

SSH y acceso a la shell

Usa la plantilla de Terminal Web cuando necesites un shell dentro de la carga de trabajo, o expone un servicio HTTP desde un contenedor personalizado y accede a él a través de /v1/gpu/connect/\{instance_id\}/\{path\}.

Registros de uso y facturación

El panel de control de GPU Cloud muestra el gasto en marcha y el gasto de por vida en GPU. Las respuestas al ciclo de vida de la API incluyen el precio de la instancia, el recuento de GPU, el estado de facturación y el importe facturado para que puedas conciliar el uso desde tus propios sistemas.