GPU Cloud
Despliega instancias gestionadas de GPU, ejecuta cargas de trabajo de modelos o Docker, y conéctate a través de la API de EmpirioLabs.
GPU Cloud proporciona instancias GPU gestionadas para servir modelos, portátiles, ComfyUI, Web Terminal, Ollama o tu propia imagen CUDA. La facturación se mide por segundo respecto a tu saldo crediticio. Conéctate para cargas de trabajo en ejecución a través de rutas API autenticadas de EmpirioLabs.
Puedes gestionar las instancias desde la página GPU Cloud en el panel de control o a través de la API documentada aquí.
Cómo funciona
- Elige una GPU del catálogo. Cada fila muestra la VRAM, precios por hora y el recuento exacto disponible.
- Elige una carga de trabajo: un modelo seleccionado, un id de modelo de Hugging Face, una plantilla o una imagen personalizada de CUDA Docker.
- Despliega la instancia. La configuración de tu panel muestra el límite actual de GPU para tu cuenta.
- Espera a que estén listos. Las nuevas instancias pasan por
provisioning, luegoloadingy despuésrunning. - Conéctate a través de la API usando tu clave API de EmpirioLabs.
- Para o destruye cuando termines. Las instancias detenidas liberan la GPU y el disco de ejecución mientras se conserva la especificación de despliegue para empezar de cero. Las instancias destruidas se eliminan permanentemente.
Precios y límites
- Los precios se muestran por GPU y por hora y se facturan por segundo.
- Los despliegues multi-GPU se presentan como
listed hourly price x GPU count. - La facturación comienza cuando una instancia llega a
running. - La facturación se detiene cuando una instancia se detiene o se destruye.
- Desplegar y iniciar una instancia requiere suficiente saldo crediticio para la ventana inicial de ejecución.
- Las instancias en ejecución se detienen automáticamente cuando el umbral de equilibrio ya no es suficiente.
- GPU Cloud límites están definidos por el alcance de la cuenta. La configuración de tu panel muestra tu límite efectivo.
- El tamaño del disco puede solicitarse desde 100 GB hasta 300 GB.
Consulta el catálogo
El catálogo devuelve metadatos de GPU, precios y disponibilidad actual para el cliente.
Despliega una instancia
El despliegue comienza a aprovisionar y devuelve una instancia en estado provisioning. Encuesta GET /v1/gpu/instances/\{id\} hasta que status esté running. Si la asignación o configuración no puede estar lista a tiempo, la instancia pasa a error y la asignación se cancela automáticamente.
Despliega un modelo
Entrega un template_slug seleccionado o pega cualquier id de repositorio de Hugging Face. Los despliegues de modelos se sirven desde un punto final /v1 compatible con OpenAI en la instancia.
Para repositorios bloqueados, pasa el token en env:
Desplegar una plantilla
Las plantillas son ready-to-run entornos. Las plantillas disponibles incluyen PyTorch + JupyterLab, ComfyUI, Web Terminal y Ollama.
Despliega una imagen Docker personalizada
Ejecuta tu propia imagen CUDA. Las imágenes solo de CPU pueden fallar porque el tiempo de ejecución espera un contenedor compatible con GPU.
Gestionar el ciclo de vida
Usa refresh para volver a sincronizar el estado, stop para liberar la asignación en ejecución y pausar la facturación, y start para volver a desplegar la especificación de la instancia guardada.
Destruir una instancia deja de facturar de forma permanente y no se puede deshacer.
Estatus
Conectarse a una instancia en ejecución
Utiliza el punto final de connect con tu clave API de EmpirioLabs. Soporta respuestas OBTENER, PUBLICAR, PONER, PARCHEAR, ELIMINAR y transmitir.
Para un despliegue de modelo, llama al punto final compatible con OpenAI en la instancia:
Para JupyterLab, ComfyUI, Web Terminal u Ollama, abre la URL de conexión de la instancia desde el panel de control o envía solicitudes a la ruta de conexión correspondiente.
Chatea con tu modelo en el panel de control
Cuando despliegas un modelo (o cualquier instancia que sirva a una API compatible con OpenAI), el panel de control te da una página de chat integrada para que puedas probar el modelo de inmediato sin necesidad de escribir código. Abre la instancia desde la página GPU Cloud y elige Chatear con este modelo. La página de chat transmite respuestas, soporta una indicación del sistema y los controles habituales de muestreo (temperatura, top-p, tokens máximos), y te permite adjuntar imágenes o audio para modelos multimodales. Funciona con la misma ruta de conexión autenticada que la API, así que no hay configuración adicional ni facturación separada: la instancia ya está medida por segundo.
SSH y acceso a la shell
Usa la plantilla de Terminal Web cuando necesites un shell dentro de la carga de trabajo, o expone un servicio HTTP desde un contenedor personalizado y accede a él a través de /v1/gpu/connect/\{instance_id\}/\{path\}.
Registros de uso y facturación
El panel de control de GPU Cloud muestra el gasto en marcha y el gasto de por vida en GPU. Las respuestas al ciclo de vida de la API incluyen el precio de la instancia, el recuento de GPU, el estado de facturación y el importe facturado para que puedas conciliar el uso desde tus propios sistemas.
