GPU Cloud
Implante instâncias gerenciadas de GPU, execute workloads de modelos ou Docker e conecte-se pela API do EmpirioLabs.
GPU Cloud fornece instâncias gerenciadas de GPU para servir modelos, notebooks, ComfyUI, Web Terminal, Ollama ou sua própria imagem CUDA. A cobrança é medida por segundo em relação ao seu saldo de crédito. Conecte-se a cargas de trabalho em execução por caminhos autenticados da API do EmpirioLabs.
Você pode gerenciar instâncias a partir da página da GPU Cloud no painel ou através da API documentada aqui.
Como funciona
- Escolha uma GPU do catálogo. Cada linha mostra VRAM, preços por hora e a contagem exata disponível.
- Escolha uma carga de trabalho: um modelo selecionado, um id de modelo Hugging Face, um template ou uma imagem personalizada do CUDA Docker.
- Implante a instância. As configurações do seu painel mostram o limite atual da GPU para sua conta.
- Espere pela prontidão. Novas instâncias passam por
provisioning, depoisloading, depoisrunning. - Conecte-se pela API usando sua chave API do EmpirioLabs.
- Pare ou destrua quando terminar. Instâncias paradas liberam a GPU e o disco de runtime enquanto preservam a especificação de deploy para um recomeço. Instâncias destruídas são removidas permanentemente.
Preços e limites
- Os preços são listados por GPU por hora e cobrados por segundo.
- Implantações multi-GPU são chamadas de
listed hourly price x GPU count. - O faturamento começa quando uma instância chega ao
running. - O faturamento para quando uma instância é interrompida ou destruída.
- Implantar e iniciar uma instância exige saldo de crédito suficiente para a janela inicial de execução.
- Instâncias em execução são interrompidas automaticamente quando o limiar de saldo não é mais suficiente.
- GPU Cloud limites são definidos pelo escopo da conta. As configurações do seu painel mostram seu limite efetivo.
- O tamanho do disco pode ser solicitado de 100 GB a 300 GB.
Navegue pelo catálogo
O catálogo retorna metadados seguros para o cliente da GPU, preços e disponibilidade atual.
Implantar uma instância
A implantação começa a provisionar e retorna uma instância em status provisioning. A enquete GET /v1/gpu/instances/\{id\} até status running. Se a alocação ou configuração não puder ficar pronta a tempo, a instância passa para error e a alocação é cancelada automaticamente.
Implantar um modelo
Passe um template_slug selecionado ou cole qualquer ID de repositório do Hugging Face. As implantações de modelos são atendidas a partir de um endpoint /v1 compatível com OpenAI na instância.
Para repositórios bloqueados, passe o token em env:
Implante um template
Templates são ready-to-run ambientes. Os modelos disponíveis incluem PyTorch + JupyterLab, ComfyUI, Web Terminal e Ollama.
Implantar uma imagem Docker personalizada
Execute sua própria imagem CUDA. Imagens apenas de CPU podem falhar porque o tempo de execução espera um container compatível com GPU.
Gerencie o ciclo de vida
Use refresh para resincronizar o status, stop liberar a alocação em execução e pausar a faturação, e start para reimplantar a especificação da instância salva.
Destruir uma instância para de cobrar permanentemente e não pode ser desfeito.
Status
Conecte-se a uma instância em execução
Use o endpoint Connect com sua chave API do EmpirioLabs. Ele suporta OBTENÇÃO, POST, COLOCAÇÃO, PATCH, EXCLUSÃO e respostas de streaming.
Para uma implantação de modelo, chame o endpoint compatível com OpenAI na instância:
Para JupyterLab, ComfyUI, Web Terminal ou Ollama, abra a URL de conexão da instância a partir do painel ou envie requisições para o caminho de conexão relevante.
Converse com seu modelo no painel
Quando você implanta um modelo (ou qualquer instância que atenda a uma API compatível com OpenAI), o painel te dá uma página de chat embutida para que você possa testar o modelo imediatamente, sem precisar escrever código. Abra a instância na página GPU Cloud e escolha Conversar com este modelo. A página de chat transmite respostas, suporta um prompt do sistema e os controles usuais de amostragem (temperatura, top-p, tokens máximos) e permite que você anexe imagens ou áudio para modelos multimodais. Ele roda contra o mesmo caminho de conexão autenticado da API, então não há configuração extra nem faturamento separado: a instância já é medida por segundo.
SSH e acesso ao shell
Use o template Web Terminal quando precisar de um shell dentro da carga de trabalho, ou exponha um serviço HTTP de um container personalizado e acesse ele pelo /v1/gpu/connect/\{instance_id\}/\{path\}.
Registros de uso e faturamento
O painel da GPU Cloud mostra o gasto em execução e o gasto vitalício da GPU. As respostas do ciclo de vida da API incluem o preço da instância, contagem de GPUs, status de faturamento e valor faturado para que você possa conciliar o uso a partir dos seus próprios sistemas.
