GPU Cloud | EmpirioLabs AI Docs

GPU Cloud 모델 서빙, 노트북, ComfyUI, 웹 터미널, 올라마 또는 자체 CUDA 이미지를 위한 관리 GPU 인스턴스를 제공합니다. 청구는 초 단위로 신용 잔액과 대조됩니다. 인증된 EmpirioLabs API 경로를 통해 실행 중인 워크로드에 연결하세요.

인스턴스는 대시보드의 GPU Cloud 페이지에서 관리하거나 여기 문서화된 API를 통해 관리할 수 있습니다.

작동 원리

카탈로그에서 GPU를 선택하세요. 각 행에는 VRAM, 시간당 가격, 그리고 정확한 사용 가능 인원이 표시됩니다.
워크로드를 선택하세요: 큐레이션된 모델, Hugging Face 모델 ID, 템플릿, 또는 커스텀 CUDA Docker 이미지.
인스턴스를 배포하세요. 대시보드 설정에는 현재 계정의 GPU 한도가 표시됩니다.
준비 완료를 기다려라. 새로운 인스턴스는 provisioning, loading, running를 거쳐 이동합니다.
**EmpirioLabs API 키를 사용해 API를 통해 연결하세요.
끝나면 멈추거나 파괴해라. 중단된 인스턴스는 GPU와 런타임 디스크를 해제하면서 배포 사양을 유지하여 새 출발을 가능하게 합니다. 파괴된 인스턴스는 영구적으로 제거됩니다.

가격 및 한도

가격은 GPU당 시간당 명시되고 초단위로 청구됩니다.
다중 GPU 배포는 listed hourly price x GPU count로 청구됩니다.
청구는 인스턴스가 running에 도달하면 시작됩니다.
인스턴스가 중단되거나 파괴되면 청구가 중단됩니다.
인스턴스를 배포하고 시작할 때는 초기 실행 창에 충분한 크레딧 잔액이 필요합니다.
잔액 임계값이 더 이상 충분하지 않을 경우 실행 중인 인스턴스는 자동으로 중단됩니다.
GPU Cloud 한도는 계좌 범위에 따라 다릅니다. 대시보드 설정에 유효 한도가 표시됩니다.
디스크 크기는 100GB에서 300GB까지 요청할 수 있습니다.

카탈로그를 둘러보세요

카탈로그는 고객 안전한 GPU 메타데이터, 가격 및 현재 가용성을 반환합니다.

GET

/v1/gpu/catalog

1 curl https://api.empiriolabs.ai/v1/gpu/catalog

시도하기

$ curl https://api.empiriolabs.ai/v1/gpu/catalog

1 {
2   "object": "list",
3   "data": [
4     {
5       "slug": "rtx-4090",
6       "name": "RTX 4090",
7       "vram_gb": 24,
8       "price_hourly": 0.65,
9       "available": true,
10       "available_count": 21,
11       "max_gpus": 8,
12       "regions": ["US", "EU"]
13     }
14   ]
15 }

GET

/v1/gpu/catalog/:slug

1 curl https://api.empiriolabs.ai/v1/gpu/catalog/rtx-4090

시도하기

인스턴스 배포

배포는 프로비저닝을 시작하고 provisioning 상태의 인스턴스를 반환합니다. status running될 때까지 설문 GET /v1/gpu/instances/\{id\}. 할당이나 설정이 제때 준비되지 않으면 인스턴스는 error로 이동하고 할당이 자동으로 취소됩니다.

POST

/v1/gpu/instances

1 curl -X POST https://api.empiriolabs.ai/v1/gpu/instances \
2      -H "Authorization: Bearer <token>" \
3      -H "Content-Type: application/json" \
4      -d '{
5   "gpu_slug": "rtx-4090"
6 }'

시도하기

모델 배포

큐레이션된 template_slug을 전달하거나 Hugging Face 저장소 ID를 붙여넣으세요. 모델 배포는 인스턴스 내 OpenAI 호환 /v1 엔드포인트에서 제공됩니다.

$ curl https://api.empiriolabs.ai/v1/gpu/instances \
>   -H "Authorization: Bearer $EMPIRIOLABS_API_KEY" \
>   -H "Content-Type: application/json" \
>   -d '{
>     "gpu_slug": "rtx-4090",
>     "mode": "model",
>     "hf_id": "Qwen/Qwen2.5-7B-Instruct"
>   }'

게이팅된 저장소의 경우, env에서 토큰을 전달하세요:

1 {
2   "gpu_slug": "a100-80gb",
3   "mode": "model",
4   "hf_id": "meta-llama/Llama-3.1-8B-Instruct",
5   "env": { "HF_TOKEN": "hf_..." }
6 }

템플릿 배포

템플릿은 ready-to-run 환경입니다. 사용 가능한 템플릿으로는 PyTorch + JupyterLab, ComfyUI, Web Terminal, 그리고 Ollama가 있습니다.

$ curl https://api.empiriolabs.ai/v1/gpu/instances \
>   -H "Authorization: Bearer $EMPIRIOLABS_API_KEY" \
>   -H "Content-Type: application/json" \
>   -d '{
>     "gpu_slug": "rtx-4090",
>     "mode": "template",
>     "template_slug": "pytorch-jupyter",
>     "disk_gb": 150
>   }'

커스텀 Docker 이미지 배포

직접 CUDA 이미지를 돌려보세요. CPU 전용 이미지는 실행 시간이 GPU 호환 컨테이너를 기대하기 때문에 실패할 수 있습니다.

$ curl https://api.empiriolabs.ai/v1/gpu/instances \
>   -H "Authorization: Bearer $EMPIRIOLABS_API_KEY" \
>   -H "Content-Type: application/json" \
>   -d '{
>     "gpu_slug": "rtx-4090",
>     "mode": "custom",
>     "image": "pytorch/pytorch:2.4.0-cuda12.1-cudnn9-runtime",
>     "ports": [8000],
>     "disk_gb": 150,
>     "env": { "MY_VAR": "value" }
>   }'

라이프사이클 관리

GET

/v1/gpu/instances

1 curl https://api.empiriolabs.ai/v1/gpu/instances \
2      -H "Authorization: Bearer <token>" \
3      -H "Content-Type: application/json"

시도하기

GET

/v1/gpu/instances/:instance_id

1 curl https://api.empiriolabs.ai/v1/gpu/instances/instance_id \
2      -H "Authorization: Bearer <token>" \
3      -H "Content-Type: application/json"

시도하기

POST

/v1/gpu/instances/:instance_id/:action

1 curl -X POST https://api.empiriolabs.ai/v1/gpu/instances/instance_id/stop \
2      -H "Authorization: Bearer <token>" \
3      -H "Content-Type: application/json" \
4      -d '{}'

시도하기

refresh를 사용해 상태를 다시 동기화하고, stop 실행 할당을 해제하고 청구를 일시정지하며, start 저장한 인스턴스 명세를 재배포하세요.

$ curl -X POST https://api.empiriolabs.ai/v1/gpu/instances/$ID/stop \
>   -H "Authorization: Bearer $EMPIRIOLABS_API_KEY"

DELETE

/v1/gpu/instances/:instance_id

1 curl -X DELETE https://api.empiriolabs.ai/v1/gpu/instances/instance_id \
2      -H "Authorization: Bearer <token>" \
3      -H "Content-Type: application/json" \
4      -d '{}'

시도하기

인스턴스를 파괴하면 청구가 영구적으로 중단되며 되돌릴 수 없습니다.

상태

현황	의미
`provisioning`	수용 인원이 배분되고 있습니다.
`loading`	업무량은 시작이거나 워밍이 되는 것입니다.
`running`	작업 부하는 연결 경로를 통해 접근 가능하며 청구가 활성화되어 있습니다.
`stopping`	정지 또는 파괴 작전이 적용되고 있습니다.
`stopped`	GPU 청구가 일시정지되었습니다. Start는 저장된 인스턴스 사양을 새 런타임 디스크와 함께 재배포합니다.
`error`	프로비저닝이나 런타임 설정이 실패했거나, 할당이 제때 준비되지 않았다. 인스턴스는 새로고침되거나 소멸될 수 있습니다.
`destroyed`	인스턴스는 영구적으로 삭제되었습니다.

실행 중인 인스턴스에 연결하세요

EmpirioLabs API 키로 Connect 엔드포인트를 사용하세요. GET, POST, PUT, PATCH, DELETE, 그리고 스트리밍 응답을 지원합니다.

GET

/v1/gpu/connect/:instance_id/:path

1 curl https://api.empiriolabs.ai/v1/gpu/connect/instance_id/v1%2Fchat%2Fcompletions \
2      -H "Authorization: Bearer <token>" \
3      -H "Content-Type: application/json"

시도하기

모델 배포를 위해 인스턴스에서 OpenAI 호환 엔드포인트를 호출합니다:

$ curl https://api.empiriolabs.ai/v1/gpu/connect/$ID/v1/chat/completions \
>   -H "Authorization: Bearer $EMPIRIOLABS_API_KEY" \
>   -H "Content-Type: application/json" \
>   -d '{
>     "model": "Qwen/Qwen2.5-7B-Instruct",
>     "messages": [{ "role": "user", "content": "Hello!" }]
>   }'

1 from openai import OpenAI
2 
3 client = OpenAI(
4     base_url="https://api.empiriolabs.ai/v1/gpu/connect/INSTANCE_ID/v1",
5     api_key="EMPIRIOLABS_API_KEY",
6 )
7 
8 resp = client.chat.completions.create(
9     model="Qwen/Qwen2.5-7B-Instruct",
10     messages=[{"role": "user", "content": "Hello!"}],
11 )
12 print(resp.choices[0].message.content)

JupyterLab, ComfyUI, Web Terminal, 또는 Ollama의 경우, 대시보드에서 인스턴스 연결 URL을 열거나 해당 연결 경로로 요청을 보내세요.

대시보드에서 모델과 채팅하세요

모델을 배포할 때(또는 OpenAI 호환 API를 제공하는 인스턴스), 대시보드는 내장 채팅 페이지를 제공하여 코드를 작성하지 않고도 바로 모델을 사용할 수 있습니다. GPU Cloud 페이지에서 인스턴스를 열고 이 모델과 채팅을 선택하세요. 채팅 페이지는 응답을 스트리밍하고, 시스템 프롬프트와 일반적인 샘플링 제어(온도, 탑 p, 최대 토큰)를 지원하며, 멀티모달 모델에 이미지나 오디오를 첨부할 수 있습니다. API와 동일한 인증된 연결 경로에서 실행되므로 추가 설정이나 별도의 청구 없이 인스턴스가 이미 초 단위로 미터화되어 있습니다.

SSH 및 셸 접근

워크로드 내에 셸이 필요할 때는 웹 터미널 템플릿을 사용하거나, 커스텀 컨테이너에서 HTTP 서비스를 노출해 /v1/gpu/connect/\{instance_id\}/\{path\}를 통해 접근할 수 있습니다.

사용 및 청구 기록

GPU Cloud 대시보드에는 실행 시간과 평생 GPU 사용량이 표시됩니다. API 수명 주기 응답에는 인스턴스 가격, GPU 수, 청구 상태, 청구 금액이 포함되어 있어 자체 시스템의 사용량을 조정할 수 있습니다.