GPU Cloud
マネージドGPUインスタンスをデプロイし、モデルやDockerワークロードを実行し、EmpirioLabs APIを通じて接続できます。
GPU Cloudは、モデルサービング、ノートブック、ComfyUI、Web Terminal、Ollama、または自社のCUDAイメージのためにマネージドGPUインスタンスをプロビジョニングします。請求は単位ごとにクレジット残高と計測されます。認証済みのEmpirioLabsのAPIパスを通じて実行中のワークロードに接続します。
ダッシュボードのGPU Cloudページや、ここでドキュメントに記載されているAPIからインスタンスを管理できます。
仕組み
- **カタログからGPUを選んでください。各行はVRAM、時間別価格、そして正確な利用可能な数を示しています。
- **ワークロードを選択してください:キュレーションされたモデル、Hugging FaceのモデルID、テンプレート、またはカスタムCUDAのDockerイメージ。
- インスタンスを展開してください。ダッシュボードの設定にはアカウントの現在のGPU制限が表示されています。
- 準備を待て。新しいインスタンスは
provisioning、次にloading、runningを経て進みます。 - **EmpirioLabsのAPIキーを使ってAPI経由で接続してください。
- 終わったら止めるか破壊しろ。停止されたインスタンスはGPUとランタイムディスクを解放しつつ、デプロイ仕様は保持して新たなスタートを可能にします。破壊されたインスタンスは永久に削除されます。
価格設定と制限
- 価格はGPU1時間あたりで記載され、秒単位で請求されます。
- マルチGPU展開は
listed hourly price x GPU countとして請求されます。 - 請求はインスタンスが
runningに達した時点で始まります。 - インスタンスが停止または破棄されると請求が停止します。
- インスタンスの展開と開始には、最初の実行期間に十分なクレジット残高が必要です。
- 残高閾値がもはや十分でなくなった場合、実行中のインスタンスは自動的に停止されます。
- GPU Cloudの上限はアカウントごとに異なります。ダッシュボードの設定には実効制限が表示されます。
- ディスクサイズは100GBから300GBまでリクエスト可能です。
カタログを閲覧してください
このカタログは顧客に安全なGPUメタデータ、価格、現在の在庫状況を返します。
インスタンスをデプロイする
デプロイはプロビジョニングを開始し、provisioning状態のインスタンスを返します。statusがrunningされるまで投票GET /v1/gpu/instances/\{id\}。割り当てやセットアップが時間内に準備できない場合、インスタンスはerrorに移動し、割り当ては自動的にキャンセルされます。
モデルを展開する
キュレーションされたtemplate_slugを渡すか、Hugging FaceのリポジトリIDを貼り付けてください。モデル展開はインスタンス上のOpenAI互換/v1エンドポイントから提供されます。
ゲート付きリポジトリの場合は、トークンをenvで渡します:
テンプレートをデプロイする
テンプレートはready-to-run環境です。利用可能なテンプレートにはPyTorch + JupyterLab、ComfyUI、Web Terminal、Ollamaなどがあります。
カスタムDockerイメージをデプロイしてください
自分でCUDA画像を動かしてください。CPU専用イメージは、ランタイムがGPU互換コンテナを期待しているため失敗することがあります。
ライフサイクル管理
refreshでステータスを再同期し、stopで実行中の割り当てを解放し、請求を一時停止し、startで保存したインスタンス仕様を再デプロイします。
インスタンスを破棄すると請求が永久に停止し、元に戻すことはできません。
現状
実行中のインスタンスに接続する
EmpirioLabsのAPIキーでConnectエンドポイントを使いましょう。GET、POST、PUT、パッチ、削除、そしてレスポンス配信に対応しています。
モデル展開の場合、インスタンス上のOpenAI互換エンドポイントを呼び出します:
JupyterLab、ComfyUI、Web Terminal、またはOllamaの場合は、ダッシュボードからインスタンス接続URLを開くか、該当する接続パスにリクエストを送信してください。
ダッシュボードでモデルとチャットしてください
モデル(またはOpenAI互換APIを提供するインスタンス)をデプロイすると、ダッシュボードには組み込みのチャットページが表示され、コードを書かずにすぐにモデルを試すことができます。GPU Cloudページからインスタンスを開き、このモデルでチャットを選択してください。チャットページは応答をストリーミングし、システムプロンプトや通常のサンプリングコントロール(温度、トップp、最大トークン)をサポートし、マルチモーダルモデル用の画像や音声を添付できます。APIと同じ認証済みコネクトパスで動作するため、追加の設定や個別の請求は不要です。インスタンスはすでに秒単位でメーター化されています。
SSHとシェルアクセス
ワークロード内にシェルが必要な場合はWebターミナルテンプレートを使うか、カスタムコンテナからHTTPサービスを公開して/v1/gpu/connect/\{instance_id\}/\{path\}経由でアクセスしてください。
使用および請求記録
GPU Cloudダッシュボードにはランニング消費とライフタイムGPU消費が表示されます。APIライフサイクルの応答には、インスタンス価格、GPU数、請求状況、請求金額が含まれ、自社システムの使用量を照合できます。
