大規模言語モデル(LLM)のトレーニングやLlama 3の微調整にH100 GPUが必要なとき、エンタープライズ営業担当者と電話をしたくありません。ノードを起動し、SSHで入って、トレーニングを開始したいのです。

それ以上に、実際にいくらになるか知りたいです。

主な специализированные cloud providersでリアルタイムの 가격を追跡して、シンプルな 질문に答えました:今、H100レンタルで最も安いのは誰ですか?

H100価格の現状

NVIDIAのH100はAIワークロードのゴールドスタンダードですが、価格は有很大的差异。同じコンピューティング powerに対して最も安いプロバイダーと最も高いプロバイダーの間で40%以上の差を見つけました。

オンデマンド価格の現在のスナップショット(GPU/時間あたり):

プロバイダー 価格(オンデマンド) 可用性 メモ
Vast.ai ~$1.80 - $2.20 変動 コミュニティクラウド;信頼性は様々。
RunPod $2.69 高い 素晴らしいDX、「Secure Cloud」オプション。
Lambda Labs $2.49 低い しばしば品切れ;純粋な安定性の最高の価値。
CoreWeave 営業に連絡 低い エンタープライズ向け。
Paperspace $3.09 中程度 使いやすいが、より高い。

「隠された」安価なGPUのコスト

表を見ると、Vast.aiが勝者のようです。そして、费用の制约があり中断を許容できるならそうです。しかし、注意点があります。

Vast.aiは消費者と予備のエンタープライズハードウェアを集めています。「最も安い」とは Often、tier 3データセンター(または誰かのbasement)で consumer-gradeインターネット帯域幅を持つマシンをレンタルすることを意味します。マルチノードトレーニングにとって、この遅延はパフォーマンスを杀伤し、コスト節約を帳消しにします。

RunPodLambdaはスイートスポットを提供します: garant uptimeと高速な相互接続(Infinibandまたは高速Ethernet)を備えたtier 1データセンターで、CFOを泣かせない価格で。

スポットインスタンス: реальная節約

中断を処理できる場合(坚牢なチェックポイントコードを持っているなら)、スポットインスタンスが الحقيقيの価値がある場所です。

RunPodでH100スポットインスタンスが$1.99/時まで出现的のを見かけました。これはAWSやAzureで支払うことになる$3.50+(そこにクォータがある場合でさえ)とは大幅に安いです。

推奨

私たちのピック

  • 実験とデバッグのため:RunPod Secure Cloudに行ってください。インスタントで信頼性が高く、Docker experienceはシームレスです。
  • 長いトレーニング_RUNのため:Lambda Labsの可用性を待つ、または8つ以上のGPUが必要なら予約インスタンス契約にコミットしてください。
  • 最大の倹約のため:Vast.ai、しかし接続を密接に監視してください。

結論

「最も安い」H100は常に最低のhourly tagを持つものではありません。クラッシュ、ストール、またはデータの损失なしにトレーニング_RUNを終了できるものです。

私たちはメインの追跡テーブルを毎時間更新しています。新着の可用性についてはホームページを確認してください。

FAQ