大規模言語モデル(LLM)のトレーニングやLlama 3の微調整にH100 GPUが必要なとき、エンタープライズ営業担当者と電話をしたくありません。ノードを起動し、SSHで入って、トレーニングを開始したいのです。
それ以上に、実際にいくらになるか知りたいです。
主な специализированные cloud providersでリアルタイムの 가격を追跡して、シンプルな 질문に答えました:今、H100レンタルで最も安いのは誰ですか?
H100価格の現状
NVIDIAのH100はAIワークロードのゴールドスタンダードですが、価格は有很大的差异。同じコンピューティング powerに対して最も安いプロバイダーと最も高いプロバイダーの間で40%以上の差を見つけました。
オンデマンド価格の現在のスナップショット(GPU/時間あたり):
| プロバイダー | 価格(オンデマンド) | 可用性 | メモ |
|---|---|---|---|
| Vast.ai | ~$1.80 - $2.20 | 変動 | コミュニティクラウド;信頼性は様々。 |
| RunPod | $2.69 | 高い | 素晴らしいDX、「Secure Cloud」オプション。 |
| Lambda Labs | $2.49 | 低い | しばしば品切れ;純粋な安定性の最高の価値。 |
| CoreWeave | 営業に連絡 | 低い | エンタープライズ向け。 |
| Paperspace | $3.09 | 中程度 | 使いやすいが、より高い。 |
「隠された」安価なGPUのコスト
表を見ると、Vast.aiが勝者のようです。そして、费用の制约があり中断を許容できるならそうです。しかし、注意点があります。
Vast.aiは消費者と予備のエンタープライズハードウェアを集めています。「最も安い」とは Often、tier 3データセンター(または誰かのbasement)で consumer-gradeインターネット帯域幅を持つマシンをレンタルすることを意味します。マルチノードトレーニングにとって、この遅延はパフォーマンスを杀伤し、コスト節約を帳消しにします。
RunPodとLambdaはスイートスポットを提供します: garant uptimeと高速な相互接続(Infinibandまたは高速Ethernet)を備えたtier 1データセンターで、CFOを泣かせない価格で。
スポットインスタンス: реальная節約
中断を処理できる場合(坚牢なチェックポイントコードを持っているなら)、スポットインスタンスが الحقيقيの価値がある場所です。
RunPodでH100スポットインスタンスが$1.99/時まで出现的のを見かけました。これはAWSやAzureで支払うことになる$3.50+(そこにクォータがある場合でさえ)とは大幅に安いです。
推奨
私たちのピック
- 実験とデバッグのため:RunPod Secure Cloudに行ってください。インスタントで信頼性が高く、Docker experienceはシームレスです。
- 長いトレーニング_RUNのため:Lambda Labsの可用性を待つ、または8つ以上のGPUが必要なら予約インスタンス契約にコミットしてください。
- 最大の倹約のため:Vast.ai、しかし接続を密接に監視してください。
結論
「最も安い」H100は常に最低のhourly tagを持つものではありません。クラッシュ、ストール、またはデータの损失なしにトレーニング_RUNを終了できるものです。
私たちはメインの追跡テーブルを毎時間更新しています。新着の可用性についてはホームページを確認してください。