完全な透明性:CloudGPUTrackerを作ったきっかけは、GPU価格の比較に音を上げていたからです。このテストはサイト开设前に行われました。どのプロバイダーからも金はもらっていません。此処の記事後は、多分恨まれているでしょう。
なぜやったのか
3ヶ月前、問題がありました。チームがLLMのファインチューニングが必要で、クラウド請求書の状況が厳しくなってきました。V100を時給8ドルでAWSに払っていました。誰も比較する時間がなかったからです。
もっと良い方法があるはずだと决めました。スプレッドシートを作り、12のプロバイダーに口座を開き、すべてを記録し始めました。1ドルずつ、すべてのクラッシュ、すべての朝3時のインスタンスがプリエンプトされていますメールを。
テスト方法
彼らのマーケティングページを信じる気はありません。此処が実際にやったことです:
- どこでも同じワークロード:标准的なLLMファインチューニングジョブ(Llama 2 7B、実行あたり約6時間)
- 同じモニタリング:动いているかだけでなく、実際のGPU使用率をログ
- 実際の請求のみ:クレジットやや免费体験のごとくになし。自らお金を払った。
- 3ヶ月间:2025年11月から2026年1月まで
生の数字
ストーリー说く前に、データ此処にあります。すべての価格はH100 80GBインスタンス、オンデマンド(スポットではない)、2026年1月時点:
| プロバイダー | 時給 | 可用性 | 評価 |
|---|---|---|---|
| Vast.ai | 0.73-0.85ドル | 60% | ★★★☆☆ |
| RunPod | 0.89ドル | 85% | ★★★★☆ |
| Lambda Labs | 0.99ドル | 95% | ★★★★★ |
| CoreWeave | 1.10ドル | 90% | ★★★★☆ |
| Genesis Cloud | 1.15ドル | 80% | ★★★☆☆ |
| Salad | 0.42ドル | 40% | ★★☆☆☆ |
| Nebius | 0.95ドル | 70% | ★★★☆☆ |
| FluidStack | 1.05ドル | 75% | ★★★☆☆ |
Saladの価格は複雑。以下で詳しく説明します。
ストーリー
Vast.ai:获取できるときは安い
Vast.aiは最高の価格でした。H100が時給0.73ドルとは、AWSのほぼ半分です。
しかし此処に彼らが宣伝していないこと:実際に获取できません。3ヶ月間で47回H100をプロビジョニングしようとしました。成功率は28パーセント。
動作したときは最高でした。しないときは、締切のために夜11時にコンピューティングを探していました。
最高価格、最低可用性。実験には良いが、本番环境には向かない。
Lambda Labs:最高の意味で平凡
Lambda LabsはFineです。此処の業界では其实は高評価です。
彼らの価格は最も安値ではない。しかしインスタンスを起動をクリックすると实际上起動します。毎回。容量不足メッセージなし。不明なクラッシュなし。単に动作するGPU。
3ヶ月間でLambdaで23のジョブを実行しました。予期しない中断ゼロ。此的是実に見事。
RunPod:スポットインスタンスの宝くじ
RunPodを参加したかった。彼らのスポット価格は异常です。H100が時給0.40ドルになっているのを見たことがあります。サンフランシスコのサンドイッチより安い。
しかしスポットインスタンスはギャンブル。每中断を記録しました:
- 1週目:2回中断
- 2週目:1回中断
- 3週目:4回中断 其中包括18時間ジョブの17時間で1回
私の建议?開発とテストにはRunPodスポットを使用してください。本番环境にとって重要なものには、オンデマンド料金を支払うかLambdaを使用してください。
Salad
Saladは奇妙です。彼らは分散クラウドで basically谁かのゲームPCを借りています。価格は素晴らしいですが、体験は予測できません。
1回、BackgroundでBitcoinマイナーを実行していたのは明らかでした。GPU使用率は何をしても40%でした。もう1回、トレーニング中にMachineが単に消えました。
本格的な作業にはSaladを推荐できません。ただし、50ドルの预算で学びたい学生ならまあまあです。
隠れたコスト
見出し価格が教えてくれないこと:
1. エグレス料金
CoreWeaveは1.10ドル每小时で良い取引のように見えました。その後、最初の請求書に47ドルの数据传输料がありました。チェックポイントをダウンロードすることがカウントされることを 发现しました、それに備えていませんでした。
永続的ストレージを設定し、モデルを繰り返しダウンロードしないでください。または、寛大な出国.allowancesを持つプロバイダーを使用します。
2. セットアップ時間は無料ではない
一部のプロバイダーは启动している间でも.launchをクリックした瞬間にChargingを開始します。SSH入れるまでに8分かかりました。2ドル每小时で、これは машину を启动するために0.26ドルです。
3. 愚蠢税
3日の周末 实例を运行させたままにしました。コスト72ドル。全くのために。大多数の プロバイダーには自动シャットダウンがありません。
カレンダーリマインダーを設定してください。または、アイドル 实例を结束させるスクリプトを使用します。
私の実際の推奨事項
曖昧な场合によるアドバイスはありません。此処にあります:
ベストオーバーオール: Lambda Labs
使用する場合:本番训练、客户作业、信頼性が重要なもの
価格:0.99ドル每小时 H100
理由:毎回动作します。彼らのサポート、実際に応答します。追加の0.10ドル每小时は価値があります。
最佳予算オプション: RunPod スポット
使用する場合:開発、実験、ハイパーパラメータ調整
価格:0.40-0.60ドル每小时 スポットH100
理由:动作するときは、それにより安いです。チェックポイントを设定し、 Deadlineの重要な作业に使用しないでください。
企業向けに最適: CoreWeave
使用する場合:契約、SLA、午前2時に電話できる谁かが必要
価格:1.10ドル以上每小时 しかし交渉可能
理由:実際のエンタープライズサポート。ただし、エグレス料金に注意してください。
私が異なるで行うこと
最初から始めた場合:
- Lambdaから始めてください。ワークロードを知るまで、安いプロバイダーで時間を無駄にしないでください。
- 最初にチェックポイントを设定してください。任意の長いジョブを実行する前。
- 愚蠢な错误のために追加の20パーセントを预算してください。实例を実行し続ける、エグレス料金。
- 最低価格を追踪しないでください。0.73ドル每小时のインスタンスが2回クラッシュする方が0.99ドルの作业インスタンスより费用がかかります。
私が構築したツール
手動で行うのは嫌でした。所以我构建了CloudGPUTracker来自动跟踪所有这些提供商的价格。
どのプロバイダーがベストかは教えてくれません此処にあります。しかし 今最も安価なものを教えてくれ、それは成功の半分です。
現在の価格を見たいですか?
リアルタイムH100価格を確認