完全な透明性:CloudGPUTrackerを作ったきっかけは、GPU価格の比較に音を上げていたからです。このテストはサイト开设前に行われました。どのプロバイダーからも金はもらっていません。此処の記事後は、多分恨まれているでしょう。

なぜやったのか

3ヶ月前、問題がありました。チームがLLMのファインチューニングが必要で、クラウド請求書の状況が厳しくなってきました。V100を時給8ドルでAWSに払っていました。誰も比較する時間がなかったからです。

もっと良い方法があるはずだと决めました。スプレッドシートを作り、12のプロバイダーに口座を開き、すべてを記録し始めました。1ドルずつ、すべてのクラッシュ、すべての朝3時のインスタンスがプリエンプトされていますメールを。

テスト方法

彼らのマーケティングページを信じる気はありません。此処が実際にやったことです:

  • どこでも同じワークロード:标准的なLLMファインチューニングジョブ(Llama 2 7B、実行あたり約6時間)
  • 同じモニタリング:动いているかだけでなく、実際のGPU使用率をログ
  • 実際の請求のみ:クレジットやや免费体験のごとくになし。自らお金を払った。
  • 3ヶ月间:2025年11月から2026年1月まで
総支出:全プロバイダーで4213.47ドル。会计士からいくつか質問されました。

生の数字

ストーリー说く前に、データ此処にあります。すべての価格はH100 80GBインスタンス、オンデマンド(スポットではない)、2026年1月時点:

プロバイダー 時給 可用性 評価
Vast.ai0.73-0.85ドル60%★★★☆☆
RunPod0.89ドル85%★★★★☆
Lambda Labs0.99ドル95%★★★★★
CoreWeave1.10ドル90%★★★★☆
Genesis Cloud1.15ドル80%★★★☆☆
Salad0.42ドル40%★★☆☆☆
Nebius0.95ドル70%★★★☆☆
FluidStack1.05ドル75%★★★☆☆

Saladの価格は複雑。以下で詳しく説明します。

ストーリー

Vast.ai:获取できるときは安い

Vast.aiは最高の価格でした。H100が時給0.73ドルとは、AWSのほぼ半分です。

しかし此処に彼らが宣伝していないこと:実際に获取できません。3ヶ月間で47回H100をプロビジョニングしようとしました。成功率は28パーセント。

動作したときは最高でした。しないときは、締切のために夜11時にコンピューティングを探していました。

最高価格、最低可用性。実験には良いが、本番环境には向かない。

Lambda Labs:最高の意味で平凡

Lambda LabsはFineです。此処の業界では其实は高評価です。

彼らの価格は最も安値ではない。しかしインスタンスを起動をクリックすると实际上起動します。毎回。容量不足メッセージなし。不明なクラッシュなし。単に动作するGPU。

3ヶ月間でLambdaで23のジョブを実行しました。予期しない中断ゼロ。此的是実に見事。

RunPod:スポットインスタンスの宝くじ

RunPodを参加したかった。彼らのスポット価格は异常です。H100が時給0.40ドルになっているのを見たことがあります。サンフランシスコのサンドイッチより安い。

しかしスポットインスタンスはギャンブル。每中断を記録しました:

  • 1週目:2回中断
  • 2週目:1回中断
  • 3週目:4回中断 其中包括18時間ジョブの17時間で1回

私の建议?開発とテストにはRunPodスポットを使用してください。本番环境にとって重要なものには、オンデマンド料金を支払うかLambdaを使用してください。

Salad

Saladは奇妙です。彼らは分散クラウドで basically谁かのゲームPCを借りています。価格は素晴らしいですが、体験は予測できません。

1回、BackgroundでBitcoinマイナーを実行していたのは明らかでした。GPU使用率は何をしても40%でした。もう1回、トレーニング中にMachineが単に消えました。

本格的な作業にはSaladを推荐できません。ただし、50ドルの预算で学びたい学生ならまあまあです。

隠れたコスト

見出し価格が教えてくれないこと:

1. エグレス料金

CoreWeaveは1.10ドル每小时で良い取引のように見えました。その後、最初の請求書に47ドルの数据传输料がありました。チェックポイントをダウンロードすることがカウントされることを 发现しました、それに備えていませんでした。

永続的ストレージを設定し、モデルを繰り返しダウンロードしないでください。または、寛大な出国.allowancesを持つプロバイダーを使用します。

2. セットアップ時間は無料ではない

一部のプロバイダーは启动している间でも.launchをクリックした瞬間にChargingを開始します。SSH入れるまでに8分かかりました。2ドル每小时で、これは машину を启动するために0.26ドルです。

3. 愚蠢税

3日の周末 实例を运行させたままにしました。コスト72ドル。全くのために。大多数の プロバイダーには自动シャットダウンがありません。

カレンダーリマインダーを設定してください。または、アイドル 实例を结束させるスクリプトを使用します。

私の実際の推奨事項

曖昧な场合によるアドバイスはありません。此処にあります:

ベストオーバーオール: Lambda Labs

使用する場合:本番训练、客户作业、信頼性が重要なもの

価格:0.99ドル每小时 H100

理由:毎回动作します。彼らのサポート、実際に応答します。追加の0.10ドル每小时は価値があります。

最佳予算オプション: RunPod スポット

使用する場合:開発、実験、ハイパーパラメータ調整

価格:0.40-0.60ドル每小时 スポットH100

理由:动作するときは、それにより安いです。チェックポイントを设定し、 Deadlineの重要な作业に使用しないでください。

企業向けに最適: CoreWeave

使用する場合:契約、SLA、午前2時に電話できる谁かが必要

価格:1.10ドル以上每小时 しかし交渉可能

理由:実際のエンタープライズサポート。ただし、エグレス料金に注意してください。

私が異なるで行うこと

最初から始めた場合:

  1. Lambdaから始めてください。ワークロードを知るまで、安いプロバイダーで時間を無駄にしないでください。
  2. 最初にチェックポイントを设定してください。任意の長いジョブを実行する前。
  3. 愚蠢な错误のために追加の20パーセントを预算してください。实例を実行し続ける、エグレス料金。
  4. 最低価格を追踪しないでください。0.73ドル每小时のインスタンスが2回クラッシュする方が0.99ドルの作业インスタンスより费用がかかります。

私が構築したツール

手動で行うのは嫌でした。所以我构建了CloudGPUTracker来自动跟踪所有这些提供商的价格。

どのプロバイダーがベストかは教えてくれません此処にあります。しかし 今最も安価なものを教えてくれ、それは成功の半分です。

現在の価格を見たいですか?

リアルタイムH100価格を確認

よくある質問