完全透明:我做CloudGPUTracker是因为受够了比较GPU价格的折磨。这个测试是在网站上线之前做的。没有服务商付我钱。测试完之后,他们中有些可能恨我了。

为什么我做这个(以及你为什么应该关心)

三个月前,我遇到一个问题。我团队需要训练一个大语言模型微调任务,我们的云账单越来越离谱。我们付给AWS每个V100大约8美元/小时,因为没人有时间去货比三家。

我觉得肯定有更好的办法。于是我做了个表格,在12家不同的服务商那里开了账户,开始记录一切。每一美元。每一个崩溃。每一个凌晨3点收到的"你的实例被抢占了"的邮件。

测试方法:我是怎么测的

我不打算相信他们的营销页面。以下是我实际做的:

  • 同样的工作负载:一个标准的大语言模型微调任务(Llama 2 7B,每次运行约6小时)
  • 同样的监控:记录实际GPU利用率,不只是"是否在运行"
  • 只看真实账单:没有"积分"或"免费试用"的把戏。我付真钱。
  • 3个月周期:2025年11月到2026年1月
总花费:4,213.47美元横跨所有服务商。我的会计问了一些问题。

原始数据

先说数据,再讲故事。所有价格都是H100 80GB实例,按需(非抢),截至2026年1月:

服务商 价格/小时 可用性 我的评分
Vast.ai$0.73-0.8560%★★★☆☆
RunPod$0.8985%★★★★☆
Lambda Labs$0.9995%★★★★★
CoreWeave$1.1090%★★★★☆
Genesis Cloud$1.1580%★★★☆☆
Salad$0.42*40%★★☆☆☆
Nebius$0.9570%★★★☆☆
FluidStack$1.0575%★★★☆☆

* Salad的定价比较复杂,下面详细说。

实战故事(这里才有意思)

Vast.ai:能抢到的时候很便宜

Vast.ai有最便宜的价格。毫无疑问。H100 0.73美元/小时,几乎是AWS的一半。

但他们不告诉你的是:你实际上抢不到机器。3个月内我尝试了47次部署H100。成功率?28%。

用的时候确实好用。没用的时候,我晚上11点还在忙着找算力来完成 deadline。那体验真糟糕。

"价格最好,可用性最差。适合做实验,生产环境就算了。"

Lambda Labs:最好的"无聊"

Lambda Labs还行。实际上在这个行业里,这已经是高度评价了。

他们价格(0.99美元/小时)不是最便宜的。但我点击"启动实例",它真的能启动。每一次。没有"我们没有容量"的消息。没有神秘的崩溃。就是能用的GPU。

3个月我在Lambda跑了23个任务。一次意外的中断都没有。老实说,这很惊人。

RunPod:抢实例抽奖

我想爱RunPod。他们的抢实例价格太疯狂了——我见过H100 0.40美元/小时。比旧金山一个三明治还便宜。

但抢实例就是赌博。我记录了每一次中断:

  • 第1周:2次中断(烦但能忍)
  • 第2周:1次中断(好点了)
  • 第3周:4次中断,其中包括一个18小时任务在第17小时时被杀掉(我怒了)

我的建议?开发测试用RunPod抢实例。任何生产关键的任务,买按需或者用Lambda。

Salad:到底在搞什么

Salad有点……奇怪。他们是"分布式云",基本上就是租别人的游戏PC。价格确实低(0.42美元/小时),但体验不可预测。

有一次我拿到一台机器,明显后台跑着比特币矿工。不管我怎么调,GPU利用率都卡在40%。还有一次,机器在训练中间直接消失了。不是"被抢占"。就是没了。

我不能推荐Salad做正事。但如果你是学生,50美元预算想学点东西?或许可以考虑。

没人谈到的隐性成本

以下是标价不会告诉你的:

1. 流量费会坑你

CoreWeave看起来1.10美元/小时挺划算。然后我收到的账单上有个47美元的"数据传输"费用。原来下载你的检查点也算钱。我没算这个预算。

解决办法:设置持久存储,不要反复下载模型。或者用流量额度大方的服务商(Lambda给你1TB/月)。

2. 启动时间不是免费的

有些服务商在你点击"启动"的那一刻就开始计费,即使机器还在启动中。我算过一家服务商,从我SSH连上去之前要8分钟启动时间。2美元/小时的话,光启动就要花0.26美元。

3. "智商税"

我有一个实例放着一个3天的长周末没关。费用:72美元。什么都没干。大部分服务商没有自动关机。

解决办法:设置日历提醒。或者用我写的脚本(/zh/blog/auto-shutdown-script)杀掉空闲实例。

我的真实推荐

我不给你模糊的"看情况"建议。以下是我的实际选择:

🥇 最佳整体:Lambda Labs

什么时候用:生产训练、客户工作、任何需要可靠性的地方

价格:0.99美元/小时(H100)

为什么:就是能用。每次都好用。他们的客服真的会回复。多花0.10美元/小时值得。

🥈 最佳性价比:RunPod(抢实例)

什么时候用:开发、实验、超参数调优

价格:0.40-0.60美元/小时(抢实例H100)

为什么:能用的时候确实最便宜。只要设置好检查点,别用于关键 deadline 的工作就行。

🥉 最佳企业选择:CoreWeave

什么时候用:你需要合同、SLA,以及凌晨2点能打通电话的人

价格:1.10美元+/小时(可以议价)

为什么:真正的企业支持。但注意流量费。

如果重来我会怎么做

如果让我重新开始:

  1. 从Lambda开始。在了解你的工作负载之前,别在便宜服务商上浪费时间。
  2. 先设置检查点。在运行任何长时间任务之前。我为此付出过代价。
  3. 预算多20%用于"智商税"。实例没关、流量费、失败重跑的任务。
  4. 别追求最低价。0.73美元/小时但崩溃两次的实例,比0.99美元但能用的更贵。

我做的工具(硬广)

手动做这些太累了。于是我做了CloudGPUTracker来自动追踪所有服务商的价格。

它不会告诉你哪个服务商"最好"(这篇就是给你看这个的)。但它会告诉你谁现在最便宜,这已经赢了一半。

想看实时价格?

查看H100实时价格 →

常见问题