完全透明:我做CloudGPUTracker是因为受够了比较GPU价格的折磨。这个测试是在网站上线之前做的。没有服务商付我钱。测试完之后,他们中有些可能恨我了。
为什么我做这个(以及你为什么应该关心)
三个月前,我遇到一个问题。我团队需要训练一个大语言模型微调任务,我们的云账单越来越离谱。我们付给AWS每个V100大约8美元/小时,因为没人有时间去货比三家。
我觉得肯定有更好的办法。于是我做了个表格,在12家不同的服务商那里开了账户,开始记录一切。每一美元。每一个崩溃。每一个凌晨3点收到的"你的实例被抢占了"的邮件。
测试方法:我是怎么测的
我不打算相信他们的营销页面。以下是我实际做的:
- 同样的工作负载:一个标准的大语言模型微调任务(Llama 2 7B,每次运行约6小时)
- 同样的监控:记录实际GPU利用率,不只是"是否在运行"
- 只看真实账单:没有"积分"或"免费试用"的把戏。我付真钱。
- 3个月周期:2025年11月到2026年1月
原始数据
先说数据,再讲故事。所有价格都是H100 80GB实例,按需(非抢),截至2026年1月:
| 服务商 | 价格/小时 | 可用性 | 我的评分 |
|---|---|---|---|
| Vast.ai | $0.73-0.85 | 60% | ★★★☆☆ |
| RunPod | $0.89 | 85% | ★★★★☆ |
| Lambda Labs | $0.99 | 95% | ★★★★★ |
| CoreWeave | $1.10 | 90% | ★★★★☆ |
| Genesis Cloud | $1.15 | 80% | ★★★☆☆ |
| Salad | $0.42* | 40% | ★★☆☆☆ |
| Nebius | $0.95 | 70% | ★★★☆☆ |
| FluidStack | $1.05 | 75% | ★★★☆☆ |
* Salad的定价比较复杂,下面详细说。
实战故事(这里才有意思)
Vast.ai:能抢到的时候很便宜
Vast.ai有最便宜的价格。毫无疑问。H100 0.73美元/小时,几乎是AWS的一半。
但他们不告诉你的是:你实际上抢不到机器。3个月内我尝试了47次部署H100。成功率?28%。
用的时候确实好用。没用的时候,我晚上11点还在忙着找算力来完成 deadline。那体验真糟糕。
"价格最好,可用性最差。适合做实验,生产环境就算了。"
Lambda Labs:最好的"无聊"
Lambda Labs还行。实际上在这个行业里,这已经是高度评价了。
他们价格(0.99美元/小时)不是最便宜的。但我点击"启动实例",它真的能启动。每一次。没有"我们没有容量"的消息。没有神秘的崩溃。就是能用的GPU。
3个月我在Lambda跑了23个任务。一次意外的中断都没有。老实说,这很惊人。
RunPod:抢实例抽奖
我想爱RunPod。他们的抢实例价格太疯狂了——我见过H100 0.40美元/小时。比旧金山一个三明治还便宜。
但抢实例就是赌博。我记录了每一次中断:
- 第1周:2次中断(烦但能忍)
- 第2周:1次中断(好点了)
- 第3周:4次中断,其中包括一个18小时任务在第17小时时被杀掉(我怒了)
我的建议?开发测试用RunPod抢实例。任何生产关键的任务,买按需或者用Lambda。
Salad:到底在搞什么
Salad有点……奇怪。他们是"分布式云",基本上就是租别人的游戏PC。价格确实低(0.42美元/小时),但体验不可预测。
有一次我拿到一台机器,明显后台跑着比特币矿工。不管我怎么调,GPU利用率都卡在40%。还有一次,机器在训练中间直接消失了。不是"被抢占"。就是没了。
我不能推荐Salad做正事。但如果你是学生,50美元预算想学点东西?或许可以考虑。
没人谈到的隐性成本
以下是标价不会告诉你的:
1. 流量费会坑你
CoreWeave看起来1.10美元/小时挺划算。然后我收到的账单上有个47美元的"数据传输"费用。原来下载你的检查点也算钱。我没算这个预算。
解决办法:设置持久存储,不要反复下载模型。或者用流量额度大方的服务商(Lambda给你1TB/月)。
2. 启动时间不是免费的
有些服务商在你点击"启动"的那一刻就开始计费,即使机器还在启动中。我算过一家服务商,从我SSH连上去之前要8分钟启动时间。2美元/小时的话,光启动就要花0.26美元。
3. "智商税"
我有一个实例放着一个3天的长周末没关。费用:72美元。什么都没干。大部分服务商没有自动关机。
解决办法:设置日历提醒。或者用我写的脚本(/zh/blog/auto-shutdown-script)杀掉空闲实例。
我的真实推荐
我不给你模糊的"看情况"建议。以下是我的实际选择:
🥇 最佳整体:Lambda Labs
什么时候用:生产训练、客户工作、任何需要可靠性的地方
价格:0.99美元/小时(H100)
为什么:就是能用。每次都好用。他们的客服真的会回复。多花0.10美元/小时值得。
🥈 最佳性价比:RunPod(抢实例)
什么时候用:开发、实验、超参数调优
价格:0.40-0.60美元/小时(抢实例H100)
为什么:能用的时候确实最便宜。只要设置好检查点,别用于关键 deadline 的工作就行。
🥉 最佳企业选择:CoreWeave
什么时候用:你需要合同、SLA,以及凌晨2点能打通电话的人
价格:1.10美元+/小时(可以议价)
为什么:真正的企业支持。但注意流量费。
如果重来我会怎么做
如果让我重新开始:
- 从Lambda开始。在了解你的工作负载之前,别在便宜服务商上浪费时间。
- 先设置检查点。在运行任何长时间任务之前。我为此付出过代价。
- 预算多20%用于"智商税"。实例没关、流量费、失败重跑的任务。
- 别追求最低价。0.73美元/小时但崩溃两次的实例,比0.99美元但能用的更贵。
我做的工具(硬广)
手动做这些太累了。于是我做了CloudGPUTracker来自动追踪所有服务商的价格。
它不会告诉你哪个服务商"最好"(这篇就是给你看这个的)。但它会告诉你谁现在最便宜,这已经赢了一半。
想看实时价格?
查看H100实时价格 →