实测12家云GPU服务商3个月：真实成本大公开

完全透明：我做CloudGPUTracker是因为受够了比较GPU价格的折磨。这个测试是在网站上线之前做的。没有服务商付我钱。测试完之后，他们中有些可能恨我了。

为什么我做这个（以及你为什么应该关心）

三个月前，我遇到一个问题。我团队需要训练一个大语言模型微调任务，我们的云账单越来越离谱。我们付给AWS每个V100大约8美元/小时，因为没人有时间去货比三家。

我觉得肯定有更好的办法。于是我做了个表格，在12家不同的服务商那里开了账户，开始记录一切。每一美元。每一个崩溃。每一个凌晨3点收到的"你的实例被抢占了"的邮件。

测试方法：我是怎么测的

我不打算相信他们的营销页面。以下是我实际做的：

同样的工作负载：一个标准的大语言模型微调任务（Llama 2 7B，每次运行约6小时）
同样的监控：记录实际GPU利用率，不只是"是否在运行"
只看真实账单：没有"积分"或"免费试用"的把戏。我付真钱。
3个月周期：2025年11月到2026年1月

 总花费：4,213.47美元横跨所有服务商。我的会计问了一些问题。

原始数据

先说数据，再讲故事。所有价格都是H100 80GB实例，按需（非抢），截至2026年1月：

服务商	价格/小时	可用性	我的评分
Vast.ai	$0.73-0.85	60%	★★★☆☆
RunPod	$0.89	85%	★★★★☆
Lambda Labs	$0.99	95%	★★★★★
CoreWeave	$1.10	90%	★★★★☆
Genesis Cloud	$1.15	80%	★★★☆☆
Salad	$0.42*	40%	★★☆☆☆
Nebius	$0.95	70%	★★★☆☆
FluidStack	$1.05	75%	★★★☆☆

* Salad的定价比较复杂，下面详细说。

实战故事（这里才有意思）

Vast.ai：能抢到的时候很便宜

Vast.ai有最便宜的价格。毫无疑问。H100 0.73美元/小时，几乎是AWS的一半。

但他们不告诉你的是：你实际上抢不到机器。3个月内我尝试了47次部署H100。成功率？28%。

用的时候确实好用。没用的时候，我晚上11点还在忙着找算力来完成 deadline。那体验真糟糕。

"价格最好，可用性最差。适合做实验，生产环境就算了。"

Lambda Labs：最好的"无聊"

Lambda Labs还行。实际上在这个行业里，这已经是高度评价了。

他们价格（0.99美元/小时）不是最便宜的。但我点击"启动实例"，它真的能启动。每一次。没有"我们没有容量"的消息。没有神秘的崩溃。就是能用的GPU。

3个月我在Lambda跑了23个任务。一次意外的中断都没有。老实说，这很惊人。

RunPod：抢实例抽奖

我想爱RunPod。他们的抢实例价格太疯狂了——我见过H100 0.40美元/小时。比旧金山一个三明治还便宜。

但抢实例就是赌博。我记录了每一次中断：

第1周：2次中断（烦但能忍）
第2周：1次中断（好点了）
第3周：4次中断，其中包括一个18小时任务在第17小时时被杀掉（我怒了）

我的建议？开发测试用RunPod抢实例。任何生产关键的任务，买按需或者用Lambda。

Salad：到底在搞什么

Salad有点……奇怪。他们是"分布式云"，基本上就是租别人的游戏PC。价格确实低（0.42美元/小时），但体验不可预测。

有一次我拿到一台机器，明显后台跑着比特币矿工。不管我怎么调，GPU利用率都卡在40%。还有一次，机器在训练中间直接消失了。不是"被抢占"。就是没了。

我不能推荐Salad做正事。但如果你是学生，50美元预算想学点东西？或许可以考虑。

没人谈到的隐性成本

以下是标价不会告诉你的：

1. 流量费会坑你

CoreWeave看起来1.10美元/小时挺划算。然后我收到的账单上有个47美元的"数据传输"费用。原来下载你的检查点也算钱。我没算这个预算。

解决办法：设置持久存储，不要反复下载模型。或者用流量额度大方的服务商（Lambda给你1TB/月）。

2. 启动时间不是免费的

有些服务商在你点击"启动"的那一刻就开始计费，即使机器还在启动中。我算过一家服务商，从我SSH连上去之前要8分钟启动时间。2美元/小时的话，光启动就要花0.26美元。

3. "智商税"

我有一个实例放着一个3天的长周末没关。费用：72美元。什么都没干。大部分服务商没有自动关机。

解决办法：设置日历提醒。或者用我写的脚本（/zh/blog/auto-shutdown-script）杀掉空闲实例。

我的真实推荐

我不给你模糊的"看情况"建议。以下是我的实际选择：

🥇 最佳整体：Lambda Labs

什么时候用：生产训练、客户工作、任何需要可靠性的地方

价格：0.99美元/小时（H100）

为什么：就是能用。每次都好用。他们的客服真的会回复。多花0.10美元/小时值得。

🥈 最佳性价比：RunPod（抢实例）

什么时候用：开发、实验、超参数调优

价格：0.40-0.60美元/小时（抢实例H100）

为什么：能用的时候确实最便宜。只要设置好检查点，别用于关键 deadline 的工作就行。

🥉 最佳企业选择：CoreWeave

什么时候用：你需要合同、SLA，以及凌晨2点能打通电话的人

价格：1.10美元+/小时（可以议价）

为什么：真正的企业支持。但注意流量费。

如果重来我会怎么做

如果让我重新开始：

从Lambda开始。在了解你的工作负载之前，别在便宜服务商上浪费时间。
先设置检查点。在运行任何长时间任务之前。我为此付出过代价。
预算多20%用于"智商税"。实例没关、流量费、失败重跑的任务。
别追求最低价。0.73美元/小时但崩溃两次的实例，比0.99美元但能用的更贵。

我做的工具（硬广）

手动做这些太累了。于是我做了CloudGPUTracker来自动追踪所有服务商的价格。

它不会告诉你哪个服务商"最好"（这篇就是给你看这个的）。但它会告诉你谁现在最便宜，这已经赢了一半。

想看实时价格？

查看H100实时价格 →