当您需要H100 GPU来训练大型语言模型(LLM)或微调Llama 3时,您不想与企业销售代表通电话。您想启动一个节点,SSH进去,然后开始训练。
更重要的是,您想知道实际要花多少钱。
我们追踪了主要专业云提供商的实时定价,以回答一个简单的问题:谁现在有最便宜的H100租用?
H100定价格局
NVIDIA的H100是AI工作负载的黄金标准,但价格差异很大。我们发现同一算力在最便宜和最贵提供商之间的差距超过40%。
以下是按需定价的当前快照(每GPU每小时):
| 提供商 | 价格(按需) | 可用性 | 备注 |
|---|---|---|---|
| Vast.ai | 约$1.80 - $2.20 | 可变 | 社区云;可靠性各异。 |
| RunPod | $2.69 | 高 | 优秀DX,"Secure Cloud"选项。 |
| Lambda Labs | $2.49 | 低 | 经常缺货;纯稳定性最佳性价比。 |
| CoreWeave | 联系销售 | 低 | 面向企业。 |
| Paperspace | $3.09 | 中 | 易于使用,但较贵。 |
廉价GPU的"隐藏"成本
如果您看表格,Vast.ai似乎是赢家。而且如果您受预算限制且能容忍中断,确实如此。但有一个问题。
Vast.ai聚合了消费者和备用企业硬件。"最便宜"通常意味着您租用的是一个三级数据中心(或某人地下室)的机器,带有消费级互联网带宽。对于多节点训练,这种延迟会扼杀性能,抵消成本节省。
RunPod和Lambda提供最佳平衡点:一级数据中心,保证正常运行时间,快速互连(Infiniband或快速以太网),价格不会让您的CFO哭泣。
竞价实例:真正的节省
如果您能处理中断(即您有可靠的检查点代码),竞价实例才是真正有价值的地方。
我们见过RunPod上的H100竞价实例低至$1.99/小时。这明显低于您可能在AWS或Azure支付的3.50美元以上(如果您能在那里获得配额的话)。
建议
我们的选择
- 用于实验和调试:选择RunPod Secure Cloud。它是即时的、可靠的,Docker体验无缝。
- 用于长时间训练:等待Lambda Labs可用性,或者如果您需要>8个GPU,承诺预留实例合同。
- 为了极致节俭:Vast.ai,但请密切监控您的连接。
结论
"最便宜"的H100并不总是挂着最低小时价的那个。它是让您完成训练运行而不崩溃、停滞或丢失数据的那个。
我们每小时更新主追踪表。查看首页获取最新可用性。