当您需要H100 GPU来训练大型语言模型(LLM)或微调Llama 3时,您不想与企业销售代表通电话。您想启动一个节点,SSH进去,然后开始训练。

更重要的是,您想知道实际要花多少钱。

我们追踪了主要专业云提供商的实时定价,以回答一个简单的问题:谁现在有最便宜的H100租用?

H100定价格局

NVIDIA的H100是AI工作负载的黄金标准,但价格差异很大。我们发现同一算力在最便宜和最贵提供商之间的差距超过40%

以下是按需定价的当前快照(每GPU每小时):

提供商 价格(按需) 可用性 备注
Vast.ai 约$1.80 - $2.20 可变 社区云;可靠性各异。
RunPod $2.69 优秀DX,"Secure Cloud"选项。
Lambda Labs $2.49 经常缺货;纯稳定性最佳性价比。
CoreWeave 联系销售 面向企业。
Paperspace $3.09 易于使用,但较贵。

廉价GPU的"隐藏"成本

如果您看表格,Vast.ai似乎是赢家。而且如果您受预算限制且能容忍中断,确实如此。但有一个问题。

Vast.ai聚合了消费者和备用企业硬件。"最便宜"通常意味着您租用的是一个三级数据中心(或某人地下室)的机器,带有消费级互联网带宽。对于多节点训练,这种延迟会扼杀性能,抵消成本节省。

RunPodLambda提供最佳平衡点:一级数据中心,保证正常运行时间,快速互连(Infiniband或快速以太网),价格不会让您的CFO哭泣。

竞价实例:真正的节省

如果您能处理中断(即您有可靠的检查点代码),竞价实例才是真正有价值的地方。

我们见过RunPod上的H100竞价实例低至$1.99/小时。这明显低于您可能在AWS或Azure支付的3.50美元以上(如果您能在那里获得配额的话)。

建议

我们的选择

  • 用于实验和调试:选择RunPod Secure Cloud。它是即时的、可靠的,Docker体验无缝。
  • 用于长时间训练:等待Lambda Labs可用性,或者如果您需要>8个GPU,承诺预留实例合同。
  • 为了极致节俭:Vast.ai,但请密切监控您的连接。

结论

"最便宜"的H100并不总是挂着最低小时价的那个。它是让您完成训练运行而不崩溃、停滞或丢失数据的那个。

我们每小时更新主追踪表。查看首页获取最新可用性。

常见问题