简明版:价格通常波动50-100%。工作日上午租。避开晚上。大型AI发布=涨价。会议周=GPU荒。
为什么我开始追踪这个
始于 frustation。一个周二下午我需要H100做训练任务。Lambda Labs要0.99美元/小时。合理。同样的任务,同样的要求,周四晚上6点:1.35美元/小时。
两天涨了36%。同样的硬件。
我以为是bug。于是开始记录价格。每小时。每个主要服务商。连续三个月。数据说话——这能省大钱。
价格波动现实
没人告诉你的是:云GPU价格不是固定的。它们是动态的、受供需驱动,而且波动大得超出你想象。
不是错误。我看着它发生的。原因是:Anthropic发布了新模型,所有人都抢着复制,GPU供应瞬间蒸发。
规律一:每日节奏
价格有可预测的每日规律,知道看什么就明白了:
| 时间(UTC) | 典型价格 | 原因 |
|---|---|---|
| 6-10点 | 最低 | 美国睡觉,欧洲刚开始 |
| 12-15点 | 中等 | 欧洲全速运转 |
| 18-22点 | 最高 | 美国西海岸上线 |
| 0-4点 | 低 | 全球需求最低 |
晚间美国涨价太狠了。涨20-40%就因为旧金山那边醒了。如果你能在非高峰时段跑任务,一定做。
真实例子:周一价格曲线
以下是1月某个周一Vast.ai的实际H100价格:
- UTC早上6点:0.72美元/小时——我抢到了
- UTC中午12点:0.85美元/小时——还行
- UTC下午6点:1.15美元/小时——疼
- UTC晚上10点:1.28美元/小时——更疼
- UTC次日凌晨2点:0.79美元/小时——恢复正常
同一服务商。同样的GPU。20小时内波动77%。
规律二:每周周期
周末更便宜。不是差一点——是很多。
我平均了12周的数据:
- 周一至周四:基准(100%)
- 周五:105%基准(人们想完成周任务)
- 周六:82%基准(最便宜)
- 周日:85%基准(仍然便宜)
周六晚间是黄金时段。我持续发现一周最低价在周六晚10点到周日UTC凌晨4点之间。周末就是需求低。
"我把训练任务从周五晚改到周六早,一个月省了340美元。同样算力,同样结果,便宜30%。"
规律三:事件冲击
这里开始疯狂了。外部事件导致价格暴涨——你可以预测。
AI模型发布
Meta 12月放Llama 3?GPU价格疯了。我记录的:
- 发布前一天:H100平均0.89美元/小时
- 发布当天:H100平均1.12美元/小时(+26%)
- 发布第二天:H100平均1.38美元/小时(+55%)
- 3天后:价格仍比正常高40%
每个人都立刻想微调Llama 3。供不应求。价格反映了那种急切。
会议周
NeurIPS那周太惨了。CVPR也没好多少。大型AI会议期间:
- 价格涨30-50%
- 可用性下降(祝你好运能找到H100)
- 抢实例基本没法用
研究人员提交最后一刻的实验。Demo视频要渲染。所有人同时需要算力。
加密货币暴涨
2024年末比特币突破10万美元,GPU价格48小时内跟着涨。没有AI模型发布那么猛,但也能注意到——全面涨15-20%。
关联不那么完美,但存在。加密矿工通常不用云GPU,但投机需求涟漪遍布整个GPU供应链。
规律四:服务商差异
不是所有服务商都同步。有些波动大得多:
| 服务商 | 价格波动 | 备注 |
|---|---|---|
| Vast.ai | 极端 | 市场驱动,波动大 |
| RunPod | 高 | 抢实例价格尤其波动 |
| Lambda Labs | 低 | 最稳定定价 |
| CoreWeave | 中等 | 企业导向,波动小 |
| Salad | 混乱 | 社区驱动,不可预测 |
如果你需要可预测性,Lambda Labs是你的朋友。如果你想玩市场抓低点,Vast.ai有最大节省潜力——但需要耐心和灵活性。
如何利用这些规律
理论够了。我实际上是这样省钱的:
1. 早鸟策略
把任务设置在UTC早上6点开始。用cron或定时任务。6点和下午6点价格差30-40%。
2. 周末战士
把不紧急的任务堆到周末。我发现周六早上持续是最便宜窗口。能等24小时,节省是真实的。
3. 避开事件
关注AI新闻。大型模型发布=2-3天价格暴涨。要么:
- 如果知道要发布,提前预订(如果你知道什么时候)
- 等4-5天后(价格恢复正常)
- 涨价期间用固定定价的服务商(Lambda)
4. 多服务商轮换
别锁定在一家。Vast.ai涨价时,Lambda可能还合理。大家都贵时,看看Nebius或FluidStack这样的小服务商。
我在5家服务商都有账户。设账户花了一小时。每月省几百美元。
数据:90天价格历史
以下是我收集的。不是精选的——是我记录的每个H100价格:
- 最低记录:0.68美元/小时(Vast.ai,12月3日UTC凌晨2点)
- 最高记录:1.89美元/小时(RunPod抢实例,Llama 3发布期间)
- 平均:1.04美元/小时
- 标准差:0.28(那是27%方差!)
想想。27%标准差意味着价格非常乱。时机极其重要。
我的实际节省
2026年1月我把这些规律用到实际工作中:
- 基准成本:1,240美元(什么时候需要什么时候租)
- 优化后成本:847美元(用上面的规律)
- 节省:393美元(31.7%)
这是真金白银。同样的算力。更好的时机。
我用的工具
我不是每小时手动查价格。那太疯了。以下是我的工具栈:
- CloudGPUTracker(显然)——我做来自动追踪价格的
- 简单cron脚本——每小时检查价格,低于阈值就发短信给我
- 价格提醒历史——我每周回顾调整阈值
cron脚本写了20分钟。已经省了我手动检查的时间,可能还有500多美元超额支付。
长期趋势怎么样?
三个月不足以说长期趋势,但我的猜测:
- H100价格缓慢下降——更多供应上线,竞争加剧
- A100价格稳定——成熟市场,需求可预测
- 消费级GPU(4090)越来越便宜——加密衰退导致供应过剩
- 下一代(B100)会搅动一切——发布时期待混乱
我会继续追踪,6个月后用更大数据集汇报。
底线
云GPU定价不是随机的——是可预测的混沌。每日节奏、每周周期、事件冲击创造了可以,利用的规律。
我的建议:
- 工作日上午或周末晚上租
- 避开晚上(美国西海岸时段)
- 关注AI模型发布和会议周
- 保持多个服务商账户
- 自动化价格监控
节省不是边缘的——是实质的。算力账单省30-40%只是因为时机聪明。
想自动追踪价格?
设置价格提醒 →