Llama 3 显存需求：我在 8B 和 70B 模型上测试了不同显卡 (2026)

我的测试平台：

Llama 3 是个性能怪兽。尤其是 70B 模型，相比 Llama 2 有了巨大的飞跃。但不像以前那样“大模型 = 数据中心专属”，我们现在有了更好的工具。量化技术、LoRA 和 Flash Attention 3 改变了游戏规则。

我花了过去 48 小时测试各种配置。虽然我的本地机器崩了五次（OOM 显存溢出简直是我的催眠曲），但我拿到了实测数据。

8B 模型：消费级显卡的甜点

8B 模型能力惊人，而且几乎能在任何设备上运行。只要你有一张现代显卡，基本就稳了。

这里情况有点复杂。

全量微调： 别在消费级显卡上尝试。由于优化器状态（AdamW 会增加 2 倍参数量 + 梯度），你需要约 60-80GB 显存。这得用 A100 80GB。
LoRA / QLoRA： 这才是正解。使用 QLoRA（4-bit 基础模型 + 适配器），我在单张 RTX 4090 上仅用 14GB 显存就训练了 Llama 3 8B。速度快，稳定，而且效果能达到全量微调的 95%。

我的建议： 对于 8B 模型，RTX 3090/4090 是王者。它们便宜、速度快，且拥有 24GB 显存，给你留足了空间去增加 Batch Size 或延长上下文窗口（8k+）。

这是大家都想跑的模型。70B 在某些基准测试中能匹敌 GPT-4，但它非常吃资源。

“双 3090” 黑科技：
这是我最喜欢的配置。我在 eBay 上淘了两张二手 RTX 3090（每张 700 美元），把它们插在一台电脑上。通过 `llama.cpp` 或 `vLLM` 使用张量并行（Tensor Parallelism），我就有了总共 48GB 的显存。

Llama 3 70B (4-bit) 占用约 38-40GB。在两张卡上分摊运行，速度能达到 15-20 tokens/秒。如果你需要 24/7 全天候运行，这比租云服务器划算太多了。

忘掉消费级显卡吧。即使使用 QLoRA，70B 模型也需要约 48-60GB 显存才能在不错的上下文长度下舒适地训练。

我试过在双 4090 上跑 QLoRA。靠着极限的梯度检查点（gradient checkpointing）和 Batch Size设为 1，理论上 能跑通，但慢得令人发指。

解决方案： 我租了 4 张 A100 80GB 跑了 6 小时（总共花了 40 美元）。一个 Epoch 转眼就跑完了。对于 70B 训练，还是乖乖付钱给云厂商吧。这比浪费你的时间和电费便宜多了。

如果你只是玩玩 8B 模型，买张 3090 或 4090 吧。24GB 显存是你的超能力，够你用好几年。

如果你想在本地跑 70B，可以考虑双显卡方案（2x 3090/4090）。组建过程很有趣，而且效果出奇的好。

但如果你需要训练 70B，别逞英雄。查看我们追踪器上的实时价格。你经常能以低于 $1.50/小时的竞价租到 A100。租几个小时比花 3 万美元买那些你只会偶尔用到的硬件便宜多了。