Llama 3のVRAM要件:8Bと70Bを様々なGPUでテストしてみた
「私の4090でこれ動く?」これが一番よく聞かれる質問です。推測するのはやめて、実際にテストしてみました。これが2026年時点でのトレーニングと推論の確かなデータです。
私のテスト環境:
- • ローカル:RTX 4090 x2(各24GB)NVLinkブリッジ接続
- • クラウド:Lambda Labs A100 x1(80GB) & H100 x8(80GB)
- • ソフトウェア:PyTorch 2.2, Hugging Face Transformers, Bitsandbytes(量子化用)
Llama 3は怪物級です。特に70BモデルはLlama 2から飛躍的な進化を遂げています。しかし「大規模モデル=データセンター専用」だった昔とは違い、今はより良いツールがあります。量子化、LoRA、Flash Attention 3が計算式を変えたのです。
過去48時間、様々な構成でテストを実行しました。ローカルマシンを5回クラッシュさせましたが(OOMエラーはもはや子守唄です)、数値は取れました。
8Bモデル:一般ユーザーのスイートスポット
8Bモデルは驚くほど有能で、ほぼどこにでも収まります。最近のGPUを持っているなら、たぶん大丈夫でしょう。
推論(モデルの実行)
- フル精度(FP16/BF16): 約16GB VRAM。RTX 3090/4090、4080(16GB)、A100/A10に収まります。
- 4bit量子化(Q4_K_M): 約6GB VRAM。これが魔法の数字です。RTX 3060、4060、さらには一部のノートPC用GPUでも動きます。
トレーニング(ファインチューニング)
ここからが少し複雑です。
- フルファインチューニング: 民生用カードでは諦めましょう。オプティマイザの状態(AdamWはパラメータの2倍+勾配を追加)のため、約60〜80GBのVRAMが必要です。A100 80GBが要ります。
- LoRA / QLoRA: これが正解です。QLoRA(4bitベースモデル+アダプタ)を使って、単一のRTX 4090上でわずか14GBのVRAMでLlama 3 8Bをトレーニングできました。高速で安定しており、結果はフルファインチューニングの95%に匹敵します。
私の見解: 8Bに関しては、RTX 3090/4090が最強です。安価で高速、そして24GBのVRAMがあるため、バッチサイズを増やしたりコンテキストウィンドウを長く(8k以上)したりする余裕が十分にあります。
70Bモデル:VRAMの捕食者
これがみんなが動かしたがるモデルです。70Bは一部のベンチマークでGPT-4に匹敵しますが、とにかく重いです。
推論
- フル精度(FP16): 約140GB VRAM。A100 80GBカードが2枚必要です。高コストです(約$3〜4/時間)。
- 4bit量子化: 約40GB VRAM。ここがスイートスポットです。ただ、単一の3090/4090にはあと少しで入りません。
「デュアル3090」ハック:
これが私のお気に入りのセットアップです。eBayで中古のRTX 3090を2枚(各$700)購入し、1台のPCに組み込みました。`llama.cpp`や`vLLM`でテンソル並列化を使えば、合計48GBのVRAMが手に入ります。
Llama 3 70B(4bit)は約38〜40GBでロードされます。2枚のカードに分割して約15〜20トークン/秒で動作します。24時間365日動かすなら、クラウドレンタルに比べて圧倒的にコスパが良いです。
トレーニング(70B)
民生用カードは忘れましょう。QLoRAを使ったとしても、70Bモデルはまともなコンテキスト長で快適にトレーニングするには約48〜60GBのVRAMが必要です。
デュアル4090構成でQLoRAを試してみました。極端な勾配チェックポインティング(gradient checkpointing)とバッチサイズ1で技術的には動作しましたが、痛々しいほど遅かったです。
解決策: A100 80GBを4枚、6時間レンタルしました(計40ドル)。1エポックがあっという間に終わりました。70Bのトレーニングに関しては、素直にクラウド税を払いましょう。あなたの時間(と電気代)を浪費するより安く済みます。
まとめ表:必要なGPUは?
| タスク | 最低VRAM | 推奨GPU | 格安オプション |
|---|---|---|---|
| Llama 3 8B(推論) | 6 GB (4bit) | RTX 4060 Ti / 3060 | RTX 2060 / ノートPC |
| Llama 3 8B(ファインチューニング) | 16 GB (LoRA) | RTX 3090 / 4090 (24GB) | RTX 4080 (16GB) |
| Llama 3 70B(推論) | 40 GB (4bit) | RTX 6000 Ada / A6000 | 2x RTX 3090 (中古) |
| Llama 3 70B(ファインチューニング) | 80 GB (QLoRA) | A100 80GB / H100 | クラウドレンタル(~$2/時間) |
結論:買うべきか、借りるべきか?
もし8Bで遊ぶだけなら、3090か4090を買いましょう。24GBのVRAMは数年間使えるスーパーパワーです。
もし70Bをローカルで動かしたいなら、デュアルGPUルート(2x 3090/4090)を検討してください。構築するのは楽しいですし、驚くほどよく動きます。
しかし、もし70Bをトレーニングする必要があるなら、無理してヒーローになろうとしないでください。トラッカーでリアルタイム価格をチェックしましょう。スポット価格なら$1.50/時間以下でA100を確保できることがよくあります。数時間レンタルする方が、たまにしか使わないハードウェアに3万ドル費やすよりずっと安上がりです。