Llama 3のVRAM要件：8Bと70Bを様々なGPUでテストしてみた (2026)

私のテスト環境：

• ローカル：RTX 4090 x2（各24GB）NVLinkブリッジ接続
• クラウド：Lambda Labs A100 x1（80GB） & H100 x8（80GB）
• ソフトウェア：PyTorch 2.2, Hugging Face Transformers, Bitsandbytes（量子化用）

Llama 3は怪物級です。特に70BモデルはLlama 2から飛躍的な進化を遂げています。しかし「大規模モデル＝データセンター専用」だった昔とは違い、今はより良いツールがあります。量子化、LoRA、Flash Attention 3が計算式を変えたのです。

過去48時間、様々な構成でテストを実行しました。ローカルマシンを5回クラッシュさせましたが（OOMエラーはもはや子守唄です）、数値は取れました。

8Bモデル：一般ユーザーのスイートスポット

8Bモデルは驚くほど有能で、ほぼどこにでも収まります。最近のGPUを持っているなら、たぶん大丈夫でしょう。

推論（モデルの実行）

フル精度（FP16/BF16）： 約16GB VRAM。RTX 3090/4090、4080（16GB）、A100/A10に収まります。
4bit量子化（Q4_K_M）： 約6GB VRAM。これが魔法の数字です。RTX 3060、4060、さらには一部のノートPC用GPUでも動きます。

トレーニング（ファインチューニング）

ここからが少し複雑です。

フルファインチューニング： 民生用カードでは諦めましょう。オプティマイザの状態（AdamWはパラメータの2倍＋勾配を追加）のため、約60〜80GBのVRAMが必要です。A100 80GBが要ります。
LoRA / QLoRA： これが正解です。QLoRA（4bitベースモデル＋アダプタ）を使って、単一のRTX 4090上でわずか14GBのVRAMでLlama 3 8Bをトレーニングできました。高速で安定しており、結果はフルファインチューニングの95%に匹敵します。

私の見解： 8Bに関しては、RTX 3090/4090が最強です。安価で高速、そして24GBのVRAMがあるため、バッチサイズを増やしたりコンテキストウィンドウを長く（8k以上）したりする余裕が十分にあります。

70Bモデル：VRAMの捕食者

これがみんなが動かしたがるモデルです。70Bは一部のベンチマークでGPT-4に匹敵しますが、とにかく重いです。

推論

フル精度（FP16）： 約140GB VRAM。A100 80GBカードが2枚必要です。高コストです（約$3〜4/時間）。
4bit量子化： 約40GB VRAM。ここがスイートスポットです。ただ、単一の3090/4090にはあと少しで入りません。

「デュアル3090」ハック：
これが私のお気に入りのセットアップです。eBayで中古のRTX 3090を2枚（各$700）購入し、1台のPCに組み込みました。`llama.cpp`や`vLLM`でテンソル並列化を使えば、合計48GBのVRAMが手に入ります。

Llama 3 70B（4bit）は約38〜40GBでロードされます。2枚のカードに分割して約15〜20トークン/秒で動作します。24時間365日動かすなら、クラウドレンタルに比べて圧倒的にコスパが良いです。

トレーニング（70B）

民生用カードは忘れましょう。QLoRAを使ったとしても、70Bモデルはまともなコンテキスト長で快適にトレーニングするには約48〜60GBのVRAMが必要です。

デュアル4090構成でQLoRAを試してみました。極端な勾配チェックポインティング（gradient checkpointing）とバッチサイズ1で技術的には動作しましたが、痛々しいほど遅かったです。

解決策： A100 80GBを4枚、6時間レンタルしました（計40ドル）。1エポックがあっという間に終わりました。70Bのトレーニングに関しては、素直にクラウド税を払いましょう。あなたの時間（と電気代）を浪費するより安く済みます。

まとめ表：必要なGPUは？

タスク	最低VRAM	推奨GPU	格安オプション
Llama 3 8B（推論）	6 GB (4bit)	RTX 4060 Ti / 3060	RTX 2060 / ノートPC
Llama 3 8B（ファインチューニング）	16 GB (LoRA)	RTX 3090 / 4090 (24GB)	RTX 4080 (16GB)
Llama 3 70B（推論）	40 GB (4bit)	RTX 6000 Ada / A6000	2x RTX 3090 (中古)
Llama 3 70B（ファインチューニング）	80 GB (QLoRA)	A100 80GB / H100	クラウドレンタル（~$2/時間）

結論：買うべきか、借りるべきか？

もし8Bで遊ぶだけなら、3090か4090を買いましょう。24GBのVRAMは数年間使えるスーパーパワーです。

もし70Bをローカルで動かしたいなら、デュアルGPUルート（2x 3090/4090）を検討してください。構築するのは楽しいですし、驚くほどよく動きます。

しかし、もし70Bをトレーニングする必要があるなら、無理してヒーローになろうとしないでください。トラッカーでリアルタイム価格をチェックしましょう。スポット価格なら$1.50/時間以下でA100を確保できることがよくあります。数時間レンタルする方が、たまにしか使わないハードウェアに3万ドル費やすよりずっと安上がりです。