2026年2月13日 10分で読めます

Llama 3のVRAM要件:8Bと70Bを様々なGPUでテストしてみた

「私の4090でこれ動く?」これが一番よく聞かれる質問です。推測するのはやめて、実際にテストしてみました。これが2026年時点でのトレーニングと推論の確かなデータです。

私のテスト環境:

  • • ローカル:RTX 4090 x2(各24GB)NVLinkブリッジ接続
  • • クラウド:Lambda Labs A100 x1(80GB) & H100 x8(80GB)
  • • ソフトウェア:PyTorch 2.2, Hugging Face Transformers, Bitsandbytes(量子化用)

Llama 3は怪物級です。特に70BモデルはLlama 2から飛躍的な進化を遂げています。しかし「大規模モデル=データセンター専用」だった昔とは違い、今はより良いツールがあります。量子化、LoRA、Flash Attention 3が計算式を変えたのです。

過去48時間、様々な構成でテストを実行しました。ローカルマシンを5回クラッシュさせましたが(OOMエラーはもはや子守唄です)、数値は取れました。

8Bモデル:一般ユーザーのスイートスポット

8Bモデルは驚くほど有能で、ほぼどこにでも収まります。最近のGPUを持っているなら、たぶん大丈夫でしょう。

推論(モデルの実行)

  • フル精度(FP16/BF16): 約16GB VRAM。RTX 3090/4090、4080(16GB)、A100/A10に収まります。
  • 4bit量子化(Q4_K_M): 約6GB VRAM。これが魔法の数字です。RTX 3060、4060、さらには一部のノートPC用GPUでも動きます。

トレーニング(ファインチューニング)

ここからが少し複雑です。

  • フルファインチューニング: 民生用カードでは諦めましょう。オプティマイザの状態(AdamWはパラメータの2倍+勾配を追加)のため、約60〜80GBのVRAMが必要です。A100 80GBが要ります。
  • LoRA / QLoRA: これが正解です。QLoRA(4bitベースモデル+アダプタ)を使って、単一のRTX 4090上でわずか14GBのVRAMでLlama 3 8Bをトレーニングできました。高速で安定しており、結果はフルファインチューニングの95%に匹敵します。
私の見解: 8Bに関しては、RTX 3090/4090が最強です。安価で高速、そして24GBのVRAMがあるため、バッチサイズを増やしたりコンテキストウィンドウを長く(8k以上)したりする余裕が十分にあります。

70Bモデル:VRAMの捕食者

これがみんなが動かしたがるモデルです。70Bは一部のベンチマークでGPT-4に匹敵しますが、とにかく重いです。

推論

  • フル精度(FP16): 約140GB VRAM。A100 80GBカードが2枚必要です。高コストです(約$3〜4/時間)。
  • 4bit量子化: 約40GB VRAM。ここがスイートスポットです。ただ、単一の3090/4090にはあと少しで入りません。

「デュアル3090」ハック:
これが私のお気に入りのセットアップです。eBayで中古のRTX 3090を2枚(各$700)購入し、1台のPCに組み込みました。`llama.cpp`や`vLLM`でテンソル並列化を使えば、合計48GBのVRAMが手に入ります。

Llama 3 70B(4bit)は約38〜40GBでロードされます。2枚のカードに分割して約15〜20トークン/秒で動作します。24時間365日動かすなら、クラウドレンタルに比べて圧倒的にコスパが良いです。

トレーニング(70B)

民生用カードは忘れましょう。QLoRAを使ったとしても、70Bモデルはまともなコンテキスト長で快適にトレーニングするには約48〜60GBのVRAMが必要です。

デュアル4090構成でQLoRAを試してみました。極端な勾配チェックポインティング(gradient checkpointing)とバッチサイズ1で技術的には動作しましたが、痛々しいほど遅かったです。

解決策: A100 80GBを4枚、6時間レンタルしました(計40ドル)。1エポックがあっという間に終わりました。70Bのトレーニングに関しては、素直にクラウド税を払いましょう。あなたの時間(と電気代)を浪費するより安く済みます。

まとめ表:必要なGPUは?

タスク 最低VRAM 推奨GPU 格安オプション
Llama 3 8B(推論) 6 GB (4bit) RTX 4060 Ti / 3060 RTX 2060 / ノートPC
Llama 3 8B(ファインチューニング) 16 GB (LoRA) RTX 3090 / 4090 (24GB) RTX 4080 (16GB)
Llama 3 70B(推論) 40 GB (4bit) RTX 6000 Ada / A6000 2x RTX 3090 (中古)
Llama 3 70B(ファインチューニング) 80 GB (QLoRA) A100 80GB / H100 クラウドレンタル(~$2/時間)

結論:買うべきか、借りるべきか?

もし8Bで遊ぶだけなら、3090か4090を買いましょう。24GBのVRAMは数年間使えるスーパーパワーです。

もし70Bをローカルで動かしたいなら、デュアルGPUルート(2x 3090/4090)を検討してください。構築するのは楽しいですし、驚くほどよく動きます。

しかし、もし70Bをトレーニングする必要があるなら、無理してヒーローになろうとしないでください。トラッカーでリアルタイム価格をチェックしましょう。スポット価格なら$1.50/時間以下でA100を確保できることがよくあります。数時間レンタルする方が、たまにしか使わないハードウェアに3万ドル費やすよりずっと安上がりです。