2026년 2월 13일 10분 분량

Llama 3 VRAM 요구 사항: 8B와 70B를 다양한 GPU에서 테스트해봤습니다

"내 4090으로 이거 돌릴 수 있어?" 제가 가장 많이 받는 질문입니다. 추측은 그만두고 직접 테스트를 시작했습니다. 다음은 2026년 학습 및 추론에 대한 확실한 데이터입니다.

내 테스트 장비:

  • • 로컬: 2x RTX 4090 (각 24GB) 및 NVLink 브리지
  • • 클라우드: Lambda Labs 1x A100 (80GB) & 8x H100 (80GB)
  • • 소프트웨어: PyTorch 2.2, Hugging Face Transformers, Bitsandbytes (양자화용)

Llama 3는 괴물 같은 성능을 자랑합니다. 특히 70B 모델은 Llama 2에 비해 엄청난 도약을 이루었습니다. 하지만 "대형 모델 = 데이터센터 전용"이던 예전과 달리, 지금은 더 나은 도구들이 있습니다. 양자화(Quantization), LoRA, Flash Attention 3가 계산 방식을 바꿨습니다.

저는 지난 48시간 동안 다양한 구성을 실행했습니다. 로컬 머신이 5번이나 다운됐지만(OOM 오류는 제 자장가입니다), 결국 숫자를 얻어냈습니다.

8B 모델: 소비자용 그래픽카드의 스위트 스팟

8B 모델은 놀라울 정도로 유능하며 거의 모든 곳에 적합합니다. 최신 GPU가 있다면 아마 문제없을 겁니다.

추론 (모델 실행)

  • 전체 정밀도 (FP16/BF16): 약 16GB VRAM. RTX 3090/4090, 4080(16GB), A100/A10에 적합합니다.
  • 4비트 양자화 (Q4_K_M): 약 6GB VRAM. 이것이 마법의 숫자입니다. RTX 3060, 4060, 심지어 일부 노트북 GPU에서도 실행됩니다.

학습 (미세 조정)

여기서부터 좀 까다로워집니다.

  • 전체 미세 조정(Full Fine-tune): 소비자용 카드로는 시도하지 마세요. 옵티마이저 상태(AdamW는 파라미터 2배 + 그라디언트 추가) 때문에 약 60-80GB VRAM이 필요합니다. A100 80GB가 필요합니다.
  • LoRA / QLoRA: 이게 정답입니다. QLoRA(4비트 기본 모델 + 어댑터)를 사용하여 단일 RTX 4090에서 단 14GB VRAM으로 Llama 3 8B를 학습했습니다. 빠르고 안정적이며 결과는 전체 미세 조정의 95% 수준이었습니다.
내 의견: 8B의 경우 RTX 3090/4090이 왕입니다. 저렴하고 빠르며 24GB VRAM을 갖추고 있어 배치 크기를 늘리거나 긴 컨텍스트 창(8k+)을 위한 여유 공간이 충분합니다.

70B 모델: VRAM 먹는 하마

이것이 모두가 실행하고 싶어 하는 모델입니다. 70B 모델은 일부 벤치마크에서 GPT-4와 경쟁하지만, 매우 무겁습니다.

추론

  • 전체 정밀도 (FP16): 약 140GB VRAM. 2x A100 80GB 카드가 필요합니다. 비용이 많이 듭니다(시간당 ~$3-4).
  • 4비트 양자화: 약 40GB VRAM. 여기가 스위트 스팟입니다. 단일 3090/4090에는 아주 조금 부족해서 안 들어갑니다.

"듀얼 3090" 해킹:
이건 제가 가장 좋아하는 설정입니다. 저는 eBay에서 중고 RTX 3090 두 개(각 $700)를 사서 PC 한 대에 넣었습니다. `llama.cpp` 또는 `vLLM`을 사용하여 텐서 병렬화(Tensor Parallelism)를 하면 총 48GB VRAM을 확보할 수 있습니다.

Llama 3 70B(4비트)는 약 38-40GB를 로드합니다. 두 카드에 분산되어 초당 약 15-20 토큰으로 실행됩니다. 24/7 실행한다면 클라우드 대여에 비해 말도 안 되게 비용 효율적입니다.

학습 (70B)

소비자용 카드는 잊으세요. QLoRA를 사용하더라도 70B 모델은 괜찮은 컨텍스트 길이로 편안하게 학습하려면 약 48-60GB VRAM이 필요합니다.

저는 듀얼 4090 설정에서 QLoRA를 시도했습니다. 극한의 그라디언트 체크포인팅(gradient checkpointing)과 배치 크기 1로 기술적으로는 작동했지만, 고통스러울 정도로 느렸습니다.

해결책: 저는 4x A100 80GB를 6시간 동안 빌렸습니다(총 $40). 에포크 하나가 순식간에 끝났습니다. 70B 학습의 경우 그냥 클라우드 비용을 지불하세요. 여러분의 시간(과 전기 요금)보다 훨씬 저렴합니다.

요약 표: 어떤 GPU가 필요한가요?

작업 최소 VRAM 추천 GPU 가성비 옵션
Llama 3 8B (추론) 6 GB (4-bit) RTX 4060 Ti / 3060 RTX 2060 / 노트북
Llama 3 8B (미세 조정) 16 GB (LoRA) RTX 3090 / 4090 (24GB) RTX 4080 (16GB)
Llama 3 70B (추론) 40 GB (4-bit) RTX 6000 Ada / A6000 2x RTX 3090 (중고)
Llama 3 70B (미세 조정) 80 GB (QLoRA) A100 80GB / H100 클라우드 대여 (~$2/시간)

결론: 살까요, 빌릴까요?

8B 모델만 가지고 놀 생각이라면 3090이나 4090을 구입하세요. 24GB VRAM은 몇 년 동안 사용할 수 있는 슈퍼파워입니다.

로컬에서 70B를 실행하고 싶다면 듀얼 GPU 루트(2x 3090/4090)를 살펴보세요. 구축하는 재미도 있고 놀랍도록 잘 작동합니다.

하지만 70B를 학습해야 한다면 영웅이 되려 하지 마세요. 저희 트래커에서 실시간 가격을 확인하세요. 스팟 가격으로 시간당 $1.50 미만으로 A100을 잡을 수 있는 경우가 많습니다. 몇 시간 빌리는 것이 가끔만 사용할 하드웨어에 3만 달러를 쓰는 것보다 훨씬 저렴합니다.