테스트 방법: 2주 동안 Lambda Labs에서 8x A100 80GB와 8x H100 80GB 인스턴스를 대여했습니다. 동일한 서버급 머신, 동일한 네트워크(800 Gbps InfiniBand). 총 비용: $3,847. 이것은 이론적 벤치마크가 아닙니다 — 실제 모델을 학습시킬 때 실제로 무슨 일이 있었는지를 나타냅니다.
간단한 답변 (성급한 이를 위해)
H100은 대형 변환기 학습에서 2.3~3.1배 더 빠릅니다. A100은 시간당 30~50% 더 저렴합니다. 대부분의 LLM 학습 작업에서 H100은 실제로 더 저렴합니다 — 더 빠르게 완료되기 때문입니다. 추론이나 작은 모델의 경우, A100이 여전히 현명한 선택입니다.
왜 이 비교를 했는지
6개월 전, 13B 파라미터 모델을 학습시키고 있었고 선택이 있었습니다: 시간당 $1.20에 8x A100을 일주일 대여하거나, 시간당 $2.10에 8x H100을 대여합니다. H100은 일주일에 $645 더 비싸졌을 것입니다. 비용을 절약하기 위해 A100을 선택했습니다.
큰 실수였습니다. 학습이 예상된 4일이 아닌 11일이 걸렸습니다. 네트워크 문제, 더 느린 체크포인트, 그리고 그냥... 기다림. 대여를 두 번이나 연장했습니다. 최종 청구서: A100의 경우 $2,540. 만약 4일에 완료되었으면 H100을 대여했다면 $1,613이었을 것입니다.
비용을 절약하려고 했다가 $927을 손실했습니다. 그때부터 추측 대신 제대로 테스트하기로 결정했습니다.
모든 사람이 인용하는 사양 (그리고 왜 그것들이 중요하지 않은지)
어디선가 이 표를 보셨을 것입니다:
| 사양 | A100 | H100 |
|---|---|---|
| FP16 Tensor Core | 312 TFLOPS | 989 TFLOPS |
| 메모리 | 40GB 또는 80GB HBM2e | 80GB HBM3 |
| 메모리 대역폭 | 2,039 GB/s | 3,350 GB/s |
| Transformer Engine | 없음 | 있음 |
문제는: 이 숫자들은 대부분 의미가 없습니다. 실제 학습은 원시 계산에 의해 제한되지 않습니다 — 메모리 대역폭, 통신 오버헤드, 그리고 파이프라인 작업을 얼마나 효율적으로 할 수 있는지에 의해 제한됩니다.
H100의 3.35 TB/s 메모리 대역폭이-game-changer입니다. 수십억 파라미터를 GPU 메모리와 계산 유닛 사이에서 이동시킬 때, 추가 1.3 TB/s는 덜 기다리고 더 계산하는 것을 의미합니다. 하지만 단순한 TFLOPS 비교에서는 그것을 볼 수 없습니다.
실제 학습 벤치마크
세 가지 다른 모델을 학습시켰을 때 실제로 무슨 일이 있었는지입니다:
테스트 1: Llama 2 7B 파인 튜닝
우승: H100 — 2.3배 더 빠르고 시간당 더 높은 요금에도 불구하고 에포크당 25% 더 저렴
이것은 저에게 놀라웠습니다. H100은 더 빠를 뿐 아니라 — 작업 단위당 더 저렴했습니다. 2.3배의 속도 향상이 75% 더 높은 시간당 요금을 충분히 보상했습니다. 여기서 Transformer Engine이 빛을 발합니다: FP8 정밀도를 위한 전달 패스는 의미 있는 정확도 손실 없이 대규모 속도 향상을 제공합니다.
테스트 2: GPT 스타일 13B 모델 (처음부터)
우승: H100 — 3.1배 더 빠르고 $1,155 절약 (총 비용의 44% 저렴)
이것은 눈을 뜨게 했습니다. 전체 학습 실행에서 H100은 저에게 $1,100 이상 절약했습니다. 11일이 아닌 3.6일에 결과를 얻는 것도 언급할 가치가 있습니다. 모델 아키텍처를 반복할 때, 그 시간 차이는 큽니다 — A100에서 하나를 실행하는 동안 세 개의 실험을 실행할 수 있습니다.
테스트 3: Stable Diffusion XL 추론
우승: A100 — 1.5배만 더 빠르지만 이미지에 14% 더 비싸다
여기서 바뀝니다. 추론에서 H100의 장점이 그다지 중요하지 않습니다. Transformer Engine의 이점을 받는 대규모 행렬 곱셈을 하지 않습니다. 메모리 대역폭은 단지 전달 패스를 실행할 때 덜 중요합니다. A100이 여기서 명확한 우승자입니다 — 충분히 빠르고 훨씬 저렴합니다.
아무도 이야기하지 않는 숨겨진 비용
설정 시간
H100 인스턴스를 프로비저닝하는 데 더 오래 걸립니다. A100에서 "인스턴스 시작"에서 "학습 준비 완료"까지 평균 18분이 걸렸습니다. H100은 34분이 걸렸습니다. 자주 짧은 작업을 시작한다면, 그것이 쌓입니다.
가용성 문제
Vast.ai에서 A100은 즉시, 하루 중 언제든지 얻을 수 있었습니다. H100? 한 번은 3시간을 기다렸습니다. CoreWeave에서 H100 가용성은 더 좋았지만 여전히 불안정했습니다. 보장된 용량이 필요하다면, H100을 미리 예약하는 비용을 고려하세요.
소프트웨어 호환성
귀찮은 것: 아직 모든 것이 FP8을 지원하지 않습니다. 더 오래된 변환기 아키텍처를 학습시켜보려 했는데, H100에서 FP16으로 돌아가야 했고, 속도 장점의 대부분을 잃었습니다. A100은 모든 것과 그냥 작동합니다.최신 프레임워크(PyTorch 2.1+, 최신 Transformers)를 사용한다면 H100이 훌륭합니다. 오래된 코드에 Stuck되어 있다면, 이점을 보지 못할 수 있습니다.
어떤 것을 선택해야 할 때
H100을 선택하세요:
- 7B 파라미터 이상의 모델 학습
- 빠르게 반복하고 시간이 경미한 비용보다 중요
- 네이티브 FP8 지원이 있는 PyTorch 2.0+ 사용
- 3일 이상 학습 (시간 절약이 누적됨)
- 최대한 빠른 학습이 필요
A100을 선택하세요:
- 추론 또는 모델 서빙 실행
- 작은 모델 파인 튜닝 (7B 미만)
- 예산이 주요 제약 조건
- FP8 없이 오래된 프레임워크에서 학습
- 보장된 가용성이 필요
- 24시간 미만의 학습 작업 (절약이 누적될 시간이 적음)
H200은 어떻게 되나요?
네, NVIDIA가 141GB 메모리의 H200을 발표했습니다. 저의 생각: 70B 이상의 파라미터 모델을 학습시키지 않는 한, 대부분의 사람들에게 중요하지 않을 것입니다. H100의 80GB는 이미 90%의 워크로드에 충분합니다. H200은 GPT-4 규모 모델을 학습시키는 연구 실험실을 위한 것이지, Llama를 파인 튜닝하는 사람들이 아닙니다.
또한, H100을 대여中找到는 것은好运하세요. 그들을 가진 제공자를 정확히 한 번 봤고, 시간당 $4.50이었습니다. 지금 99%의 프로젝트에 실용적인 선택이 아닙니다.
내 현재 설정
이 모든 테스트 후, 제가 실제로 지금 무엇을 하는지입니다:
- 2일 이상의 학습 실행: 매번 H100. 수학이 그냥 작동합니다.
- 빠른 실험 및 디버깅: A100. 짧은 실행에 더 저렴.
- 추론 엔드포인트: A100. 서빙에 더 나은 가격/성능.
- 프로덕션 학습 파이프라인: H100. 반복에 속도가 중요.
또한, 전략적으로 혼합하기 시작했습니다. 최근 프로젝트에서 초기 사전 학습(속도가 중요한 곳)에 H100을 사용한 다음, 파인 튜닝(여러 실험을 저렴하게 실행하고 싶었던 곳)에 A100으로 전환했습니다. 두 가지의 장점.
결론
H100은 학습에 대한 기대를 충족하지만, 모든 것에 대한 것이 아닙니다. 그냥 "더 나은"이 아닙니다 — 특정 워크로드에 더 나습니다. 마케팅은 모든 AI 관련 작업에 H100이 필요하다고 생각하게 만들고 싶어합니다. 그렇지 않습니다. 하지만 큰 모델을 학습시킬 수 있고 더 높은 시간당 요금을 감수할 수 있다면, 시간을 절약하고 Often 돈을 절약해 줍니다.
A100은 죽지 않았습니다. 여전히 대부분의 작업을 더 낮은 비용으로 훌륭하게 처리하는 믿을 수 없는 GPU입니다. FOMO가 A100이 완벽하게 작업을 수행할 때 H100을 대여하도록 밀어붙이게 하지 마세요.