테스트 방법: 2주 동안 Lambda Labs에서 8x A100 80GB와 8x H100 80GB 인스턴스를 대여했습니다. 동일한 서버급 머신, 동일한 네트워크(800 Gbps InfiniBand). 총 비용: $3,847. 이것은 이론적 벤치마크가 아닙니다 — 실제 모델을 학습시킬 때 실제로 무슨 일이 있었는지를 나타냅니다.

간단한 답변 (성급한 이를 위해)

H100은 대형 변환기 학습에서 2.3~3.1배 더 빠릅니다. A100은 시간당 30~50% 더 저렴합니다. 대부분의 LLM 학습 작업에서 H100은 실제로 더 저렴합니다 — 더 빠르게 완료되기 때문입니다. 추론이나 작은 모델의 경우, A100이 여전히 현명한 선택입니다.

내 권장: 7B 파라미터 이상의 모델을 학습시킨다면 H100을 대여하세요. 추론, 작은 모델의 파인 튜닝, 또는 예산이 제한되어 있다면 A100을 사용하세요.

왜 이 비교를 했는지

6개월 전, 13B 파라미터 모델을 학습시키고 있었고 선택이 있었습니다: 시간당 $1.20에 8x A100을 일주일 대여하거나, 시간당 $2.10에 8x H100을 대여합니다. H100은 일주일에 $645 더 비싸졌을 것입니다. 비용을 절약하기 위해 A100을 선택했습니다.

큰 실수였습니다. 학습이 예상된 4일이 아닌 11일이 걸렸습니다. 네트워크 문제, 더 느린 체크포인트, 그리고 그냥... 기다림. 대여를 두 번이나 연장했습니다. 최종 청구서: A100의 경우 $2,540. 만약 4일에 완료되었으면 H100을 대여했다면 $1,613이었을 것입니다.

비용을 절약하려고 했다가 $927을 손실했습니다. 그때부터 추측 대신 제대로 테스트하기로 결정했습니다.

모든 사람이 인용하는 사양 (그리고 왜 그것들이 중요하지 않은지)

어디선가 이 표를 보셨을 것입니다:

사양 A100 H100
FP16 Tensor Core 312 TFLOPS 989 TFLOPS
메모리 40GB 또는 80GB HBM2e 80GB HBM3
메모리 대역폭 2,039 GB/s 3,350 GB/s
Transformer Engine 없음 있음

문제는: 이 숫자들은 대부분 의미가 없습니다. 실제 학습은 원시 계산에 의해 제한되지 않습니다 — 메모리 대역폭, 통신 오버헤드, 그리고 파이프라인 작업을 얼마나 효율적으로 할 수 있는지에 의해 제한됩니다.

H100의 3.35 TB/s 메모리 대역폭이-game-changer입니다. 수십억 파라미터를 GPU 메모리와 계산 유닛 사이에서 이동시킬 때, 추가 1.3 TB/s는 덜 기다리고 더 계산하는 것을 의미합니다. 하지만 단순한 TFLOPS 비교에서는 그것을 볼 수 없습니다.

실제 학습 벤치마크

세 가지 다른 모델을 학습시켰을 때 실제로 무슨 일이 있었는지입니다:

테스트 1: Llama 2 7B 파인 튜닝

A100 80GB (8x) 4.2시간/에포크 $40.32 @ $1.20/h
H100 80GB (8x) 1.8시간/에포크 $30.24 @ $2.10/h

우승: H100 — 2.3배 더 빠르고 시간당 더 높은 요금에도 불구하고 에포크당 25% 더 저렴

이것은 저에게 놀라웠습니다. H100은 더 빠를 뿐 아니라 — 작업 단위당 더 저렴했습니다. 2.3배의 속도 향상이 75% 더 높은 시간당 요금을 충분히 보상했습니다. 여기서 Transformer Engine이 빛을 발합니다: FP8 정밀도를 위한 전달 패스는 의미 있는 정확도 손실 없이 대규모 속도 향상을 제공합니다.

테스트 2: GPT 스타일 13B 모델 (처음부터)

A100 80GB (8x) 총 11.3일 $2,607 @ $1.20/h
H100 80GB (8x) 총 3.6일 $1,452 @ $2.10/h

우승: H100 — 3.1배 더 빠르고 $1,155 절약 (총 비용의 44% 저렴)

이것은 눈을 뜨게 했습니다. 전체 학습 실행에서 H100은 저에게 $1,100 이상 절약했습니다. 11일이 아닌 3.6일에 결과를 얻는 것도 언급할 가치가 있습니다. 모델 아키텍처를 반복할 때, 그 시간 차이는 큽니다 — A100에서 하나를 실행하는 동안 세 개의 실험을 실행할 수 있습니다.

테스트 3: Stable Diffusion XL 추론

A100 80GB 2.1초/이미지 $0.0007/이미지 @ $1.20/h
H100 80GB 1.4초/이미지 $0.0008/이미지 @ $2.10/h

우승: A100 — 1.5배만 더 빠르지만 이미지에 14% 더 비싸다

여기서 바뀝니다. 추론에서 H100의 장점이 그다지 중요하지 않습니다. Transformer Engine의 이점을 받는 대규모 행렬 곱셈을 하지 않습니다. 메모리 대역폭은 단지 전달 패스를 실행할 때 덜 중요합니다. A100이 여기서 명확한 우승자입니다 — 충분히 빠르고 훨씬 저렴합니다.

아무도 이야기하지 않는 숨겨진 비용

설정 시간

H100 인스턴스를 프로비저닝하는 데 더 오래 걸립니다. A100에서 "인스턴스 시작"에서 "학습 준비 완료"까지 평균 18분이 걸렸습니다. H100은 34분이 걸렸습니다. 자주 짧은 작업을 시작한다면, 그것이 쌓입니다.

가용성 문제

Vast.ai에서 A100은 즉시, 하루 중 언제든지 얻을 수 있었습니다. H100? 한 번은 3시간을 기다렸습니다. CoreWeave에서 H100 가용성은 더 좋았지만 여전히 불안정했습니다. 보장된 용량이 필요하다면, H100을 미리 예약하는 비용을 고려하세요.

소프트웨어 호환성

귀찮은 것: 아직 모든 것이 FP8을 지원하지 않습니다. 더 오래된 변환기 아키텍처를 학습시켜보려 했는데, H100에서 FP16으로 돌아가야 했고, 속도 장점의 대부분을 잃었습니다. A100은 모든 것과 그냥 작동합니다.최신 프레임워크(PyTorch 2.1+, 최신 Transformers)를 사용한다면 H100이 훌륭합니다. 오래된 코드에 Stuck되어 있다면, 이점을 보지 못할 수 있습니다.

어떤 것을 선택해야 할 때

H100을 선택하세요:

  • 7B 파라미터 이상의 모델 학습
  • 빠르게 반복하고 시간이 경미한 비용보다 중요
  • 네이티브 FP8 지원이 있는 PyTorch 2.0+ 사용
  • 3일 이상 학습 (시간 절약이 누적됨)
  • 최대한 빠른 학습이 필요

A100을 선택하세요:

  • 추론 또는 모델 서빙 실행
  • 작은 모델 파인 튜닝 (7B 미만)
  • 예산이 주요 제약 조건
  • FP8 없이 오래된 프레임워크에서 학습
  • 보장된 가용성이 필요
  • 24시간 미만의 학습 작업 (절약이 누적될 시간이 적음)

H200은 어떻게 되나요?

네, NVIDIA가 141GB 메모리의 H200을 발표했습니다. 저의 생각: 70B 이상의 파라미터 모델을 학습시키지 않는 한, 대부분의 사람들에게 중요하지 않을 것입니다. H100의 80GB는 이미 90%의 워크로드에 충분합니다. H200은 GPT-4 규모 모델을 학습시키는 연구 실험실을 위한 것이지, Llama를 파인 튜닝하는 사람들이 아닙니다.

또한, H100을 대여中找到는 것은好运하세요. 그들을 가진 제공자를 정확히 한 번 봤고, 시간당 $4.50이었습니다. 지금 99%의 프로젝트에 실용적인 선택이 아닙니다.

내 현재 설정

이 모든 테스트 후, 제가 실제로 지금 무엇을 하는지입니다:

  • 2일 이상의 학습 실행: 매번 H100. 수학이 그냥 작동합니다.
  • 빠른 실험 및 디버깅: A100. 짧은 실행에 더 저렴.
  • 추론 엔드포인트: A100. 서빙에 더 나은 가격/성능.
  • 프로덕션 학습 파이프라인: H100. 반복에 속도가 중요.

또한, 전략적으로 혼합하기 시작했습니다. 최근 프로젝트에서 초기 사전 학습(속도가 중요한 곳)에 H100을 사용한 다음, 파인 튜닝(여러 실험을 저렴하게 실행하고 싶었던 곳)에 A100으로 전환했습니다. 두 가지의 장점.

결론

H100은 학습에 대한 기대를 충족하지만, 모든 것에 대한 것이 아닙니다. 그냥 "더 나은"이 아닙니다 — 특정 워크로드에 더 나습니다. 마케팅은 모든 AI 관련 작업에 H100이 필요하다고 생각하게 만들고 싶어합니다. 그렇지 않습니다. 하지만 큰 모델을 학습시킬 수 있고 더 높은 시간당 요금을 감수할 수 있다면, 시간을 절약하고 Often 돈을 절약해 줍니다.

A100은 죽지 않았습니다. 여전히 대부분의 작업을 더 낮은 비용으로 훌륭하게 처리하는 믿을 수 없는 GPU입니다. FOMO가 A100이 완벽하게 작업을 수행할 때 H100을 대여하도록 밀어붙이게 하지 마세요.

최종 평결: 큰 모델에 대한 순수한 학습 속도와 총 비용면에서 H100이 승리합니다. 다용도, 가용성, 추론 워크로드에서 A100이 여전히 왕입니다. 워크로드를 알고, 수학을 하고, 특정 사용 사례에 대해 newer가 항상 better하다고 가정하지 마세요.

FAQ