대규모 언어 모델(LLM) 학습이나 Llama 3 파인튜닝에 H100 GPU가 필요할 때, 기업 영업 담당자와 통화를 하고 싶지 않습니다. 노드를 시작하고, SSH로 접속하고, 학습을 시작하고 싶습니다.

더 중요한 것은, 실제로 얼마나 비용이 드는지 알고 싶습니다.

주요 전문 클라우드 제공자 전체에서 실시간 가격을 추적하여 간단한 질문에 답했습니다: 지금 누구에게서 가장 저렴한 H100 렌탈을 받을 수 있나요?

H100 가격 현황

NVIDIA의 H100은 AI 워크로드의 금표준이지만, 가격은 크게 다릅니다. 동일한 컴퓨팅 파워에 대해 가장 저렴한 제공자와 가장 비싼 제공자 간에 40% 이상의 차이를 발견했습니다.

온디맨드 가격의 현재 스냅샷입니다(GPU/시간당):

제공자 가격 (온디맨드) 가용성 메모
Vast.ai ~$1.80 - $2.20 가변적 커뮤니티 클라우드; 신뢰성 다양.
RunPod $2.69 높음 훌륭한 DX, "Secure Cloud" 옵션.
Lambda Labs $2.49 낮음 종종 품절; 순수 안정성에 대한 최고의 가치.
CoreWeave 영업부에 문의 낮음 기업 집중.
Paperspace $3.09 중간 사용하기 쉽지만 더 비쌈.

"숨겨진" 저렴한 GPU 비용

표를 보면, Vast.ai가 승자처럼 보입니다. 그리고 비용 제약이 있고 중단을 견딜 수 있다면, 그렇습니다. 하지만 함정이 있습니다.

Vast.ai는 소비자 및 여유 기업 하드웨어를 집계합니다. "가장 저렴함"은 종종 3-tier 데이터센터(또는 someone's cellar)에서 소비자 등급 인터넷 대역폭과 함께 기계를 렌트하는 것을 의미합니다. 다중 노드 학습의 경우, 이 지연시간이 성능을 저하시켜 비용 절감을 무효화합니다.

RunPodLambda는 최적의 지점을 제공합니다: 보장된 가동 시간과 빠른 상호 연결(Infiniband 또는 빠른 이더넷)을 갖춘 1-tier 데이터센터에서 CFO가 울지 않을 가격.

스팟 인스턴스: 실제 절감

중단을 처리할 수 있다면(즉, 확실한 체크포인팅 코드가 있다면), 스팟 인스턴스가 실제 가치 있는 곳입니다.

RunPod에서 H100 스팟 인스턴스가 불과 $1.99/시간에 나타나는 것을 목격했습니다. 이는 AWS나 Azure에서 지불할 수 있는 $3.50+(거기서 할당량을 받을 수 있다면)보다 훨씬 저렴합니다.

권장 사항

우리의 선택

  • 실험 & 디버깅용: RunPod Secure Cloud로 가세요. 즉각적이고 신뢰할 수 있으며 Docker 경험이 원활합니다.
  • 장기 학습 실행용: Lambda Labs 가용성을 기다리거나 >8 GPU가 필요하다면 예약 인스턴스 계약에 가입하세요.
  • 최대한 절약: Vast.ai, but 연결성을 면밀히 모니터링하세요.

결론

"가장 저렴한" H100은 항상 가장 낮은 시간당 태그가 아닙니다. 학습 실행을 충돌, 정지 또는 데이터 손실 없이 완료할 수 있는 그것입니다.

每小时마다 주요 추적 테이블을 업데이트합니다. 최신 가용성은 홈페이지를 확인하세요.

자주 묻는 질문