대규모 언어 모델(LLM) 학습이나 Llama 3 파인튜닝에 H100 GPU가 필요할 때, 기업 영업 담당자와 통화를 하고 싶지 않습니다. 노드를 시작하고, SSH로 접속하고, 학습을 시작하고 싶습니다.
더 중요한 것은, 실제로 얼마나 비용이 드는지 알고 싶습니다.
주요 전문 클라우드 제공자 전체에서 실시간 가격을 추적하여 간단한 질문에 답했습니다: 지금 누구에게서 가장 저렴한 H100 렌탈을 받을 수 있나요?
H100 가격 현황
NVIDIA의 H100은 AI 워크로드의 금표준이지만, 가격은 크게 다릅니다. 동일한 컴퓨팅 파워에 대해 가장 저렴한 제공자와 가장 비싼 제공자 간에 40% 이상의 차이를 발견했습니다.
온디맨드 가격의 현재 스냅샷입니다(GPU/시간당):
| 제공자 | 가격 (온디맨드) | 가용성 | 메모 |
|---|---|---|---|
| Vast.ai | ~$1.80 - $2.20 | 가변적 | 커뮤니티 클라우드; 신뢰성 다양. |
| RunPod | $2.69 | 높음 | 훌륭한 DX, "Secure Cloud" 옵션. |
| Lambda Labs | $2.49 | 낮음 | 종종 품절; 순수 안정성에 대한 최고의 가치. |
| CoreWeave | 영업부에 문의 | 낮음 | 기업 집중. |
| Paperspace | $3.09 | 중간 | 사용하기 쉽지만 더 비쌈. |
"숨겨진" 저렴한 GPU 비용
표를 보면, Vast.ai가 승자처럼 보입니다. 그리고 비용 제약이 있고 중단을 견딜 수 있다면, 그렇습니다. 하지만 함정이 있습니다.
Vast.ai는 소비자 및 여유 기업 하드웨어를 집계합니다. "가장 저렴함"은 종종 3-tier 데이터센터(또는 someone's cellar)에서 소비자 등급 인터넷 대역폭과 함께 기계를 렌트하는 것을 의미합니다. 다중 노드 학습의 경우, 이 지연시간이 성능을 저하시켜 비용 절감을 무효화합니다.
RunPod와 Lambda는 최적의 지점을 제공합니다: 보장된 가동 시간과 빠른 상호 연결(Infiniband 또는 빠른 이더넷)을 갖춘 1-tier 데이터센터에서 CFO가 울지 않을 가격.
스팟 인스턴스: 실제 절감
중단을 처리할 수 있다면(즉, 확실한 체크포인팅 코드가 있다면), 스팟 인스턴스가 실제 가치 있는 곳입니다.
RunPod에서 H100 스팟 인스턴스가 불과 $1.99/시간에 나타나는 것을 목격했습니다. 이는 AWS나 Azure에서 지불할 수 있는 $3.50+(거기서 할당량을 받을 수 있다면)보다 훨씬 저렴합니다.
권장 사항
우리의 선택
- 실험 & 디버깅용: RunPod Secure Cloud로 가세요. 즉각적이고 신뢰할 수 있으며 Docker 경험이 원활합니다.
- 장기 학습 실행용: Lambda Labs 가용성을 기다리거나 >8 GPU가 필요하다면 예약 인스턴스 계약에 가입하세요.
- 최대한 절약: Vast.ai, but 연결성을 면밀히 모니터링하세요.
결론
"가장 저렴한" H100은 항상 가장 낮은 시간당 태그가 아닙니다. 학습 실행을 충돌, 정지 또는 데이터 손실 없이 완료할 수 있는 그것입니다.
每小时마다 주요 추적 테이블을 업데이트합니다. 최신 가용성은 홈페이지를 확인하세요.