3개월간 12개 클라우드 GPU 제공업체를 테스트했습니다. 실제 비용은?

완전한 투명성: CloudGPUTracker는 GPU 가격 비교에 실망해서 만들었습니다. 이 테스트는 사이트 존재 이전에 수행되었습니다. 어떤 제공업체도 저에게 돈을 주지 않았습니다. 이 글을 보고 몇몇 제공업체가 저를 싫어할 수도 있습니다.

왜 이걸 했는지 (그리고 당신이 관심을 가져야 하는 이유)

3개월 전, 제 팀이 LLM 파인튜닝을 훈련해야 했고, 클라우드 비용이 불편할 정도로 커지고 있었습니다. 우리는 AWS에서 V100을 시간당 약 8달러씩 지불하고 있었습니다. 아무도 시간을 내서 비교할 사람이 없었기 때문입니다.

더 나은 방법이 있을 거라고 생각했습니다. 그래서 스프레드시트를 만들고, 12개 제공업체에 가입하기 시작했고, 모든 것을 기록하기 시작했습니다. 모든 달러. 모든 충돌. 새벽 3시에 온 모든 "인스턴스가 선점되고 있습니다" 이메일.

설정: 어떻게 테스트했는지

그들의 마케팅 페이지를 신뢰하지 않기로 했습니다. 제가 실제로 한 건 다음과 같습니다:

모든 곳에서 동일한 작업: 표준 LLM 파인튜닝 작업 (Llama 2 7B, 실행당 약 6시간)
동일한 모니터링: "실행 중인지"만 아니라 실제 GPU 활용도 기록
실제 청구서만: "크레딧"이나 "무료 체험" 같은 것 없이. 저는 실제 돈을 지불했습니다.
3개월 기간: 2025년 11월부터 2026년 1월까지

 총 지출: 모든 제공업체에서 총 4,213.47달러. 회계사가 몇 가지
        물어봤습니다.

숫자들

이야기하기 전에, 데이터를 보여드리겠습니다. 모든 가격은 H100 80GB 인스턴스, 온디맨드(스팟 아님), 2026년 1월 기준입니다:

제공업체	시간당 가격	가용성	내 평가
Vast.ai	$0.73-0.85	60%	★★★☆☆
RunPod	$0.89	85%	★★★★☆
Lambda Labs	$0.99	95%	★★★★★
CoreWeave	$1.10	90%	★★★★☆
Genesis Cloud	$1.15	80%	★★★☆☆
Salad	$0.42*	40%	★★☆☆☆
Nebius	$0.95	70%	★★★☆☆
FluidStack	$1.05	75%	★★★☆☆

* Salad의 가격 설정은 독특합니다. 아래에서 더 자세히 설명합니다.

이야기들 (흥미로워지는 부분)

Vast.ai: 잡을 수 있을 때 저렴함

Vast.ai가 가장 좋은 가격을 했습니다. 확실합니다. H100 시간당 0.73달러는 AWS의 거의 절반입니다.

하지만 여기서 문제가 있습니다: 실제로 머신을 잡을 수 없습니다. 3개월 동안 H100을 프로비저닝하려고 47번 시도했습니다. 성공률? 28%.

잘 될 때면 좋았습니다. 안 될 때면, 마감일을 위해 오후 11시에 컴퓨트를 찾으려고 애썼습니다. 즐겁지 않았습니다.

"가장 좋은 가격, 최악의 가용성. 실험에는 좋고, 프로덕션에는 끔찍."

Lambda Labs: 최고의 방식으로平凡함

Lambda Labs는... 괜찮습니다. 이 업계에서 실제로 높은 찬사입니다.

시간당 0.99달러가 가장 저렴하지는 않습니다. 하지만 "인스턴스 시작"을 클릭하면 실제로 작동합니다. 매번. "용량이 부족합니다" 메시지 없음. 의문의 충돌 없음. 그냥 작동하는 GPU.

Lambda에서 3개월 동안 23개의 작업을 실행했습니다. 예기치 않은 중단 Zero. 이것은 실제로 주목할 만합니다.

RunPod: 스팟 인스턴스 복권

RunPod를 좋아하고 싶었습니다. 그들의 스팟 가격은 미쳤습니다—H100을 시간당 0.40달러로 본 적이 있습니다. 샌프란시스코에서 샌드위치보다 저렴합니다.

하지만 스팟 인스턴스는 도박입니다. 모든 중단을 기록했습니다:

1주차: 2회 중단 (성가시지만 관리 가능)
2주차: 1회 중단 (좋아지고 있음)
3주차: 4회 중단, 그 중 하나는 18시간 작업의 17시간 때 발생

내 조언? 개발과 테스트에는 RunPod 스팟을 사용하세요. 프로덕션에서 중요한 것에는 온디맨드를 결제하거나 Lambda를 사용하세요.

Salad: 대체 무슨 일이야

Salad는... 독특합니다. "분산 클라우드"인데,Basically 누군가의 게이밍 PC를 렌탈하는 것입니다. 가격은 엄청나게 저렴하지만(시간당 0.42달러) 경험은 예측 불가능합니다.

한 번은 배경에서 비트코인 마이너가 실행되고 있는 것 같습니다. GPU 활용도가 무엇을 해도 40%에 갇혔었습니다. 다른 번에는, 그냥 훈련 중 사라졌습니다. "선점됨"이 아니라. 그냥 gone.

Salad를 심각한 작업에 권장할 수 없습니다. 하지만 50달러 예산으로 배우려는 학생이라면? maybe.

아무도 이야기하지 않는 숨겨진 비용

헤드라인 가격이 알려주지 않는 것들:

1. Egress 요금이 당신을 잡습니다

CoreWeave는 시간당 1.10달러로 좋은 거래처럼 보였습니다. 그러자 첫 청구서에 47달러의 "데이터 전송" 비용이 붙었습니다. 체크포인트를 다운로드하는 것도 당신에게 불리하게 작용합니다. 나는 그것을 예산에 포함시키지 않았습니다.

해결책: 지속적 스토리지를 설정하고 반복적으로 모델을 다운로드하지 마세요. 또는 egress 허용량이 щедры한 제공업체를 사용하세요 (Lambda는 월 1TB를 제공합니다).

2. 설정 시간은 무료가 아닙니다

일부 제공업체는 머신이 아직 부팅 중일 때도 "시작"을 클릭한 순간부터 비용을 부과하기 시작합니다. 한 제공업체에서 SSH로 연결하기 전에 부팅 시간 8분을 측정했습니다. 시간당 2달러라면, 머신을 시작하는 데 0.26달러입니다.

3. "바보 세금"

3일 주말 동안 인스턴스를 켜두었습니다. 비용: 72달러. 아무것도 아니에요. 대부분의 제공업체에는 자동 종료 기능이 없습니다.

해결책: 캘린더 알림을 설정하세요. 또는 유휴 인스턴스를 종료하는 [이 스크립트](/ko/blog/auto-shutdown-script)를 사용하세요.

내 실제 권장사항

모호한 "상황에 따라 다릅니다" 조언을 드리지 않을게요. 다음은 내 실제 선택입니다:

🥇 최고 종합: Lambda Labs

사용 시기: 프로덕션 훈련, 클라이언트 작업, 신뢰성이 중요한 모든 것

가격: 시간당 0.99달러 (H100)

이유: 그냥 작동합니다. 매번. 그들의 지원이 실제로 응답합니다. 저렴한 옵션보다 시간당 0.10额外的 가치가 worth합니다.

🥈 최고 예산 옵션: RunPod (스팟)

사용 시기: 개발, 실험, 하이퍼파라미터 튜닝

가격: 시간당 0.40~0.60달러 (스팟 H100)

이유: 작동할 때, 그것은 확실히 가장 저렴합니다. 체크포인팅을 설정하고 마감일이 중요한 작업에는 사용하지 마세요.

🥉 기업에最適: CoreWeave

사용 시기: 계약, SLA, 새벽 2시에 전화할 사람이 필요할 때

가격: 시간당 1.10달러+ (하지만 협상 가능)

이유: 실제 기업 지원. 하지만 egress 요금을 주의하세요.

다르게 할 것

다시 시작한다면:

Lambda로 시작. 저렴한 제공업체에서 시간을 낭비하지 말고 먼저 작업량을 파악하세요.
먼저 체크포인팅 설정. 긴 작업을 실행하기 전에. 이것은 어려운 방식으로 배웠습니다.
"바보 같은 실수"에 20% 추가 예산. 인스턴스 켜두기, egress 요금, 다시 실행해야 하는 실패한 작업.
가장 낮은 가격을 추구하지 마세요. 시간당 0.73달러인 인스턴스가 두 번 크래시되면 작동하는 시간당 0.99달러보다 더 비싸집니다.

내가 만든 도구 (홍보)

이것을 수동으로 하는 것은 힘들었습니다. 그래서 모든 제공업체의 가격을 자동으로 추적하는 CloudGPUTracker를 만들었습니다.

어느 제공업체가 "최고"인지 알려주지 않습니다 (이 글이 그 역할입니다). 하지만 누가 지금 가장 저렴한지 알려줄 것이며, 그것이 전투의 절반입니다.

현재 가격을 확인하고 싶나요?

실시간 H100 가격 확인 →