“클라우드가 용량 부족?” 퍼블릭 클라우드의 물리적 한계와 기업의 대응
컨텐츠 정보
- 조회 476
본문
2025년 7월 29일, 마이크로소프트 애저 클라우드의 미국 동부 리전에 의존하던 기업에서 예기치 않은 장애가 발생해 여러 조직에 파장을 일으켰다. 가상머신 할당 시도가 실패했고, 원인은 네트워크 침해나 구성 오류, 복잡한 기술 문제도 아니었다. 놀랍게도 이유는 단순한 ‘용량 부족’이었다. 갑작스러운 수요 급증으로 가용 컴퓨팅 자원이 부족해지면서 애저 클라우드가 일부 사용자에게 가상머신을 제공할 수 없게 된 것이다. 마이크로소프트는 8월 5일까지 문제를 해결했다고 발표했지만, 많은 기업 IT 관리자가 여전히 문제가 지속되고 있다고 보고하며 우리가 믿어온 ‘탄력적인’ 클라우드 솔루션에 결함이 있음을 보여줬다.
이번 애저 클라우드의 장애는 예외적인 사건이 아니었다. 최근 몇 년간 이런 용량 문제로 인한 장애가 더 자주 발생하고 있으며, 여러 퍼블릭 클라우드에서 비슷한 문제가 발생하고 있다. 퍼블릭 클라우드는 예측 불가능한 수요 증가에도 무리 없이 자동 확장 가능하도록 설계됐다고 믿고 있다. 하지만 이번 애저 사태를 비롯한 최근의 현실 확인은 그런 믿음이 보장되지 않는다는 것을 보여준다.
기업은 이제 퍼블릭 클라우드가 물리적 시스템의 한계를 초월한 ‘마법 같은’ 인프라가 아니라는 냉정한 현실을 마주하고 있다. 퍼블릭 클라우드는 결국 누군가의 컴퓨터일 뿐이며, 물리적 제약과 인프라의 한계를 고스란히 안고 있다는 사실을 받아들여야 한다. 클라우드 확장이 실패할 수 있다는 가능성, 아니, 불가피한 현실을 고려해야 한다.
확장성은 무한하다는 약속
퍼블릭 클라우드는 사용자 수요에 따라 즉각적으로 확장 또는 축소가 가능하다는 단순하면서도 강력한 약속을 기반으로 성장했다. 트래픽이 급증하면? 문제없다. 가상머신을 더 할당하면 된다. AWS, 마이크로소프트 애저, 구글 클라우드 등이 제공하는 유연한 확장성은 온프레미스 데이터센터를 떠나 퍼블릭 클라우드로 이전하려는 기업의 주요 결정 요인이었다. 기업은 인프라 관리를 하이퍼스케일러에게 맡기면 사실상 무제한 컴퓨팅 파워를 얻을 수 있고, 하드웨어 조달의 골칫거리도 사라진다고 판단했다.
하지만 애저 클라우드 미국 동부 리전에서 발생한 이번 사고는 이런 이야기의 심각한 허점을 드러냈다. 수요가 공급을 초과하면 ‘무제한 용량’이라는 말은 의미가 없다. 클라우드 서비스 업체는 아무리 대규모 인프라를 갖추고 있어도 결국 물리적 데이터센터에 의존하며, 그 인프라에는 한계가 있다. 한 리전의 컴퓨트 자원이 소진되면 가상머신 할당은 실패하고, 기업은 다른 대안을 찾아야 하는 상황에 내몰린다.
이번 사태는 특정 유형의 컴퓨트 인스턴스에 대한 수요가 급증하면서 발생한 것으로, 많은 기업이 쿠버네티스 1.30의 지원 종료에 맞춰 일제히 업그레이드를 진행했기 때문으로 보인다. 이처럼 중첩된 수요가 동시에 몰리면서 시스템이 과부하에 직면한 것이다.
클라우드의 확장성은 본질적으로 무한하지 않다. 탄력성(elasticity)이라는 표현은 가용 인프라 범위 내에서 확장 가능하다는 의미일 뿐이며, 결국 물리적 하드웨어와 자원의 제약을 벗어날 수 없다.
클라우드 서비스 업체에 책임 묻기
이런 클라우드 용량 문제가 계속 발생함에 따라 기업은 퍼블릭 클라우드 서비스 업체와 맺는 관계를 재정립해야 한다. 첫 번째 단계는 SLA에 대한 재점검이다. 그동안 SLA는 클라우드 서비스 업체와 고객 간 신뢰의 지표 역할을 해왔다. SLA에는 일반적으로 가동 시간, 지연 시간, 응답 시간 같은 성능 지표가 포함된다. 하지만 ‘가용 용량’이나 ‘확장성 한계’는 대부분 명시되지 않아, 용량 문제 발생 시 기업이 문제를 제기할 근거가 부족하다.
SLA를 다시 점검하고 더 엄격한 요건을 반영해야 한다. 자원 할당 실패에 대한 조건과 확장성, 지리적 가용성, 이중화 관련 보장 조항을 포함한 SLA가 필요하다. 이런 보장 실패에 대한 보상 방식도 명확히 해야 한다. 금전적 배상, 서비스 크레딧 등의 형태로 구체화돼야 한다.
클라우드 서비스 업체에 원격 측정 가시성도 요구해야 한다. 자원 사용 현황과 가용성에 대한 지속적이고 명확한 정보가 제공돼야 한다. 모니터링 도구만으로는 부족하며, 클라우드 서비스 업체가 전체 용량 추세와 예측 제약 상황을 투명하게 공유해야 한다. 예컨대, 애저 클라우드 미국 동부 리전 사용자는 특정 인스턴스 종류의 수요가 가용량을 초과하고 있다는 사실을 더 일찍 알 수 있었다면, 업무 중단을 피할 수 있었을 것이다. 마이크로소프트는 다른 인스턴스를 사용하거나 인접 리전으로 워크로드를 옮기라고 제안했지만, 대부분 기업은 운영이 이미 마비된 뒤에야 이런 옵션을 알게 됐다.
클라우드 시대의 장애 대응
클라우드 용량 문제는 앞으로도 거의 확실하게 다시 발생할 것이다. 관건은 기업이 어떻게 대응하고 적응하느냐다. 클라우드를 무한 확장이 가능한 완벽한 솔루션이 아니라, 실패와 제약이 따르는 일반적인 인프라로 인식해야 한다. 강력한 SLA 체결, 여러 리전 또는 서비스 업체에 걸친 워크로드 분산, 용량 문제에 대비한 내부 비상 계획 수립 등 현실적인 대응 전략을 마련해야 한다.
위험을 줄이기 위해 하이브리드 또는 멀티클라우드 전략도 고려할 필요가 있다. 워크로드를 여러 클라우드 서비스 업체에 분산하거나 프라이빗 데이터센터에 최소한의 컴퓨팅 자원을 유지함으로써 어느 한 플랫폼의 용량 제약이 핵심 업무에 영향을 주지 않도록 해야 한다. 이 하이브리드 모델은 더 복잡하긴 하지만, 어떤 업체라도 단일 업체가 기업의 전체 컴퓨팅 수요를 항상 충족시킬 수는 없다는 현실을 반영한 전략이다.
클라우드 컴퓨팅 업계는 확장성에 대한 신뢰 격차가 커지고 있다는 점을 직시해야 한다. 클라우드 서비스 업체는 용량 제약에 대해 더 투명하게 공개하고, 수요 급증 시점에는 더욱 적극적인 커뮤니케이션에 나서야 한다. 고객은 워크로드가 빠르게 확장되더라도, 예기치 못한 자원 할당 오류 없이 시스템이 작동할 것이라는 확신을 가져야 한다.
궁극적으로 애저 클라우드 미국 동부 리전의 이번 장애는 기업과 클라우드 서비스 업체 모두에 경종을 울리는 사건이다. 클라우드는 전례 없는 유연성을 제공하지만, 확장성은 추상적이고 자동적인 보장 사항이 아니다. 확장성은 명확한 책임을 통해 사전에 협의하고 대비하며 집행해야 하는 ‘공동의 과제’다. 탄력적인 컴퓨팅에 대한 약속이 계속해서 신뢰를 얻기 위해서는 업계가 더 높은 수준의 투명성과 책임, 그리고 고객과의 협업을 수용해야 한다.
dl-itworldkorea@foundryco.com
관련자료
-
링크
-
이전
-
다음






