깨지기 쉬운 클라우드의 복잡성, 회복탄력성 설계가 유일한 해법

작성자 Keiminem쪽지보내기 자기소개 아이디로 검색 전체게시물
작성일 2025.12.01 10:51

조회 363

원래 평범한 화요일로 지나가야 할 날이었다. 중견 물류 회사 사무실에는 직원이 하나둘 출근했고 일부는 커피를 들고 돌아왔으며, 다른 직원들은 자리에 앉아 업무를 시작했다. 직원이 화물 추적 대시보드에 접속하고, 픽업 일정을 잡고, 인사 포털에 로그인하려고 하자 핵심 시스템이 이유 없이 동시에 멈췄다. 순식간에 혼란이 뒤따랐다.

IT 팀은 원인을 파악하기 위해 분주하게 움직였지만, 회사 IT 인프라가 그날 아침 대규모 장애를 겪은 주요 클라우드 서비스에 직접 의존하지 않는 구조여서 처음에는 당황했다. 수 시간이 지난 뒤 소프트웨어 서비스 업체와 그 업체에 서비스를 제공하는 2차 업체가 모두 문제의 클라우드 서비스에 의존하고 있다는 사실을 알게 됐다.

이 회사는 다른 많은 기업과 마찬가지로 현대 클라우드 시스템의 복잡성 탓에 예상치 못한 피해자가 됐다. IaaS 업체에 장애가 발생할 때마다 이런 이야기가 업종을 가리지 않고 반복된다. 장애 발생 빈도는 많은 사람이 생각하는 것보다 훨씬 잦다. 디지털 세계는 몇 안되는 하이퍼스케일러 클라우드에 알게 모르게 전체 경제를 얹어 놓은, 놀라울 만큼 취약한 토대 위에 세워져 있다.

도미노 효과

모바일 앱, 대시보드, 연결된 디바이스가 보여주는 화려한 겉모습 아래에는 복잡한 기술 의존성의 미로가 숨어 있다. 클라우드 컴퓨팅은 저렴한 확장성과 복잡성 해소를 약속했다. 도입이 눈덩이처럼 불어나면서 AWS나 마이크로소프트 애저, 구글 클라우드 플랫폼 같은 거대 기업과 그 주변 일부 업체가 현대 디지털 서비스의 척추 역할을 하게 됐다.

이런 하이퍼스케일러는 인프라를 너무 널리 퍼져 있다. 많은 IT 솔루션 업체가, 심지어 대형 업체 의존성을 우려하는 곳도 파트너 서비스, API를 통해, 어떤 경우에는 이들 클라우드 상에서 운영하는 핵심 인프라 서비스 업체를 통해 간접적으로 거대 클라우드에 의존하는 상황이다.

하이퍼스케일러 가운데 한 곳이라도 장애를 겪으면 그 영향은 특정 영역에만 머물지 않는다. 연쇄적으로 번진다. 예를 들어 2025년 말에는 AWS, 마이크로소프트 애저, 클라우드플레어(Cloudflare)에서 발생한 세 차례 대규모 장애가 믿기 어려운 속도로 산업 전반으로 번져 나갔다. 델타항공과 알래스카항공은 승객 체크인을 처리하지 못했다. 로블록스(Roblox), 디스코드(Discord) 같은 게임·스트리밍 플랫폼도 멈춰 섰다. 심지어 인터넷에 연결된 스마트 침대와 가정용 영상 도어벨조차 사용할 수 없게 됐다.

이런 사건을 업계가 성장하는 과정에서 가끔 겪는 망신거리 정도로 치부하고 넘기기 쉽지만, 실제로는 장애 빈도가 점점 높아지고 있다. 더 중요한 문제는, 외부에서 보는 장애 현황 지도에 표시되는 것보다 영향 범위가 훨씬 넓다는 점이다. 대형 소셜 미디어 서비스 한 곳이 멈출 때마다 수많은 기업, 지방자치단체, 비영리 조직이 같은 장애를 겪지만, 조용히 참거나 심지어 어디에 책임을 물어야 할지조차 알지 못하는 경우가 허다하다.

겉으로 보이는 것보다 훨씬 큰 비용

클라우드 장애가 디지털 핵심 시스템을 뒤흔들 때 피해는 고객 불만을 넘어 훨씬 더 넓게 번진다. 생산성 저하, 금융 거래 지연·실패, 신뢰도 하락 같은 부정적 효과가 즉각적으로, 그리고 광범위하게 나타난다.

장애로 인한 전 세계 경제적 손실을 추산하는 일도 쉽지 않다. 짧은 시간의 장애만으로도 기업은 다운타임, 거래 실패, 고객 지원 비용, 평판 훼손 등으로 수억 달러의 손실을 볼 수 있다. 고객 보상, 플랫폼 재설계 등 서드파티 서비스 업체가 부담하는 숨은 비용까지 합치면 전체 손실 규모는 수십억 달러에 이른다.

문제는 돈만이 아니다. 현대 사회는 눈에 보이지 않는 클라우드 인프라에 의존해 돌아간다. 의료 서비스나 공공 서비스 같은 분야에서 시스템 깊숙한 곳의 소프트웨어 장애로 서비스가 중단되는 경우처럼, 클라우드 장애는 혼란과 기회 상실을 넘어 심각한 위험까지 초래한다.

일반적인 대응 방식의 실패

이런 장애가 발생한 뒤 규제를 강화하라는 요구가 거세지고 있다. 입법기관과 소비자 단체는 조사를 통해 책임 소재를 규명하고 중복 구성을 강제하며, ‘절대 망하지 않을 만큼 거대하다’고 인식되는 플랫폼을 분할하는 방안까지 검토하고 있다. 이 같은 반응은 이해할 만하지만, 문제의 표층만 건드리는 처방에 불과하다.

규제라는 안전장치는 할 수 있는 일이 제한적이다. 장애는 대규모 해킹보다 사소한 실수, 버그, 일상적인 변경 작업 때문에 발생하는 경우가 더 많다. 어떤 법률도 오타, 설정 오류, 소프트웨어 실수를 원천적으로 막을 수는 없다. 오히려 외부 개입에 대한 끊임없는 요구가 “안전은 남의 책임”이라는 착각을 심어주고, 언론에 오르내리는 대형 장애를 피할 수 없는 운명처럼 여기는 잘못된 인식을 퍼뜨릴 위험이 있다.

지금 당장 필요한 것은 회복탄력성

해법은 어렵지만 동시에 기업에 힘을 실어주는 방향이기도 하다. 기업은 스스로 아키텍처를 책임지고 직접·간접 의존 관계를 파악해 장애를 전제로 한 계획을 세워야 한다. 회복탄력성은 사후에 덧붙이는 옵션이나 IT 부서에만 떠넘길 수 있는 과제가 아니라 모든 디지털 전환의 핵심 사고방식이 돼야 한다.

이를 위해서는 까다로운 질문에 답해야 한다. 핵심 서비스 업체나 기술 파트너 가운데 한 곳이 장애를 겪으면 무엇이 어떻게 되는가? 어떤 시스템이 완전히 멈추고, 어떤 시스템이 일정 수준에서 기능이 떨어지며, 어떤 시스템이 진짜 미션 크리티컬한가? 단일 솔루션 업체의 울타리 안에서 이뤄지는 단순 페일오버가 아니라 여러 서비스 업체에 걸친 진짜 중복 구성을 어떻게 운영 환경의 전 계층에 심을 것인가? 재해 복구와 비즈니스 연속성 전략이 실제로 작동할 만큼 준비돼 있다고 자신할 수 있는가, 아니면 문서로만 존재하는가?

최근 이어진 장애 사고는 많은 기업이 제대로 된 대응 계획을 갖추지 못했다는 사실을 드러낸 경고음이었다. 너무 많은 기업이 어떻게 대응해야 할지 몰라 우왕좌왕했고, 어떤 부분에서 무엇이 왜 고장났는지조차 파악하지 못한 채 발이 묶였다.

인식과 실행 위에 세운 계획

기업이 이런 도전에 무력하기만 한 것은 아니다. 해답은 클라우드를 통째로 포기하거나 혁신을 멈추는 데 있는 것이 아니라, 현실 세계의 취약성을 인정하는 디지털 생태계를 구축하는 데 있다. 이를 위해서는 파트너 선정 과정에서 더 면밀한 실사를 수행하고 의존 관계를 솔직하게 공유하며, 무엇보다 장애가 일어날 수 있다는 전제를 깔고 시스템을 설계해야 한다.

이제 교훈은 분명해졌다. 상호 연결된 클라우드 서비스 구조에서는 전체 경제의 회복탄력성이 가장 약한 고리 수준에 머물 수밖에 없다. 기업은 마케팅 수사를 넘어 현실을 직시하고 이상적인 상황이 아니라 언젠가 반드시 올 상황에 대비해야 한다. 회복탄력성에 대한 선제적이고 지속적인 투자를 통해서만, 매주 같은 유형의 비싼 장애를 되풀이하는 악순환에서 벗어날 수 있다.
dl-itworldkorea@foundryco.com