News Feed

잇단 장애로 신뢰 위기 직면한 IBM 클라우드···구조적 변화 시급

컨텐츠 정보

  • 조회 410

본문

2025년 8월 12일, IBM 클라우드는 5월 이후 네 번째 대규모 장애를 겪으며 2시간 동안 서비스가 중단됐다. 이번 ‘1등급 중대 장애’로 인해 전 세계 10개 리전에서 27개 서비스가 영향을 받았고, 인증 실패로 기업 고객이 주요 자원에 접근하지 못했다. IBM 클라우드 콘솔과 명령줄 인터페이스, API 접근이 모두 차단되면서 사용자는 업무에 심각한 차질을 빚었다. 반복적으로 발생한 이 같은 장애는 사용자 접근, 오케스트레이션, 모니터링을 담당하는 제어 플레인 아키텍처의 구조적 취약점을 드러냈다.

5월 20일, 6월 3일, 6월 4일에 발생한 이번 장애는 IBM의 신뢰성에 대한 우려를 한층 더 키우는 계기가 됐다. 하이브리드 클라우드 선두주자를 자처하는 IBM 입장에서는 뼈아픈 대목이다. 특히 컴플라이언스 요구사항이 까다로운 산업군이나 실시간 운영을 위해 안정적인 클라우드 인프라가 필수적인 기업은 IBM이 이런 요구를 지속적으로 충족시킬 수 있을지 의문을 제기하고 있다. 연이은 사고는 기업 고객이 AWS, 마이크로소프트 애저, 구글 클라우드 같은 더 안정적인 플랫폼으로 눈을 돌리는 이유가 되고 있다.

온프레미스 시스템과 퍼블릭 클라우드를 결합한 하이브리드 전략을 IBM 클라우드에 맡긴 기업 입장에서는 이 같은 사고가 IBM이 내세운 핵심 가치에 대한 전면 부인이다. 하이브리드 클라우드의 장점은 유연성과 복원력인데, 제어 플레인이 불안정하면 이런 이점은 무색해진다. 수십억 달러가 투입된 IBM의 하이브리드 클라우드 전략이 흔들리고 있다.

경쟁사에 기회를 열어준 IBM

IBM은 전통적으로 클라우드 시장에서 틈새 업체에 머물렀으며, 현재 전 세계 시장 점유율은 2%에 불과하다. 반면 AWS는 30%, 마이크로소프트 애저는 21%, 구글 클라우드는 11%를 기록하고 있다. IBM 클라우드는 하이브리드 클라우드 통합과 엔터프라이즈급 기능에 특화된 고객층을 타깃으로 한다.

AWS, 애저, 구글 클라우드는 지속적으로 높은 안정성과 운영 효율성, 확장 능력을 입증해 왔다. 제어 플레인은 클라우드 인프라를 관리하는 데 필수적인 요소인 만큼, 이들 하이퍼스케일 클라우드는단일 장애 지점을 제거하는 방향으로 아키텍처를 다변화해 왔다. IBM 클라우드에서 문제를 겪고 있는 기업 고객은 이제 AI, 머신러닝, 자동화 기능까지 폭넓게 제공하는 이들 대형 플랫폼으로 전환을 검토할 가능성이 높다.

IBM 입장에서 이번 사고는 시기적으로 최악이다. 헬스케어, 금융, 제조 등 다양한 산업군이 AI 기반 기술 의존도를 높여가는 상황에서 기업은 클라우드의 안정성 확보에 사활을 걸고 있다. AI 워크로드는 실시간 데이터 처리, 지속성, 안정적인 확장 능력이 핵심이기 때문에 제어 플레인 장애로 인한 서비스 중단은 AI 시스템 전반에 심각한 피해를 줄 수 있다.

IBM이 할 수 있는 일

IBM이 신뢰를 회복하고 엔터프라이즈 고객의 신뢰를 다시 얻기 위해서는 전면적인 변화가 필요하다. IBM의 CTO라면, 다음과 같은 조치를 우선 시행해야 할 것이다.

  • 복원력 있는 제어 플레인 아키텍처 도입. IBM의 중앙집중식 제어 플레인 설계는 더 이상 장점이 아닌 약점이다. 제어 플레인을 분산 구조로 전환하면 리전이나 기능 단위로 독립적인 운영이 가능해지며, 글로벌 장애 범위를 줄일 수 있다.
  • IAM 설계 고도화 및 지역 분리. 지난 4건의 장애 모두 인증 실패가 원인이었다. 전 세계적으로 얽혀 있는 IAM 구조 대신 리전별로 분리된 접근 제어 시스템과 분산 인증 게이트웨이 설계를 도입해야 한다.
  • 제어 플레인 가용성 중심 SLA 강화. 클라우드 고객은 운영 안정성에 대한 보장을 원한다. 제어 계층의 신뢰성을 명시한 강력한 SLA를 도입하면 고객이 핵심 관리 기능에 대해 신뢰를 가질 수 있다.
  • 사후 대응의 투명성 강화. 장애 이후 고객과의 소통이 중요하다. 사고 보고서, 수정 일정, 인프라 개선 계획 등을 신속히 제공하면 신뢰 회복의 단초가 될 수 있다. 침묵은 불신만 가중시킬 뿐이다.
  • 스트레스 테스트 강화. IBM은 고부하, 고위험 조건을 시뮬레이션한 정기적인 테스트를 통해 장애 발생 전 취약점을 찾아내야 한다. 이런 테스트를 반복 수행하는 것이 우선 과제가 되어야 한다.
  • 멀티 제어 플레인 기반 하이브리드 시스템 개발. 제어 플레인 분산 아키텍처를 도입하면 중앙 집중형의 한계를 벗어나 워크로드를 유연하게 운영할 수 있다. 하이브리드 전략의 복원력이라는 장점을 유지하기 위해 반드시 필요한 조치다.

기업 고객의 복원력 강화 방안

클라우드 서비스 업체의 안정성에 의구심을 갖고 있는 기업은 운영 복원력을 높이기 위해 다음과 같은 조치를 고려할 수 있다.

  • 멀티 클라우드 전략 채택. 워크로드를 여러 클라우드 서비스 업체에 분산하면 특정 업체에 대한 의존도를 줄일 수 있다. 이를 통해 한 클라우드에서 장애가 발생하더라도 핵심 비즈니스 기능은 유지할 수 있다.
  • 재해 복구 자동화 통합. 자동 페일오버 시스템과 리전 간, 서비스 업체 간 백업 기능을 활용하면 서비스 중단 시 다운타임을 최소화할 수 있다.
  • 강력한 SLA 요구. 제어 플레인 가용성을 보장하는 SLA를 계약 단계에서 명확히 명시하고, SLA 위반 시 벌칙 조항을 포함해야 한다.
  • 업체 안정성 모니터링 및 감사. 클라우드 서비스 업체의 안정성 지표를 지속적으로 추적하고, 기준을 지속적으로 충족하지 못할 경우 마이그레이션 계획을 수립해야 한다.

IBM은 중대한 분기점에 도달했다. 오늘날과 같은 경쟁 환경에서 클라우드 안정성은 기본 요건이지, 부가적인 혜택이 아니다. 특히 제어 플레인에서 반복된 실패는 IBM이 신뢰할 수 있는 엔터프라이즈 클라우드 파트너라는 위치 자체를 흔들고 있다. 많은 고객에게 이번 연속된 장애는 워크로드를 다른 곳으로 옮길 마지막 명분이 될 수 있다.

IBM이 회복하려면 제어 플레인 아키텍처를 근본적으로 개선하고 사고 이후에 고객과 투명하게 소통하며, 신뢰 회복을 위한 구체적인 조치를 시행해야 한다. 동시에 기업은 어떤 클라우드 서비스 업체를 선택하든 운영 복원력 확보 전략을 반드시 병행해야 한다는 점을 이번 사태에서 교훈 삼아야 한다.

AI와 자동화에 점점 더 의존하는 세상에서 안정성은 선택이 아닌 필수이다. IBM은 앞으로 해야 할 일이 산더미처럼 쌓여 있다.
dl-itworldkorea@foundryco.com

관련자료

댓글 0
등록된 댓글이 없습니다.
Member Rank