News Feed

위기에 처한 AI의 숨은 비용

컨텐츠 정보

  • 조회 723

본문

AI 골드러시는 예상치 못한 문제를 야기하고 있다. 바로 자원 공급의 엄청난 낭비다. 클라우드 비용 초과 지출은 필연적으로 이런 시스템에 대한 진정한 ROI의 부족으로 이어진다. 많은 기업이 1달러의 이익을 얻기 위해 2달러를 지출한다. 그렇게 키운 개는 사냥을 하지 않을 것이다.

캐스트 AI의 최근 데이터에 따르면, 오버프로비저닝된 클라우드 자원을 통해 막대한 액수의 자금이 유출되고 있는 현실이 드러났다. 프로비저닝된 CPU의 13%와 메모리의 20%만이 활용되고 있는 것이다.

CFO들이 밤잠을 설치는 상황이다. 컴퓨터의 87%가 아무 일도 하지 않고 윙윙거리며 앉아 있는 거대한 데이터센터에 들어가는 상황을 상상해 보자. 정신 나간 회사 같지만, 그것이 바로 많은 기업의 클라우드 환경에서 일어나고 있는 일이다. 일반적인 기업 클라우드 컴퓨팅 운영을 관리한다면, 돈을 낭비하고 있는 것이다. 기업이 클라우드 자원에 매달 1백만 달러를 지출하는 것은 드문 일이 아니며, 그 금액의 75%에서 80%가 낭비되고 있다. 이것이 기업의 수익에 어떤 영향을 미치는지는 더 이상 설명할 필요가 없을 것이다.

만약 1,000개의 고성능 인스턴스를 실행하고 있고, 각 인스턴스의 비용이 시간당 1달러라고 가정하면, 한 달에 72만 달러가 들지만, 실제로는 약 9만 3,600달러 상당의 컴퓨팅만 사용하고 있을 것이다. 나머지는 값비싼 디지털 장식일 뿐이다. 하지만 더 나쁜 상황이 있다. 사용하지 않는 컴퓨팅과 저장 공간에 돈을 낭비하는 것뿐만 아니라, 이런 무가치한 자원에 대해 냉각, 전력, 관리, 소프트웨어 라이선스 비용도 지불하고 있다. 클라우드 서비스 업체는 자선 단체가 아니다. 클라우드 서비스 업체는 그 비용을 기업에 전가하고 있다. 낭비되는 자본은 혁신을 위한 자금으로 사용되거나, 경쟁 우위를 확보하는 데 사용되거나, 주주들을 더 행복하게 만드는 데 사용될 수 있다. 오버프로비저닝은 아키텍처의 더 심각한 문제를 숨기고 있다.

클라우드 컴퓨팅은 재정적인 기준이 아니라 경쟁 우위를 위한 것이어야 한다. 하지만 지금 대다수 기업에서 클라우드 컴퓨팅은 그렇지 못하다. 기업들이 이런 낭비 문제를 해결하는 데 진지하게 임하기 전까지는 클라우드 경제학의 약속은 그저 헛된 약속에 불과할 것이다.

숫자에 대한 거짓말

2023년 한 해에만 클라우드 서비스 업체가 87만 8,000개의 가속기를 배치해 700만 GPU 시간의 작업이 이루어졌고, 그 결과 약 58억 달러의 수익이 발생했다. 이 숫자는 심각한 비효율성을 감추고 있다. 이런 자원을 더 효과적으로 활용했다면 수익은 훨씬 더 증가했을 것이다.

AI 작업량이 이 문제를 기하급수적으로 악화시켰다. 클라우드 서비스 업체는 수만 개의 GPU와 AI 가속기를 배치하기 위해 경쟁하고 있지만, 대다수 프로세서가 충분히 활용되지 않고 있다는 증거가 있다. AWS의 울트라스케일(UltraScale) 클러스터를 생각해 보자. 각 클러스터는 2만 개의 엔비디아 H100 GPU로 구성되어 있으며, 이론적으로 완전히 활용될 경우 연간 65억 달러의 수익을 창출할 수 있지만, 그 수치에 근접하지 못하고 있다.

기업은 일반적으로 클라우드 자원을 실제 사용량보다 1/3 정도 더 많이 할당한다. 절반 이상의 기업이 클라우드 사용에 대한 가시성 부족을 이런 낭비의 주된 원인으로 꼽았다. 이 문제는 데이터센터 구성 요소의 매출이 127% 증가해 540억 달러를 기록하는 등 AI 붐으로 인해 더욱 악화되고 있다.

AI로 인한 클라우드 자원 낭비를 방지하는 방법

지혜로운 기업은 문제가 사라지기를 바라지 않고 문제를 해결하기 위해 행동한다. 필자의 조언은 다음과 같다.

  • 실시간 모니터링을 강화한다. 클라우드 서비스 업체가 제공하는 기본 도구에만 의존하지 말라. 이 도구들은 기업에 필요한 즉각적인 비용 가시성을 제공하지 않는다. 대신, 자원 활용에 대한 명확한 최신 정보를 제공하는 서드파티 솔루션에 투자하라. 특히, AI 워크로드를 실행하는 전력 소모가 큰 GPU에 집중하기 바란다.
  • 자원 할당을 최적화한다. 인스턴스를 더 많이 가동하는 대신, 적정 규모를 고려하자. 퍼블릭 클라우드 서비스 업체가 제공하는 최신 인스턴스 유형은 비용 대비 더 큰 효과를 제공한다.
  • AI를 사용해 클라우드 자원을 관리한다. 예측 분석은 수요에 따라 확장 또는 축소하는 데 도움이 되어, 유휴 자원에 대한 비용을 지불하지 않도록 해준다.
  • 인스턴스 크기에만 집중하지 말라. 전략적으로 접근하고 더 큰 그림을 보자. 예약된 인스턴스와 비용 절감 계획을 평가해 비용과 성능의 균형을 유지해야 한다. 더 적은 수의 효율적인 인스턴스로 작업을 더 잘 수행할 수 있는데도 더 큰 인스턴스에서 워크로드가 실행될 수 있다는 점을 잊어서는 안된다.
  • GPU 활용도를 정기적으로 감사한다오. 낮은 CPU 및 메모리 활용률이 계속되는 것은 위험 신호다. 특히 AI 워크로드의 경우, 프로비저닝한 것과 사용한 것 사이의 차이를 모니터링해야 한다.

클라우드 자원의 인플레이션은 비용에 관한 것만이 아니다. 프로세스와 베스트 프랙티스를 포함한 효율성과 지속 가능성에 관한 것이다. 특히 AI 워크로드가 증가함에 따라 기업은 조직은 클라우드 자원 할당 전략을 면밀히 검토해야 한다. 핵심은 충분한 자원을 확보해 최대 수요를 처리하는 동시에 오버프로비저닝의 함정을 피하는 것이다.

상식적인 이야기처럼 들리겠지만, 필자는 예산 초과로 화가 난 이사회, CFO, CIO로부터 매주 전화를 받고 있다. 이런 문제는 클라우드 관리자, 클라우드 아키텍트 또는 자신이 문제가 있다는 사실조차 이해하지 못하는 다른 IT 직원에 의해 발생하는 경우가 많다. 용납할 수 없는 일이다.
dl-itworldkorea@foundryco.com

관련자료

댓글 0
등록된 댓글이 없습니다.