News Feed

AWS, 세이지메이커 AI에 GPU 예약 기능 도입…추론 워크로드 안정성 강화

컨텐츠 정보

  • 조회 351

본문

아마존웹서비스(AWS)가 자사 AI/ML 서비스인 아마존 세이지메이커 AI(Amazon SageMaker AI)의 추론 엔드포인트를 대상으로 ‘유연 학습 계획(Flexible Training Plans, FTPs)’을 도입했다고 발표했다. 이 기능은 기업이 사전에 필요한 GPU 용량을 예약해 예정된 평가 작업이나 프로덕션 피크 구간에서도 안정적인 추론 성능을 확보하도록 지원한다.

일반적으로 기업은 세이지메이커 AI 추론 엔드포인트를 활용해 클라우드 환경에 훈련된 머신러닝 모델을 배포하고, 새로운 데이터에 대한 예측을 대규모로 처리한다. 예를 들어 글로벌 리테일 기업은 세이지메이커 추론 엔드포인트를 자체 추천 엔진에 적용할 수 있다. 여러 지역에서 수백만 고객이 동시에 상품을 탐색하더라도, 추론 엔드포인트는 자동으로 컴퓨팅과 스토리지를 확장해 트래픽 증가를 처리하므로 기업은 서버나 용량 계획을 직접 관리할 필요가 없다.

그러나 자동 스케일링 방식만으로는 기업이 직면할 수 있는 여러 요구를 충족하지 못하는 경우가 있다. 매우 낮은 지연 시간과 일관된 고성능이 요구되는 워크로드, 자원 가용성이 반드시 보장돼야 하는 중요 테스트 및 프리프로덕션 환경, 그리고 확장 지연이 발생하면 애플리케이션이나 비즈니스 운영에 직접적인 피해가 발생할 수 있는 상황 등이 대표적이다.

AWS는 이런 문제를 해결하기 위해 기업이 필요한 인스턴스 유형과 GPU를 사전에 예약할 수 있도록 FTP를 제공한다고 설명했다. 수요가 급증하거나 공급이 제한된 상황에서는 자동 확장만으로 GPU를 바로 확보하기 어렵다.

AWS에 따르면 세이지메이커 AI 추론용 FTP는 현재 미국 동부(버지니아 북부), 미국 서부(오리건), 미국 동부(오하이오) 리전에서 사용할 수 있다.

운영 부담과 비용 절감 효과

GPU 가용성을 보장하는 기능은 기업이 AI/ML 워크로드를 확장하는 과정에서 겪어온 핵심 난제를 해결한다.

HFS 리서치(HFS Research)의 수석 애널리스트 악샤트 티야기는 “가장 큰 변화는 신뢰성이다. 이전에는 기업이 추론 엔드포인트를 배포할 때 필요한 GPU 인스턴스가 제때 확보되기를 기대할 수밖에 없었다. GPU가 부족한 시기에는 배포가 실패하거나 지연됐고, 이제는 몇 주 또는 몇 달 전이라도 필요한 GPU 용량을 정확히 예약할 수 있다. 이는 LLM, 비전 모델, 배치 추론처럼 중단을 허용할 수 없는 작업을 맡는 팀에게 매우 큰 변화”라고 설명했다.

포레스터의 수석 애널리스트 찰리 다이는 이번 기능을 AI 운영 단계에서 비용 예측 가능성을 높이고 비용 거버넌스를 강화하는 “의미 있는 조치”라고 평가했다. 다이는 “고객은 사용 패턴에 맞춰 지출을 조정하고 과도한 인프라 확보를 피할 수 있어 유휴 비용을 줄일 수 있다”라고 설명했다.

또한 티야기는 용량을 사전 예약하면 온디맨드 대비 더 낮은 약정 요율을 적용받을 수 있고 일정 기간 가격을 고정할 수 있으며, 임박한 시점에 더 비싼 인스턴스 타입으로 확장하느라 비용 부담이 커지는 상황도 피할 수 있다고 분석했다. 아울러 지출이 미리 확정되기 때문에 예산 계획도 훨씬 정확하게 세울 수 있다.

티야기는 인스턴스를 사전에 예약할 수 있게 되면서 기업은 필요할 때 인스턴스를 확보하지 못할까 하는 우려 때문에 추론 엔드포인트를 24/7 계속 켜둬야 했던 비효율적 운영 방식도 줄어들 수 있다고 언급했다. 이런 방식은 오히려 가용성을 떨어뜨리는 원인이 되기도 했다.

AWS만이 추론용 인스턴스 예약 기능을 제공하는 것은 아니다. 마이크로소프트는 애저 머신러닝(Azure Machine Learning)을 통해 추론 워크로드용 예약 용량을 지원하고 있으며, 구글 클라우드는 버텍스 AI(Vertex AI)에 약정 사용 할인을 제공한다.
dl-itworldkorea@foundryco.com

관련자료

댓글 0
등록된 댓글이 없습니다.
Member Rank