멀티클라우드에서 에이전틱 AI 구축하기 : 실험을 통해 얻은 교훈

작성자 Keiminem쪽지보내기 자기소개 아이디로 검색 전체게시물
작성일 2025.04.14 11:58

조회 2,033

최근 필자는 다양한 퍼블릭 클라우드 서비스 업체에서 자율적으로 작동할 수 있는 에이전틱 AI 아키텍처를 설계하고 검증하는 프로젝트를 수행했다. 이 프로젝트는 필자가 기업 고객을 위해 이들 아키텍처를 만들고, 실행 가능성을 테스트하고, 멀티클라우드 에이전틱 AI 배포를 위한 베스트 프랙티스를 개선할 수 있는지 확인하기 위한 사전 테스트였다.

이전에도 에이전틱 AI 시스템을 설계한 적이 있지만, 그때는 제한된 환경이나 하이브리드 환경에서였다. 이번에는 퍼블릭 클라우드 서비스 업체를 이용하는 데만 집중했으며, 이들 플랫폼이 분산형 의사결정 AI를 얼마나 잘 지원하는지 확인했다. 이 시스템은 실시간 가용성, 비용, 성능, 그리고 다른 요소를 분석해 다양한 클라우드에 걸쳐 워크로드를 동적으로 할당하고, 확장성, 내결함성, 효율성을 보장해야 했다.

기술적 실험을 넘어, 이 프로젝트는 매우 귀중한 학습 경험이었다. 필자가 테스트한 것은 오늘날 클라우드 기술의 한계, 크로스 클라우드 오케스트레이션의 실질적인 문제, 적응형 디자인 패턴의 연마였다. 이 프로젝트는 자율적인 멀티클라우드 AI 솔루션 개발의 기초 전략을 확고히 하는 계기가 됐고, 저는 고객과 동료들이 자신만의 지능형 에이전트 시스템을 만들 수 있도록 그 과정에서 배운 교훈을 공유하고자 한다. 필자가 실험에 접근한 방법, 사용한 도구와 기법, 직면한 장애물, 그리고 그 결과는 다음과 같다.

시스템 요구 사항

에이전틱 AI 시스템의 핵심은 자율적인 의사결정 시스템이다. AI를 사용해 자율적으로 작업을 할당하고 실행하며, 변화하는 조건에 대응하면서 비용, 성능, 자원 가용성 및 기타 요소를 균형 있게 조정한다. 필자는 여러 퍼블릭 클라우드 플랫폼을 조화롭게 활용하고 싶었다. 이 아키텍처는 플랫폼에 구애받지 않는 일관성을 달성하면서 클라우드별 기능을 균형 있게 조정할 수 있을 만큼 유연해야 한다. 이 프레임워크는 다음과 같은 역할을 수행한다.

실시간 분석을 바탕으로 가장 적합한 클라우드 서비스 업체에 워크로드를 동적으로 할당한다.
장애 또는 속도 저하가 발생했을 때 할당 작업을 재조정해 내결함성 프로세스를 유지한다.
서로 다른 클라우드 플랫폼에서 호스팅되는 구성 요소 간에 원활한 커뮤니케이션과 데이터 흐름을 통해 분산된 요소를 운영한다.

아키텍처 구성 요소

필자가 어떤 클라우드 서비스 업체를 이용했는지, 어떤 도구를 이용했는지는 언급하지 않겠다. 특정 클라우드 업체나 개인이 선호하는 업체나 도구가 실험의 핵심 목적을 가리는 것을 방지하기 위해서다. 또한, 실험 과정에서 거론되지 않은 클라우드 업체의 오해도 방지하고 싶다.

의사결정 계층은 시스템의 핵심이다. 이 계층은 지연 시간, 비용, 처리량, 저장 용량 가용성 등의 자원 지표를 분석했다. 이런 입력에 기초해 워크로드를 어디로 보내거나 작업을 실행할지를 결정했다. 이 자율적 계층은 다음과 같은 기능을 수행하도록 설계됐다.

클라우드 전반에 걸친 자원의 현재 상태 평가
작업의 우선순위 지정 및 가장 적절한 환경에 할당
문제(예: 병목 현상 또는 서비스 장애)를 감지하고 실시간으로 조정

이런 목표는 클라우드 환경을 동적으로 평가하고 자원 할당을 조정할 수 있는 모듈형 AI 기능을 구현함으로써 달성됐다. 워크로드는 수정 없이 다른 플랫폼에서 실행할 수 있어야 했기 때문에 컨테이너화했다.

이런 컨테이너를 클라우드 전반에 배포, 확장 및 관리하기 위해서는 오케스트레이션 계층이 필수적이다. 오케스트레이션 시스템은 다음과 같은 기능을 수행한다.

AI가 생성한 결정을 기반으로 워크로드를 배포한다.
자원 사용량과 성능을 모니터링해 AI의 의사결정을 개선한다.
환경 전반에 걸쳐 변동하는 워크로드를 수용하기 위해 자동으로 확장한다.

통신 계층을 통해 서로 다른 클라우드에서 실행되는 서비스가 원활하게 상호작용할 수 있으며, 환경 전반에 걸쳐 효과적으로 조정할 수 있다. 사용례 요구 사항에 따라 데이터가 복제, 캐시 또는 동기화되는 분산 스토리지 메커니즘을 통해 클라우드 서비스 업체 전반에 걸쳐 데이터 일관성을 유지한다.

모니터링 및 관찰 가능성 프레임워크 덕분에 시스템이 자율적으로 작동할 수 있다. 성능에 대한 실시간 가시성이 매우 중요했기 때문에, 관찰 가능성 계층은 여러 가지 지표를 추적하고 이 정보를 핵심 AI 시스템에 다시 공급해 시간이 지남에 따라 의사 결정을 개선할 수 있었다. 이 계층은 다음과 같은 데이터를 수집했다.

작업 실행 성능
클라우드 관련 이상 현상 또는 병목 현상
모든 환경에 걸친 비용 추세 및 자원 소비량

개발 과정

첫 번째 단계는 여러 클라우드 서비스 업체에 인프라를 제공하는 것이다. IaC 접근 방식을 사용해 각 플랫폼에 가상 네트워크, 컨테이너 오케스트레이션 환경, 스토리지 솔루션을 배치했다. 이런 환경 간의 연결을 위해서는 보안 터널 구성, 피어링 연결 등 신중한 네트워킹이 필요했다. 이를 통해 짧은 지연 시간으로 여러 서비스 업체 간에 통신할 수 있었다.

AI 코어는 지능적이고 적응력이 있어야 한다. 필자는 워크로드 라우팅에 대한 신뢰할 수 있는 결정을 내릴 수 있도록 시뮬레이션된 자원 데이터로 모델을 훈련시켰다. AI 로직을 가벼운 스테이트리스 서비스로 배포함으로써 확장성을 보장하고 모델이 발전할 때 쉽게 업데이트할 수 있다.

오케스트레이션 계층은 AI 코어와 긴밀하게 통합되어 동적인 의사 결정을 가능하게 했다. 예를 들어, 수요가 많을 때, 시스템은 다른 곳에서 발생하는 지연을 상쇄하기 위해 하나의 클라우드에서 추가 자원을 가동할 수 있다. 마찬가지로, 한 클라우드 서비스 업체가 다운타임을 겪을 경우, 워크로드가 다른 위치로 원활하게 라우팅된다.

가장 중요한 단계 중 하나는 시스템의 부하 테스트였다. 부분적인 중단부터 전체 플랫폼 장애까지 모든 상황을 시뮬레이션했다. 예를 들어, 한 클라우드에 있는 서버 클러스터가 오프라인 상태가 되면, 시스템은 데이터나 상태를 잃지 않고 처리 작업을 다른 자원으로 리디렉션한다. 이런 시나리오를 통해 페일오버 중 일관되지 않은 응답 시간과 같은 약점을 발견할 수 있었고, 워크로드 우선순위 재지정을 최적화해 이를 해결했다.

도전 과제와 해결책

클라우드 간에 워크로드 연결은 상당한 장애물이었다. 지연, 보안, 호환성 문제로 인해 네트워크 아키텍처를 미세 조정해야 했다. 필자는 데이터 교환의 신뢰성을 향상시키기 위해 보안 터널과 오버레이 네트워크를 조합해 구현했다.

클라우드 간 비용 추적도 또 다른 과제였다. 각 서비스 업체의 청구 모델이 독특했기 때문에 비용을 예측하고 최적화하는 것이 어려웠다. 필자는 실시간 비용 데이터를 통합 대시보드에 가져오기 위해 API를 통합했고, 이를 통해 AI 시스템이 예산 고려 사항을 의사 결정에 포함할 수 있었다.

클라우드별 차이점은 배포를 표준화하려는 노력에도 불구하고 때때로 오작동을 일으켰다. 예를 들어, 스토리지 솔루션은 플랫폼마다 특정 작업을 다르게 처리해 데이터 동기화 및 검색 방식에 때때로 불일치가 발생했다. 필자는 플랫폼별 특성을 추상화하는 하이브리드 스토리지 모델을 채택하여 이 문제를 해결했다.

자동 확장 기능은 환경 전반에 걸쳐 일관성이 없었고, 일부 클라우드 서비스 업체는 수요 급증에 대응하는 데 다른 업체보다 더 오랜 시간이 걸렸다. 자원 제한을 조정하고 오케스트레이션 논리를 개선함으로써 예상치 못한 확장 상황의 지연을 줄일 수 있었다.

주요 시사점

이 실험은 필자가 이미 알고 있던 사실을 다시 한 번 확인시켜 주었다. 즉, 멀티클라우드 환경에서 에이전트 기반 AI는 올바른 설계와 도구를 사용하면 실현 가능하며, 자율 시스템은 여러 클라우드 서비스 업체를 넘나드는 복잡한 운영 환경에서도 성공적으로 작동할 수 있다는 것이다. 이 아키텍처는 분산형 AI 파이프라인, 엣지 컴퓨팅, 하이브리드 클라우드 통합 등 더 발전된 사용례를 위한 잠재력도 크다.

그러나 상호 운용성, 플랫폼별 미묘한 차이, 비용 최적화 등의 문제는 여전히 남아 있다. 멀티클라우드 아키텍처의 실행 가능성을 개선하기 위해서는 더 많은 노력이 필요하다. 가장 큰 문제는 비용이 의외로 높았다는 것이다. 퍼블릭 클라우드 서비스 업체의 자원 사용료, 송신료, 기타 비용이 예고 없이 갑자기 인상되는 것처럼 보였다. 기업에서 에이전틱 AI 배포를 위해 퍼블릭 클라우드를 사용하는 것은 비용이 너무 많이 들 수 있으며, 프라이빗 클라우드, 매니지드 서비스 업체, 코로케이션 업체 등 더 저렴한 온프레미스 대안으로 전환하게 만들 수 있다. 이런 플랫폼이 오늘날 시장에서 더 저렴하고 동일한 서비스와 도구를 많이 제공한다는 것을 직접 확인할 수 있다.

이번 실험은 클라우드 환경이 역동적이고 자체 관리형 생태계로 기능하는 미래를 실현하기 위한 작지만 의미 있는 단계였다. 현재의 기술은 강력하지만, 필자가 직면한 문제들은 멀티클라우드 배포를 단순화하기 위한 더 나은 도구와 표준의 필요성을 강조한다. 또한, 많은 경우, 이 접근 방식은 단순히 비용이 너무 많이 든다. 필자의 추천은? 이번에도 사람들이 싫어하는 “상황에 따라 다르다”이다.
dl-itworldkorea@foundryco.com