News Feed

“엣지에서 클라우드까지” AI 워크로드가 기업 네트워크를 바꾼다

컨텐츠 정보

  • 조회 741

본문

기업이 AI를 프로덕션 환경에 도입하면서 엣지와 데이터센터 모두에서 AI 기술이 폭발적으로 성장하면서 기존 네트워크가 감당하도록 설계되지 않은 대역폭, 지연 시간 및 아키텍처 유연성에 대한 요구가 증가하고 있다.

옴디아의 최신 데이터에 따르면, 2024년 전체 AI 트래픽(새로운 AI 애플리케이션과 AI 강화 애플리케이션 포함)은 총 네트워크 트래픽에서 39엑사바이트를 차지했다. AI 강화 애플리케이션의 비AI 트래픽은 131엑사바이트, 전통적 애플리케이션 트래픽은 308엑사바이트를 기록했다. 옴디아는 2025년까지 AI 트래픽이 79엑사바이트로 두 배 증가하고, 이후에도 전통적 애플리케이션의 트래픽을 훨씬 앞지르는 속도로 계속 성장할 것으로 전망했다. 옴디아의 리서치 디렉터 브라이언 워시번은 2031년이면 AI 트래픽이 전통적 애플리케이션의 트래픽을 추월할 것으로 예측했다.

순 신규 AI 트래픽에는 시각 처리, 감시, 새로운 게임 및 미디어, AI 콘텐츠 생성에 기반한 앱과 같은 사용례가 포함된다. AI 강화 트래픽에는 스마트 트랜스크립션 서비스 및 콘텐츠 요약, 코드 지원 및 검토, 지능형 분석, 자연어 쿼리, 콘텐츠 필터 등이 포함된다. 그리고 여기에는 하이퍼스케일러 운영, 온프레미스 트래픽, 캠퍼스 등 프라이빗 네트워크는 포함되지 않았다.

모든 엔터프라이즈 트래픽에 대한 최근의 데이터 소스인 지스케일러의 3월 보고서는 지난 1년 동안 엔터프라이즈 AI 활동이 무려 3,464% 증가했다고 밝혔다. 이 보고서에 따르면, 2024년 마지막 11개월 동안 3,624테라바이트의 데이터가 챗GPT와 같은 800개 이상의 AI 애플리케이션으로 전송되거나 이런 애플리케이션에서 전송됐다.

이미 이런 변화의 영향을 느끼는 업체 중에는 세일즈포스가 있다. 세일즈포스는 클라우드 기반 CRM 플랫폼에 생성형 AI와 에이전트형 AI 기능을 모두 추가했다. 세일즈포스 엔지니어링 부사장 폴 콘스탄티니데스는 “특히 모델 훈련 및 실시간 추론을 위해 더 큰 데이터 세트를 처리하면서 데이터 처리 및 전송이 크게 증가하고 있다”라고 밝혔다. 이는 더 높은 대역폭, 더 낮은 지연시간, 더 강력한 네트워크 인프라에 대한 요구로 이어진다.

AI 활동이 이렇게 증가함에 따라 기업은 데이터센터 네트워킹, 클라우드 네트워킹, 엣지 네트워킹 및 네트워크 보안을 다시 생각해야 하는 상황에 직면했다.

예측할 수 없는 데이터센터의 AI 네트워킹

데이터센터에서 AI는 두 가지 유형의 네트워킹 과제를 제기한다. 모델 훈련을 위해서는 개별 GPU와 서버 간에 많은 트래픽이 발생한다.

저명한 엔지니어이자 F5 네트웍스의 최고 에반젤리스트인 로리 맥비티는 “대량의 자원, 특히 CPU 및 GPU에 대한 수요로 인해 기업 데이터센터 내에 AI 전용 영역이 새로 등장했다”라며, “이런 AI 팩토리는 트래픽 관리와 관련된 특별한 네트워킹 요구 사항이 있으며, 이를 위해서는 더 지능적인 네트워킹, 새로운 보안 기능, 더 많은 양의 데이터를 처리할 수 있는 역량이 필요하다”고 설명했다.

이런 요구사항은 많은 투자를 요구한다. IDC의 엔터프라이즈 네트워크 담당 수석 리서치 매니저 브랜든 버틀러는 3월 보고서에서 “AI, 특히 생성형 AI는 데이터센터 이더넷 스위칭의 주요 성장 동력”이라고 밝혔다. AI 덕분에 이더넷 스위치 시장의 데이터센터 부문이 활황을 맞이했다는 것. IDC는 생성형 AI 데이터센터 이더넷 스위치 시장의 규모가 2023년 6억 4,000만 달러에서 2028년에는 90억 달러 이상으로 성장할 것으로 예측했다.

또한 기업은 에이전틱 AI도 실험하고 있다. 에이전틱 AI는 개별 AI 기반 에이전트가 복잡한 작업을 수행하거나 코드를 생성하거나 전체 비즈니스 워크플로우를 실행하기 위해 협력하는 기술이다. 특히, 비용과 지연시간을 줄이고 기업 데이터를 안전하게 보호하기 위해 온프레미스 또는 프라이빗 클라우드에서 주로 구현된다.

에이전틱 AI의 트래픽 흐름은 전통적인 애플리케이션이 생성하는 예측 가능하고 결정론적인 트래픽과 크게 다를 것으로 예상되지만, 구체적인 차이점은 아직 명확하지 않다. F5의 맥비티는 “이 모든 연결이 네트워크를 통해 어떻게 흐를지는 알 수 없으며, 에이전틱 AI가 수행해야 할 작업에 따라 조정된다면 거의 예측할 수 없다”라고 덧붙였다.

광범위한 연결이 필요한 AI 워크로드

모델이 프로덕션에 배치된 후에는 트래픽이 데이터센터 외부, 모델과 최종 사용자 사이를 흐른다. 플렉센티얼(Flexential)의 최고 혁신 책임자 제이슨 캐롤란은 “추론에는 강력한 광역 및 다중 사이트 연결이 필요하며, 이는 밀집된 로컬 네트워크를 필요로 하는 모델 학습용 네트워크 토폴로지와 다르다”라고 설명했다.

유연성이 핵심이다. 캐롤란은 “많은 AI 워크로드가 개념 검증이나 실험 단계에 머물러 있기 때문에, 네트워크 연결, 토폴로지, 용량 요구사항은 새로운 모델, 데이터, 또는 엔드포인트에 따라 변경될 수 있다”라고 덧붙였다.

일부 기업은 이미 AI 트래픽을 처리할 준비가 되어 있다. 유연성이 부족하고 유지보수가 어려운 레거시 네트워크에서 벗어나기 시작했기 때문이다. 아스페리타스 컨설팅의 애플리케이션 트랜스포메이션 담당 대표인 데릭 애시모어는 이들 기업은 이미 현대적인 클라우드 네트워킹으로의 전환을 진행 중이며, 코로나19 팬데믹 기간에 가속화됐다고 설명했다.

이런 네트워킹의 변화는 생성형 AI와 함께 다가올 과제에 대비할 수 있게 해준다. 예를 들어, 멀티모달 AI 애플리케이션은 텍스트, 이미지, 오디오 및 비디오를 처리하며, 쿼리와 응답의 규모가 매우 크다. 구글의 최신 제미나이 2.5 모델은 컨텍스트 창 크기가 100만 토큰이며, 곧 200만 토큰으로 확장될 예정이다. 200만 토큰은 약 150만 단어에 해당한다. 참고로, 해리 포터 시리즈 전체를 합친 단어 수는 약 100만 단어이다. 컨텍스트 창이 크면 더 길고 복잡한 대화가 가능하고, AI 코딩 어시스턴트가 코드 기반의 더 많은 부분을 검토할 수 있다. 또한 AI의 답변은 동적으로 생성되므로 대부분의 경우 요청을 캐시할 수 없다.

AI 솔루션 업체 간의 치열한 경쟁을 고려하면, 생성형 AI는 점점 더 큰 규모의 대화를 처리할 수 있게 될 것이다. 또한 에이전틱 AI는 대역폭 요구사항을 급격하게 증가시키고 예측 불가능한 방식으로 변화시킬 수 있다.

F5의 맥비티는 “어떤 웹사이트나 애플리케이션도 AI 기반의 채팅봇을 추가하는 것만으로 AI 앱으로 변환될 수 있다”라고 말한다. 이 경우 잘 정의되고 구조화된 트래픽 패턴이 급격하게 달라진다. 맥비티는 “대화형 인터페이스를 앞쪽에 배치하면 그 흐름이 실제로 어떻게 진행되는지가 달라진다”라고 설명했다.

네트워크 관리자가 해결해야 할 또 다른 AI 관련 과제는 멀티클라우드 복잡성이다. 전직 에퀴닉스 임원인 자크 스미스는 “하이퍼스케일 클라우드, 프라이빗 클라우드, 특수 기능을 제공하는 특수 클라우드 등 다양한 클라우드 환경이 분산되어 있다”라고 지적한다. 스미스는 현재 지속 가능하고 확장 가능한 인프라 협회(Sustainable & Scalable Infrastructure Association)의 커뮤니티 멤버로 활동하고 있다.

예를 들어, 코어위브(CoreWeave) 같은 클라우드 서비스 업체는 클라우드 기반 GPU가 전문이다. 데이터베이스 업체와 데이터 레이크 업체도 있다. 하이퍼스케일러가 제공하는 AI 플랫폼이 있으며, 온프레미스, 코로케이션, 프라이빗 클라우드에서도 AI가 실행되고 있다. 스미스는 “이 모든 것은 새로운 환경이며, 사람들은 이제 매우 다양한 유형의 클라우드를 서로 연결하는 문제를 해결해야 한다”라고 강조했다.

최근에는 아마존과 구글의 서로 다른 네트워킹 패러다임을 연구했다. 스미스는 “두 회사에는 많은 유사점이 있다.”라며, “동일한 지역의 다른 서드파티에 연결하고, 피어링하고, 패브릭을 만들 수 있지만, 그 방법은 모두 다르며, 모두 표준화되어 있지 않다”라고 설명했다.

지연 시간이 중요한 엣지 네트워크

마지막으로, 엣지 AI는 고유한 네트워킹 과제를 안고 있다. 특히 자율주행 자동차, 공장 로봇, 의료 기기와 같은 미션 크리티컬한 애플리케이션의 경우 지연 시간이 매우 중요하다. 플렉센티얼의 캐롤란은 AI 워크로드의 다른 기업 사용례로 비디오 감시 카메라를 위한 AI 기반 보안 제어 및 제조 환경의 품질 관리를 들었다. 또는 소매 화장품 매장에서 고객이 제품을 가상으로 체험할 수 있는 플랫폼을 구축할 수도 있다.

세일즈포스의 콘스탄티니데스는 엣지 AI는 지연시간과 대역폭 사용을 줄이기 위해 데이터 소스에 더 가까운 처리 능력이 필요하다며, CDN과 같은 저지연 엣지 네트워크가 도움이 될 수 있다고 덧붙였다.

AI와 네트워크 보안

AI는 기업에 다양한 잠재적 보안 문제를 야기한다. AI 기술은 새롭고 검증되지 않았기 때문에, 공격자들은 AI 시스템과 그 구성 요소를 공격하기 위한 새로운 기술을 빠르게 개발하고 있다. 팔로알토 네트웍스의 제품 관리 담당 수석 부사장 리치 캄파냐는 새로운 공격은 기존의 모든 공격 경로에 추가되는 것이라며, 엣지에서는 기기와 네트워크가 분산되어 있어 가시성의 사각지대가 생기기 쉽고 문제가 발생하면 해결이 더 어려워진다고 설명했다.

팔로알토 역시 수년 동안 자체 AI 애플리케이션을 개발하고 있다. 팔로알토의 고객 기업도 마찬가지이다. 캄파냐는 “예를 들어, 최근에 엣지에서 AI 기반 재고 관리를 지원하기 위해 매장 네트워크를 재설계하고 있는 소매 기업을 만났다”라며, “자산이 어디에 배포되어 있든, 그 자산에 최대한 가까운 곳에 보호 메커니즘이 있는지 확인해야 한다”고 강조했다.

에이전틱 AI는 모든 보안 문제를 더욱 악화시킨다. F5의 맥비티는 이미 이 문제를 목격하고 있다. 예를 들어, 제로 트러스트와 최소 권한 원칙을 적용한 기업에서 에이전트 ID, 자격 증명, 권한을 어떻게 관리해야 할까? 맥비티는 “기존에 사용하던 역할과 자격 증명을 강제하는 도구는 갑자기 작동하지 않는다. 왜냐하면 에이전트에는 역할이나 자격 증명이 없기 때문이다”라고 지적했다. 또 “에이전트에 루트 액세스를 부여하면, 이는 보안 담당자를 긴장하게 만들 것”이라고 덧붙였다.

지스케일러의 제품 리더 산제이 칼라는 “AI가 기업 내부 네트워크로 확산되면서 세밀한 보안 정책의 필요성이 증가한다. 네트워크 보안 측면에서 AI의 또 다른 위험성은 직원이 민감한 데이터를 공개 AI 플랫폼이나 앱에 업로드할 가능성이다”라고 설명했다.

칼라에 따르면, 지스케일러의 기업 고객은 전체 AI 트랜잭션의 60%를 차단했다. 일부 기업은 공개 AI 앱에 대한 모든 액세스를 차단하기도 하며, 어떤 기업은 직원이 재무 데이터, 개인 식별 정보, 의료 데이터 또는 소스 코드를 공유하는지 감시한다. 지스케일러는 챗GPT 한 곳에만 이런 종류의 데이터를 업로드하려는 시도를 290만 건 차단했다. 가장 흔하게 유출되는 민감 정보는 사회 보장 번호이다.

마지막으로, 기업 네트워크를 괴롭히는 또 다른 유형의 원치 않는 AI 트래픽이 있다. 바로 해커다. 10월에 릴리즈된 버그크라우드(Bugcrowd)의 연례 해커 설문조사에 따르면, 해커의 86%는 AI가 해킹에 대한 접근 방식을 근본적으로 변화시켰다고 응답했다.

이 설문조사는 “화이트 햇” 해커, 즉 선한 해커들을 대상으로 한 것이다. 악의적인 해커는 설문조사에 참여하지 않는다. 하지만 악의적인 해커도 AI를 사용한다. 10월에 발표된 키퍼 시큐리티(Keeper Security)의 보고서에 따르면, IT 및 보안 책임자의 51%는 AI 기반 공격이 기업이 직면한 가장 심각한 위협이라고 응답했다.

공격자는 AI를 사용해 더 나은 스팸을 더 많이 만들 뿐만 아니라 암호를 추측하고 정찰을 하는 등 다양한 용도로 AI를 사용한다. 다행히, 네트워크 보안 관리자 역시 이에 대응할 AI를 확보하고 있는데, 선도적인 보안 솔루션 업체가 모두 이 분야에 막대한 투자를 하고 있기 때문이다.
dl-itworldkorea@foundryco.com

관련자료

댓글 0
등록된 댓글이 없습니다.
Member Rank