News Feed

AI가 네트워킹에 미치는 장기적인 영향

컨텐츠 정보

  • 조회 719

본문

이 주제에 대한 대중적인 관점에 따르면, AI는 수익과 혜택의 황금기를 가져오겠지만 한편으로는 우리 모두를 죽일지도 모른다. 후자의 견해는 그다지 지지를 받지 못하고 있다. 요즘 같은 때에 붐비는 극장에서 “AI”라고 외쳐봐야 출구로 달려가는 사람은 거의 없다. 전자는 여전히 강세를 보이고 있으며, 네트워크 솔루션 업체들은 AI가 주도하는 변화에서 막대한 매출 성장 잠재력이 있다고 주장한다. 하지만 희망이 그대로 현실이 되지는 않는다.

거의 모든 사람에게 AI는 검색 증강부터 이메일 작성부터 코드 작성 등 모든 것과 관련된 코파일럿 도구에 이르는 생성형 AI 서비스를 의미한다. 무엇이 이런 대규모 인텔리전스 구현을 가능하게 할까? 바로 네트워크다. 따라서 AI 사용으로 인해 네트워크 트래픽이 폭발적으로 증가하고 네트워크 장비 지출도 증가할 것이다.

그런데, 생성형 AI 서비스가 광역 네트워크 트래픽에 미치는 영향에 대해 의견을 제공한 195개 기업 중 “중대한 영향을 미친다”라고 답한 기업이 몇 개나 될까? 한 곳도 없다.

가장 일반적인 형태의 생성형 AI인 검색 증강에 대한 경험을 바탕으로 생각해 보자. 이제 AI 요약 결과가 먼저 표시되고 그 다음에 기존 결과가 표시된다. 요약 결과가 좋다고 가정하면, 다른 결과가 덜 필요하게 되고 첫 페이지의 결과 이상을 볼 가능성이 줄어든다. 그러면 트래픽이 줄어들 것이다. 그런데, 요약이 유용하지 않다고 가정해 보자. 사용자는 요약 보기를 중단할 것이고, 사용자가 무시하는 문자로 채워진 내용을 몇 번 더 봐야 할 수도 있다. 이 과정은 검색엔진이 이 사실을 깨닫고 생성형 AI GPU 호스팅에 막대한 비용을 지불하지 않을 때까지 반복된다. 기업 네트에는 실질적인 영향은 없다.

전반적으로 기업은 생성형 AI를 통한 프롬프트/쿼리 및 결과 교환이 네트워킹에 영향을 미치지 않을 것이라고 생각한다. 기업 195곳 중 28곳은 이런 종류의 트래픽에 영향을 미칠 수 있는 새로운 애플리케이션, 즉 비디오의 AI 분석과 같은 애플리케이션을 생각할 수 있지만, 이런 애플리케이션은 데이터 소스 근처의 자체 엣지 시설에서 실행될 것이므로 광역 트래픽에 영향을 미치거나 네트워크 서비스 또는 장비 사용을 확대하지 않을 것으로 생각한다고 답했다.

생성형 AI의 사용을 지원하는 것이 네트워킹에 큰 문제가 아니라면, 전체 AI-네트워크 연결은 인류를 파괴하는 AI 실체만큼 큰 기회일까? 그렇지 않다. AI 모델을 훈련하고 실행해야 하는 과제가 남아 있기 때문이다.

AI 네트워크에 대한 의견을 제시한 기업 중 21곳의 기업만이 AI를 자체 호스팅을 하고 있었지만, 자체 호스팅을 진지하게 검토하고 있는 거의 모든 기업이 AI 호스팅은 GPU를 갖춘 특수 컴퓨팅 클러스터를 의미하며, 이 클러스터는 자체 내부와 핵심 비즈니스 데이터의 주요 스토리지 지점에 모두 연결되어야 한다고 말했다. 이들은 모두 이를 완전히 새로운 네트워킹 과제로 인식했다.

AI를 자체 호스팅한 모든 기업은 이 임무가 일반 애플리케이션보다 ‘수평적’ 트래픽을 지원하기 위해 더 많은 대역폭을 요구하며, 이는 현재 데이터센터가 지원하는 것보다 더 많은 대역폭이 필요하다고 말했다. 이 중 10곳은 더 빠른 이더넷 연결과 더 큰 용량의 스위치를 갖추기 위해 AI 서버의 ‘클러스터’가 필요하다고 말했다. 온프레미스 AI의 실제 프로덕션 배포에는 새로운 네트워크 장비가 필요하다는 데 모두 동의했으며, 15곳은 대규모 시험용으로도 새 스위치를 구입했다고 답했다.

경험자들이 말하는 데이터센터 네트워크의 가장 큰 문제점은 필요 이상으로 많은 AI 클러스터를 구축했다고 생각한다는 것이었다. 이들은 인기 있는 LLM을 실행하려면 수백 개의 GPU와 서버가 필요하지만, SLM은 단일 시스템에서 실행할 수 있으며, 현재 자체 호스팅 기업의 1/3은 SLM을 소규모로 시작해 경험이 쌓이고 필요성을 입증할 수 있을 때만 본격적으로 구축하는 것이 최선이라고 생각한다고 답했다. 이 그룹은 또한 진정으로 유용한 AI 애플리케이션만 실행되도록 통제할 필요가 있다고 지적했다. “그렇지 않으면 애플리케이션이 쌓이고, AI 클러스터의 크기를 초과하고, 다시 증가하게 된다”고 지적했다.

현재 AI를 자체 호스팅하는 기업은 다른 애플리케이션에 잠재적인 영향을 미칠 수 있기 때문에 AI 수평적 트래픽을 기본 데이터센터 네트워크에서 차단하는 것이 중요하다고 답했다. 호스팅된 생성형 AI의 수평적 트래픽은 엄청나고 예측하기 어려울 수 있다. 어떤 기업은 클러스터가 전체 데이터센터만큼의 수평적 트래픽을 생성할 수 있지만 버스트가 1분 이상 지속되는 경우는 드물다고 말했다. 또한 이런 수평적 버스트의 지연 시간은 결과 제공과 버스트의 길이가 모두 늘어나 애플리케이션 가치를 크게 저해할 수 있다. 이들 기업은 AI 클러스터의 흐름을 분석하는 것이 올바른 클러스터 네트워크 하드웨어를 선택하는 데 매우 중요하며, 시험과 테스트를 실행하기 전까지는 AI 네트워크 요구 사항에 대해 “아무것도 몰랐다”고 말했다.

AI 클러스터와 엔터프라이즈 핵심 데이터 리포지토리 간의 데이터 관계는 복잡하며, 이 관계에 따라 AI 클러스터가 나머지 데이터센터에 미치는 영향이 결정된다. 여기서 문제는 지원되는 애플리케이션과 구현 방식 모두 데이터가 데이터센터 리포지토리에서 AI로 이동하는 방식에 큰 영향을 미친다는 것이다.

IT 또는 네트워킹의 운영 분석이나 보안에서 AI/ML을 사용하는 것과 같이 매우 제한된 범위의 AI/ML 애플리케이션은 실시간 데이터에 액세스해야 하지만, 일반적으로 소량의 원격 측정이며 네트워크에 미치는 영향이 거의 없다고 알려져 있다. 비즈니스 분석을 목표로 하는 생성형 AI 애플리케이션은 핵심 비즈니스 데이터에 대한 광범위한 액세스가 필요하지만, 전체 트랜잭션 세부 정보보다는 주로 기록 요약이 필요한 경우가 많으므로 이 압축된 소스 데이터를 AI 클러스터 내에 복사본으로 보관할 수 있는 경우가 많다.

전체 트랜잭션 데이터가 필요한 경우, 실제 AI 사용자는 AI 커뮤니티에서 RAG라는 용어로 생각할 것을 권장한다. RAG를 사용하면 AI 모델이 기존 데이터베이스 쿼리를 사용해 모델의 학습 데이터를 ‘구체화’하므로, AI 프롬프트에서 추출되는 데이터의 양을 최소화하도록 전체 프로세스를 설계할 수 있다. 경험자의 말을 빌리자면 “AI 모델이 전체 핵심 데이터의 바다에 소용돌이치게 놔두면, 많은 트래픽이 발생하고 데이터센터 네트워크 용량을 많이 사용하게 될 것이다.” 또 AI의 네트워크 비용을 최적화하는 데 있어 네트워크 설계보다 올바른 AI 애플리케이션 설계가 더 중요하다고 덧붙였다.

하지만 AI 자체 호스팅의 더 큰 영향은 사용에서 오는 것이 아니라 학습에서 비롯된다. 현재 자체 호스팅 AI 사용기업은 모두 모델을 실행하는 것보다 모델을 훈련하는 것이 기업 네트워크에 더 큰 영향을 미친다고 말한다. 여기서도 경험이 있는 사람들은 온프레미스에서 LLM의 전체 모델 학습을 시도하는 것보다 사전 학습된 모델로 AI 여정을 시작하고, 회사 데이터를 통합하는 데 더 많이 의존하며, 그런 식으로 학습 문제를 억제하는 것이 현명하다고 말했다.

현재 AI 네트워킹에 대한 견해를 가진 모든 기업은 “네트워킹” 부분에 너무 많은 관심을 기울이고 “AI”에는 충분하지 않다고 말한다. 다른 네트워크 임무와 마찬가지로 AI도 케이블을 가져와 대상을 연결하기 전에 기술과 트래픽에 미치는 영향에 대한 이해가 필요하다. 이미 사내 AI 프로젝트를 수행해 본 사람들은 호스팅과 연결 모두에서 AI가 실제로 필요로 하는 것이 무엇인지 이해하기 위해 더 많은 노력을 기울였다면, 일을 더 잘하고 더 저렴하게 수행할 수 있었을 것이라는 데 동의한다.
dl-itworldkorea@foundryco.com

관련자료

댓글 0
등록된 댓글이 없습니다.