“패키지 AI 인프라가 뜬다” 검증된 성능과 신속한 프로덕션 배치가 장점

작성자 Keiminem쪽지보내기 자기소개 아이디로 검색 전체게시물
작성일 2025.02.28 14:53

조회 678

AI 기술을 도입하는 기업은 대부분 아마존, 구글, 마이크로소프트와 같은 하이퍼스케일러를 통해 AI 도입에 필요한 인프라를 이용한다. IDC의 최근 데이터에 따르면, 클라우드와 공유 환경이 AI 서버 지출의 대부분을 차지해 2024년 상반기에는 72%에 달했다. IDC는 기업이 AI를 위한 자체 인프라를 도입하는 데 뒤처져 있기 때문이라고 분석했다.

온프레미스 AI는 몇 가지 장점을 제공한다. 예를 들어, 기업은 데이터를 로컬에 보관하거나 컴퓨팅 용량을 필요한 곳에 가까이 배치해 지연을 줄일 수 있다. 그리고 매달 예측 가능한 양의 컴퓨팅이 필요하다는 것을 알고 있다면, 온프레미스 배치를 통해 비용을 절감할 수도 있다. 그러나 많은 기업이 아직 실험 단계에 있어 필요한 컴퓨팅 용량을 정확하게 알지 못한다.

또 다른 문제도 있다. 전통적인 인프라로는 AI를 제대로 처리할 수 없다. 이런 애플리케이션에는 AI에 최적화된 서버, 스토리지, 네트워킹이 필요하며, 모든 구성 요소가 잘 작동하도록 구성돼야 한다. 완전히 새로운 기술이라고 해도 과언이 아니다.

HPE의 고성능 컴퓨팅 및 AI 담당 부사장 겸 총괄 책임자인 닐 맥도널드는 작년 말 프레젠테이션에서 “이 분야의 기술 스택은 완전히 낯설다. 경험이 풍부한 기업이 보유한 기술 스택과는 전혀 다른 모습이다”라고 말했다.

ZK 리서치의 대표 애널리스트 제우스 케라발라는 “AI, 즉 새로운 기술의 도전 과제 중 하나는 기술을 작동시키기 위해 적절한 인프라 조합을 구성하는 것이다”라며,”그 구성 요소 중 하나가 다른 두 가지 요소와 동등하지 않다면, 돈을 낭비하게 될 것”이라고 지적했다.

첫 번째 문제는 시간이 해결해 준다. 점점 더 많은 기업이 파일럿 프로젝트에서 프로덕션 단계로 전환하고 있으며, 실제로 얼마나 많은 AI 용량이 필요한지 더 잘 파악하고 있다.

온프레미스 AI를 위한 인프라 해법

그리고 IT 솔루션 업체들은 두 번째 문제를 해결하기 위해 서버, 스토리지, 네트워킹을 하나의 편리한 패키지로 통합한 AI 솔루션을 출시하고 있다. 시스코, HPE, 델을 포함한 모든 주요 솔루션 업체가 이 시장에 뛰어들고 있으며, 엔비디아는 자사의 AI 지원 GPU를 최대한 많은 곳에 배치하기 위해 빠르게 협력 관계를 맺고 있다.

예를 들어, 시스코와 엔비디아는 데이터센터의 AI를 강화하기 위해 파트너십을 확대했다. 엔비디아는 시스코의 실리콘 원(Silicon One) 기술을 자사의 슈퍼NIC와 결합해 스펙트럼-X 이더넷 네트워킹 플랫폼의 일부로 사용하고, 시스코는 엔비디아의 스펙트럼 프로세서와 자사 OS 소프트웨어를 결합한 시스템을 구축할 것이라고 밝혔다. 시스코는 지난 10월에도 대규모 AI 학습 전용 서버에 엔비디아 GPU를 활용하는 AI 팟을 공개한 바 있다.

다른 업체도 이 분야에 뛰어들고 있다. 예를 들어, HPE는 엔비디아 GPU를 사용하는 랙 스케일 시스템을 발표했다. HPE 솔루션의 차별점은 액체 냉각 방식을 사용한다는 점인데, 이 방식은 매우 크고 복잡한 AI 클러스터에 적합하다. 델도 2024년 말에 공랭식과 수랭식 냉각 옵션을 모두 제공하는 새로운 AI용 통합 랙을 발표했다.

전문가들은 이런 패키지 AI 솔루션을 통해 더 많은 기업이 AI를 쉽게 배포할 수 있을 것이라고 평가한다. 하지만, 현재로서는 시스코와 HPE가 가장 강력한 제품과 견고한 생태계를 갖추고 있다. 케라발라는 “HPE의 검증된 솔루션과 시스코의 검증된 솔루션을 서로 비교해 테스트해 보겠다”라고 말했다.

가트너에 따르면, 기업은 2024년에 AI 최적화 서버에 280억 달러를 지출한 것으로 추정된다. 가트너의 애널리스트인 토니 하비는 올해는 이 수치가 340억 달러로 급증할 것이며, 2028년에는 440억 달러로 증가할 것이라고 예측했다.

중요한 것은 적절한 시점이다. AI를 담당하는 기업 책임자 8,000여 명을 대상으로 한 시스코의 조사에 따르면, 98%가 AI를 구현해야 하는 시급성을 느끼고 있지만, GPU가 충분하다고 답한 사람은 21%에 불과했다.

그리고 모든 기업이 AI 워크로드를 퍼블릭 클라우드에서 실행하지는 않는다. 하비는 “AI를 구현하고 싶지만, 데이터가 퍼블릭 환경으로 이동하는 것을 원치 않는 기업이 있다”라며,”데이터는 기업의 생명줄과도 같은 것”이라고 지적했다. 같은 맥락에서 이들 기업은 대형 AI 업체에 데이터를 맡기지 않으려 한다. 하비는 “이들 AI 업체가 저작권을 침해하고 온갖 짓을 저질렀다는 사실을 알고 있다”고 덧붙였다.

비용 문제도 있다. 하비는 “어느 시점이 되면, 클라우드에서 실행하는 것보다 자체 하드웨어에서 실행하는 것이 더 저렴해진다”라고 말했다.

전문화된 AI 인프라 환경

그렇다면, AI 인프라가 기존 IT 인프라와 다른 점은 무엇일까? 가장 분명한 것은 AI 작업에는 특수 프로세서가 필요하다는 것이다. 가장 일반적으로 엔비디아 GPU가 사용된다. 그리고 AI 훈련에는 많은 데이터가 필요하지만, 미세 조정과 RAG 임베딩에도 데이터가 필요하다. 이들 데이터 역시 기존 데이터와 다르다. 하비는 “아마도 파일 블록 스토리지가 아닌 객체 스토리지가 될 것”이라고 지적했다.

마지막으로, 모든 GPU가 서로 통신해야 한다. AI는 표준 네트워크를 압도할 수 있는 GPU 간의 막대한 데이터 흐름을 만들어 낸다. 하비는 “AI의 네트워킹은 표준 환경의 네트워킹과는 다르다. 만약 AI 클러스터를 기업의 코어 백본 네트워크에 배치하면, 코어 네트워크가 작동을 멈출 것”이라고 설명했다.

패키지화된 AI 솔루션은 AI만을 위한 별도의 네트워크를 만들어 이 문제를 해결한다. 시스코의 네트워킹 책임자 케빈 볼렌베버는 “대규모 GPU 클러스터에는 클러스터에 연결하는 프론트엔드 네트워크와 클러스터의 모든 GPU가 서로 연결하는 백엔드 네트워크가 있다. 이 네트워크는 혼잡이 없고 손실이 없도록 설계되어야 한다”라고 강조했다.

마지막 차이점은, LLM과 같은 대표적인 AI 사용례의 경우, 기존의 공기 냉각만으로는 충분하지 않을 수 있다는 것이다. HPE의 고성능 컴퓨팅 및 AI 인프라 솔루션 책임자 트리시 댐크로거는 “대규모의 강력한 AI 시스템은 액체가 공기보다 부피 기준으로 3,000배 이상의 열을 제거하기 때문에 직접 액체 냉각이 필요하다”라고 설명했다.

지나친 엔비디아 의존성에 우려도

이런 패키지 AI 솔루션의 공통점은 엔비디아 GPU에 의존한다는 것이다. 이는 업체 종속 및 공급망 복원력에 대한 우려를 불러일으킬 수 있다.

사이버보안 업체 IOActive의 연구 및 전략 담당 수석 부사장인 존 시히는 “모두 동일한 핵심 엔비디아 빌딩 블록을 필요로 한다”라며, 이로 인해 AI 공급망의 핵심 노드에 대해 거의 전적으로 한 업체에 의존하는 경향이 생기고, “사회 구성원 모두가 용납할 수 없는 수준의 위험에 노출된다”라고 지적했다.

시히는 “마찬가지로 TSMC는 엔비디아 칩 제조를 위한 공급망에서 매우 중요한 노드이다”라며, ”해외에 위치한 단일 칩 파운드리에 대한 의존은 모든 사람을 걱정하게 만든다”라고 덧붙였다.

하지만 AI와 관련해 다른 칩 제조업체들은 기능, 규모 또는 둘 다에서 엔비디아에 훨씬 뒤처져 있다. 코로케이션 서비스 업체 플렉센셜의 최고 혁신 책임자인 제이슨 캐롤란은 “엔비디아는 시장 선도 업체이고, 앞으로도 그럴 것”이라며, “엔비디아는 핵심 기업이고 앞으로도 몇 년 동안 가장 정교하고 유용한 플랫폼을 구축할 것”이라고 강조했다.

엔비디아의 중요성은 특히 LLM 학습에서 두드러진다. 하지만 다른 선택지도 있다. 캐롤란은 “추론이 더 중요해지면 다른 업체에도 기회가 열릴 것”이라며, “딥시크를 보면, 시장은 계속해서 새로운 최적화 방법을 열어갈 것”이라고 덧붙였다.

딥시크는 지난 달 오픈소스 AI 모델을 발표한 중국의 신생업체로, 최첨단 추론 기능과 낮은 컴퓨팅 요구 사항으로 세상을 놀라게 했다. 엔비디아는 즉시 6,000억 달러의 시장 가치를 잃었고, 이는 역사상 가장 큰 하루 하락폭이었다.
dl-itworldkorea@foundryco.com