엔비디아, 3년간의 칩 전략 공개…FP4·HBM4로 AI 성능 극대화

작성자 Keiminem쪽지보내기 자기소개 아이디로 검색 전체게시물
작성일 2025.03.20 09:50

조회 757

엔비디아 CEO 젠슨 황은 2026년 출시 예정인 루빈(Rubin) GPU와 2027년 출시될 루빈 울트라(Rubin Ultra)의 상세 사양을 처음으로 공개했다. 또한, 2028년에는 새로운 GPU인 파인먼(Feynman)을 제품 로드맵에 추가할 계획이라고 발표했다.

황은 최근 미국 캘리포니아주 산호세에서 개최된 엔비디아 GTC AI 개발자 컨퍼런스 기조연설에서 이 같은 내용을 발표했다. 황에 따르면, 엔비디아는 2026년 하반기에 베라 루빈 NVL144(Vera Rubin NVL144) 시스템을 출시할 예정이다. 이는 올해 하반기에 출시될 블랙웰 울트라 NVL72(Blackwell Ultra NVL72) 시스템보다 3배 더 빠른 성능을 제공할 것이라고 주장했다.

베라 루빈 NVL144는 FP4 연산에서 3.6엑사플롭스, FP8 연산에서 1.2엑사플롭스의 성능을 제공할 예정이다. 이 시스템에는 기존 그레이스(Grace) CPU의 후속 제품인 새로운 CPU 베라(Vera)가 포함되며, 88개의 맞춤형 코어와 176개의 스레드를 갖출 것으로 알려졌다.

또한 이 시스템에는 블랙웰 GPU의 후속 제품인 새로운 루빈 GPU가 탑재돼 FP4 연산에서 50페타플롭의 성능을 제공할 것으로 예상된다. 또한 AI 워크로드에서 중요한 요소로 평가받는 288GB의 새로운 HBM4 메모리를 포함하며, NV링크 6(NVLink 6) 인터커넥트로 총 데이터 전송 속도는 초당 260TB에 달한다. 이는 블랙웰 울트라 NVL72 시스템에 탑재된 NV링크 5보다 2배 더 빠른 속도다.

2027년 하반기에 출시하는 루빈 울트라 NVL576(Rubin Ultra NVL576)은 베라 루빈 NVL144 시스템보다 거의 4배 더 빠른 성능을 제공할 것으로 예상된다. 황은 기조연설에서 “이것은 극단적인 스케일 업이다. 각 랙은 600킬로와트의 전력을 소비하며, 250만 개의 부품과 엄청난 수의 GPU로 구성된다”라고 말했다.

루빈 울트라 NVL576에는 576개의 루빈 GPU, 1만 2,672개의 베라 CPU 코어, 2,304개의 메모리 칩, 144개의 NV링크 스위치, 576개의 커넥트X-9(ConnectX-9) NIC(Network Interface Card), 72개의 블루필드(Bluefield) DPU(Data Processing Unit)가 포함된다. FP4 추론 연산에서 15엑사플롭스, FP8 연산에서 5엑사플롭스의 성능을 제공하며, 초당 4.6페타바이트의 데이터 전송 속도를 지원하는 고속 HBM4e 메모리와 새로운 NV링크 7 인터커넥트를 탑재할 예정이다.

엔비디아는 2028년에 파인먼이라는 새로운 GPU를 출시할 예정이다. 차세대 HBM 메모리를 탑재하고 베라 CPU와 함께 시스템에 적용될 계획이다. 다만, 황은 해당 칩에 대한 추가 정보를 공개하지 않았다.

황은 또한 더 깊이 사고하여 문제를 해결할 수 있는 최신 ‘추론 AI(reasoning AI)’ 모델에 대해서도 강조했다. 이런 새로운 모델은 에이전틱 AI(agentic AI)를 구동하고 추론 과정에서 더 많은 토큰을 생성하는데, 이 과정에서 더 빠른 GPU의 역할이 중요해진다고 설명했다.

황은 “생성되는 토큰의 양이 훨씬 더 많다. 100배 이상은 증가할 것”이라고 덧붙였다.

전력 소비에 대한 의문

황은 시스템 전력 소비에 대해 언급하지 않았다. 하지만 티리아스 리서치(Tirias Research)의 수석 애널리스트 짐 맥그리거는 새로운 시스템이 훨씬 더 많은 전력을 소비할 가능성이 크며, 향후 몇 년 안에 수백 킬로와트 수준에 이를 것으로 전망했다.

현재 출하 중인 엔비디아 블랙웰 NVL72는 FP4 연산 시 120킬로와트의 전력을 소비한다. 트렌드포스(TrendForce)가 최근 발표한 예상치에 따르면, 올해 후반 출시될 후속 모델 블랙웰 울트라 NVL72는 전력 소비량이 135~140킬로와트까지 증가할 가능성이 있다.

그러나 맥그리거는 칩렛(Chiplet)과 같은 기술을 활용하면 전력 소비를 줄일 수 있다고 설명했다. 칩렛은 실리콘 내에 통합된 컴퓨팅 타일로, 필요한 연산만 활성화하고 나머지는 비활성화할 수 있어 불필요한 전력 소비를 줄일 수 있다.

무어 인사이트 & 스트래티지(Moor Insights & Strategy)의 수석 애널리스트 안셸 사그는 엔비디아가 연산 효율성이 뛰어난 FP4를 우선적으로 활용하고 있다고 말했다. FP4는 추론 과정에서 전력 소비를 줄이는 데도 도움이 된다.

황은 “4비트 부동소수점(FP4)을 사용하면 모델을 양자화하여 AI 작업을 수행하는 데 필요한 에너지를 줄일 수 있다. 그리고 동일한 작업에 더 적은 에너지를 사용하면, 더 많은 작업을 수행할 수 있다”라고 설명했다.

또한 황은 데이터센터의 전력 소비와 AI 수익 간의 연관성을 강조하며, GPU 성능이 향상될수록 수익도 비례해서 증가할 것이라고 말했다. 이어 “수익은 전력에 의해 제한된다. 사용할 수 있는 전력을 기준으로 향후 수익을 예측할 수 있다. 이는 다른 여러 산업과 다르지 않다”라고 덧붙였다.

황은 플롭스, 대역폭, 전력 소비 등 데이터센터 운영 경제성을 고려했을 때, 루빈 아키텍처가 이전 호퍼(Hopper) 세대보다 비용을 크게 절감할 것으로 예상했다.

파트너십 발표

엔비디아는 GTC에서 에이전틱 AI 플랫폼 구축을 위한 추론 모델 제품군 ‘라마 네모트론(Llama Nemotron)’을 공개했다. 또한 시스코와 협력하는 ‘시스코 시큐어 AI 팩토리(Cisco Secure AI Factory)’도 발표했다. 이 솔루션은 시스코의 네트워크 및 보안 장비와 엔비디아 DPU, 그리고 타사 스토리지 옵션을 결합한 것이다.

한편, GTC 컨퍼런스에서 델은 AI 모델 프로토타입을 개발하는 개발자를 위해 엔비디아 GPU가 탑재된 PC를 출시한다고 발표했다.
dl-itworldkorea@foundryco.com