“GPU 발열 65% 줄였다” MS, 미세유체공학 적용한 AI 냉각 기술 공개

작성자 Keiminem쪽지보내기 자기소개 아이디로 검색 전체게시물
작성일 2025.09.25 12:12

조회 497

마이크로소프트가 AI 칩 전용의 새로운 냉각 기술을 공개했다. 이 시스템은 미세유체공학 기술을 활용해 냉각 액체를 직접 실리콘 칩 내부로 유도하는 방식으로, 데이터센터가 AI 연산에서 발생하는 열을 관리하는 방식을 근본적으로 바꿀 수 있다는 것이 마이크로소프트의 주장이다.

마이크로소프트는 이 설계를 검증하기 위해 ‘팀즈’ 화상회의를 시뮬레이션하는 서버를 냉각하는 테스트를 진행했다. 마이크로소프트의 블로그에 따르면, “칩 후면에 아주 미세한 채널을 새겨 냉각 액체가 칩에 직접 흐르며 열을 훨씬 효과적으로 제거할 수 있게 했다. 또 AI를 활용해 칩에서 발생하는 고유의 열 분포 특성을 파악하고, 냉각수를 정밀하게 유도할 수 있도록 했다”라고 설명했다.

마이크로소프트가 수행한 실험실 단위 테스트에 따르면, 워크로드와 구성에 따라 성능이 달라질 수 있지만 미세유체공학 기술은 액체 냉각판보다 최대 3배 더 효과적으로 열을 제거했다. 또한 GPU 내부 실리콘의 최고 온도 상승폭을 65%까지 낮출 수 있었으며, 이 수치는 칩 종류에 따라 다르게 나타날 수 있다고 밝혔다.

마이크로소프트는 이 첨단 냉각 기술이 데이터센터의 에너지 효율을 측정하는 핵심 지표인 전력 사용 효율(PUE)을 향상시키고, 운영 비용도 줄일 수 있을 것으로 기대하고 있다.

프로토타입 단계에서는 스위스 스타트업 코린티스(Corintis)와 협력해 AI를 활용한 최적화 작업을 진행했다. 마이크로소프트는 수직형 채널 구조보다 더 효율적으로 칩의 발열 지점을 냉각할 수 있도록 생체 구조에서 영감을 받은 설계를 적용했다.

AI 하드웨어에 가해지는 심각한 열 압박

AI 워크로드와 고성능 컴퓨팅은 데이터센터 인프라에 전례 없는 부하를 가하고 있다. 열을 효과적으로 분산시키는 문제는 큰 병목 중 하나로 떠올랐으며, 기존 공랭 방식이나 액체 냉각판 방식은 최신 실리콘을 감당하지 못하고 있다.

그레이하운드 리서치의 대표 애널리스트 산치트 비르 고기아는 “최신 AI 가속기는 공기 냉각 방식으로는 도저히 제어할 수 없는 수준의 열을 방출하고 있으며, 고급 수랭 시스템조차도 한계에 도달했다”라고 진단했다.

고기아는 “GPU의 열 설계 전력(TDP) 급등뿐만 아니라, 전력망 지연, 물 부족, 80~100킬로와트 랙을 감당하지 못하는 구형 공랭식 데이터센터까지 문제가 되고 있다”라고 지적하며, “액체 냉각판과 액침 냉각조는 일정 수준까지는 시간을 벌어줬지만, 열을 칩에서 제거하는 마지막 구간, 즉 칩 접합부와 패키지 사이에서 여전히 열 저항 문제가 존재하며, 이로 인해 성능이 낭비되고 있다”라고 강조했다.

데이터센터 냉각비용, 예산 위기의 뇌관 가능성

데이터센터 냉각은 단순한 기술 문제가 아니라 경제적 과제이기도 하다. 서버와 네트워크 장비, GPU에서 발생하는 막대한 열을 제어하기 위해 데이터센터는 막대한 비용을 지출하고 있으며, 이에 따라 냉각 비용 자체가 전체 운영 비용에서 큰 비중을 차지한다.

팹 이코노믹스(Fab Economics)의 CEO 다니시 파루키는 “2025년 기준 AI 인프라 구축의 TCO 분석에 따르면, 데이터센터 전력 예산의 약 45~47%가 냉각에 사용되며, 냉각 효율이 개선되지 않는다면 이 비율은 65~70%까지 늘어날 수 있다”라고 설명했다. 파루키는 “2024년 엔비디아 호퍼 H100 GPU는 1대당 700와트를 소비했지만, 2025년에는 블랙웰 B200과 블랙웰 울트라 B300에서 각각 1,000와트, 1,400와트로 두 배 가까이 증가했다. 2026년에는 루빈 GPU와 루빈 울트라 GPU에서 각각 1,800와트, 3,600와트로 다시 두 배 이상 증가할 것”이라고 덧붙였다.

GPU당 열 예산(Thermal Budget)이 매년 최소 두 배씩 늘어나고 있기 때문에 최신 GPU와 최고 연산 성능을 활용하려는 하이퍼스케일러와 신생 클라우드 서비스 업체는 냉각 병목 문제를 해결하는 것이 필수적이다.

파루키는 미세유체공학 기반의 직접 냉각 기술이 데이터센터 전력 예산 내에서 냉각 비용을 20% 이하로 제한할 수 있지만, 이를 위해서는 미세 채널의 구조 크기, 배치, 비층류 흐름 분석(Non-laminar Flow Analysis) 등 기술 최적화가 반드시 수반돼야 한다고 강조했다. 이런 조건이 충족된다면, 미세유체공학 냉각은 GPU당 3.6킬로와트 열 예산을 요구하는 루빈 울트라 GPU를 실현할 수 있는 유일한 방안이 될 수 있다.

업계의 과제로 부상하는 미세유체공학의 확장

이 과제는 특정 기업에만 국한되지 않는다. AWS, 구글, 메타, 오라클을 비롯한 모든 하이퍼스케일러가 AI 하드웨어의 전력 밀도 증가로 인한 극심한 칩 발열 문제에 직면하고 있다.

카운터포인트 리서치의 브래디 왕은 “AI 칩의 세대가 바뀔 때마다 열 부하는 급격히 증가하고 있으며, 지금과 같은 액체 냉각판 중심 방식에 의존할 경우 5년 안에 기술 발전에 ‘절대적 한계’가 닥칠 수 있다”라고 경고했다. 왕은 “이런 이유로 고성능 AI 칩을 배치하는 모든 하이퍼스케일러에 열 제약은 공통의 도전 과제가 되고 있다”라며, “미세유체공학 자체는 새로운 기술은 아니며 다양한 방식이 존재하지만, 이를 대규모로 적용하는 데에는 업계 전반이 어려움을 겪고 있다”라고 설명했다.

이런 어려움에는 제조, 구현, 운영상의 위험이 모두 포함된다. 테크인사이트의 애널리스트 마니시 라왓은 “마이크로 단위 채널을 제작하는 과정은 제조 복잡도를 높이고, 웨이퍼의 파손 가능성으로 수율 저하를 초래할 수 있다”라며, “극도의 신뢰성이 요구되는 밀봉 기술이 핵심이며, 미세한 누수나 이물질 오염조차도 칩 성능 저하로 이어질 수 있다”라고 지적했다.

라왓은 “액체 냉각판은 교체가 가능하지만, 실리콘에 통합된 냉각 방식은 칩 자체 교체 외에는 유지보수가 불가능해 서비스 비용과 물류 부담이 커진다. 또한 냉각수가 유전체(Dielectric)라도 장기 노출되면 화학적·기계적 스트레스를 유발할 수 있어, 5~10년 신뢰성을 확보하기 위한 철저한 검증이 필요하다”라고 설명했다.

미세유체공학 기술이 산업 표준으로 자리잡기 위해서는 제조, 신뢰성, 유지보수 리스크를 철저하게 관리하는 한편, 업계 전반에 걸쳐 일관된 방식으로 채택되는 것이 필수적이다.
dl-itworldkorea@foundryco.com