애저 클라우드의 하드웨어 혁신과 서버리스 클라우드의 미래

작성자 Keiminem쪽지보내기 자기소개 아이디로 검색 전체게시물
작성일 2024.12.13 17:05

조회 859

마이크로소프트는 자사 행사를 통해 애저 클라우드의 하드웨어와 서비스를 관리하고 실행하는 데 사용하는 인프라의 비밀을 공개하곤 한다. 이그나이트 2024도 다르지 않았다. 애저 CTO 마크 루시노비치가 정기적으로 진행하는 인사이트 애저 이노베이션(Inside Azure Innovation) 발표에서 마이크로소프트가 데이터센터의 효율성을 높이기 위해 어떤 노력을 기울이고 있는지 자세히 설명했다.

애저와 같은 하이퍼스케일러가 네트워크 부하의 상당 부분을 차지하게 되면서, 특히 챗GPT와 같은 대규모 생성형 AI 모델의 전력 요구사항으로 인해 데이터센터 효율성이 매우 중요해지고 있다. 이런 부하의 대부분은 AI 학습 비용의 일부이지만, 추론에는 자체 비용이 발생한다. 마이크로소프트는 야심 찬 기후 목표를 세웠으며, 데이터센터 효율성을 높이는 것이 목표 달성을 위한 핵심이다.

애저 부스트의 내부 구조 살펴보기

데이터센터를 서버 랙으로 가득 채우는 것이 서버를 실행하는 최선의 방법은 아니다. 애저를 비롯한 대형 클라우드 플랫폼은 하드웨어를 컴퓨팅, 네트워킹 및 스토리지의 개별 요소로 취급하는 일반 기업과는 다른 관점을 가지고 있다. 이런 요소는 서비스의 기본 구성 요소인 가상머신에 통합되어 있다. 누구도 하드웨어에 직접 액세스할 수 없으며, 심지어 마이크로소프트의 자체 서비스도 마찬가지이다. 모든 것은 맞춤형 윈도우 기반 애저 OS에서 호스팅되는 가상머신 위에서 실행된다.

하지만 가상머신은 소프트웨어이기 때문에 하드웨어 구성을 최적화하기가 어렵다. 마이크로소프트 및 대형 클라우드 업체는 수년 동안 이런 종속성을 제거하기 위해 노력해 왔으며, 오픈 컴퓨트 프로젝트를 통해 데이터센터 문제에 대한 하드웨어 솔루션을 공유해 왔다. 마이크로소프트의 솔루션 중 일부에는 NVMe 메모리용 외부 컨트롤러와 하드웨어 기반 네트워크 압축 도구가 포함되어 있다.

애저 내부에서 마이크로소프트는 애저 하이퍼바이저의 기능을 오프로드하기 위한 하드웨어 기반 도구를 개발해 왔으며, 애저 부스트(Azure Boost)라고 부르는 다양한 개선 사항이 포함되어 있다. 이를 통해 네트워킹 및 스토리지 기능을 호스팅하는 서버에 새로운 카드가 추가되고 I/O 기능이 개선됐다. 애저 부스트는 테넌트 경계 외부에 위치하므로 동일한 서버를 사용해 VM을 호스팅하는 모든 사용자가 기능을 안전하게 공유할 수 있다.

클라우드에서 더 많은 FPGA

러시노비치는 인텔 애자일렉스 FPGA를 기반으로 제작된 최초의 프로덕션 카드 중 하나를 공개했다. 이와 같은 하드웨어에 FPGA를 사용하면 마이크로소프트는 새로운 카드를 개발하거나 다운타임을 연장할 필요 없이 애저 부스트의 새 버전을 개발해 기존 서버에 배포할 수 있다. 카드 자체는 Arm 코어 세트에서 애저 리눅스(CBL-Mariner의 새 이름)를 실행한다.

애저 부스트 하드웨어는 VM 성능 개선에 중점을 둔 몇 가지 뚜렷한 역할을 한다. 한 가지 용도는 원격 스토리지를 가속화하는 것으로, 하이퍼바이저가 관리하는 SCSI가 아닌 하드웨어 NVMe 인터페이스를 통해 제공한다. 그 결과 속도가 크게 향상돼 15% 더 높은 IOPS와 12% 더 높은 대역폭을 제공한다. 그다지 크지 않은 것 같지만, 데이터센터 규모의 가상머신과 원격 스토리지를 처리하는 경우 애저 부스트를 사용하면 동일한 하드웨어에서 더 많은 가상머신을 실행할 수 있다.

많은 애저 VM이 로컬 스토리지를 사용하며, 특히 쿠버네티스 또는 이와 유사한 컨테이너화된 워크로드를 호스팅할 때 애저 부스트가 더 큰 효과를 발휘한다. 성능은 380만 IOPS에서 660만 IOPS로, 스토리지 처리량은 17.2GBps에서 36GBps로 향상된다. 스토리지뿐만 아니라 애저 부스트의 듀얼 TOR 링크를 통한 전체 네트워크 성능은 이제 9배 향상된 최대 200Gbps의 처리량을 지원한다.

클라우드 데이터센터의 핵심 요구 사항 중 하나는 인프라 업데이트를 위한 다운타임을 최소화하면서 모든 하드웨어를 최대한 사용하는 것이다. 애저 부스트는 서버 네트워크 하드웨어의 간단한 업데이트를 위해 서버 간에 워크로드를 이동해야 하는 상황을 방지해 이 부분에서도 도움이 된다.

러시노비치는 애저 부스트에서 네트워크 스택을 업데이트하는 과정을 시연했는데, 네트워크 동결을 최소화하고 현재 연결에 영향을 주지 않으면서 250ms 이내에 완료했다. 동시에 애저 부스트는 복잡한 소프트웨어 정의 네트워킹 규칙을 호스팅해 복잡한 정책의 속도를 높일 수 있다. 목표는 필요에 따라 네트워킹 스택을 확장할 수 있도록 하는 것이다.

네트워킹 하드웨어 개선

애저 네트워킹 스택의 동적 확장은 마이크로소프트의 SONiC 소프트웨어 정의 네트워킹(SDN) 스택을 기반으로 하는 맞춤형 스마트 스위치 하드웨어에서 시작된다. 애저는 이제 새로운 스마트 스위치 소프트웨어인 대시(Dash)와 맞춤형 DPU(Data Processing Unit)를 사용해 처리 작업을 오프로드하는 자체 SDN 하드웨어를 배포하고 있다. 이를 통해 SDN 어플라이언스는 초당 150만 개 이상의 연결을 관리할 수 있다. 애저는 성능을 향상시키기 위해 SDN 어플라이언스에 더 많은 DPU를 추가하기만 하면 되기 때문에 어떤 수요라도 지원할 준비가 되어 있다.

이와 같은 하드웨어 혁신은 소프트웨어 혁신과 마이크로소프트의 플랫폼 운영 방식을 지원한다. 러시노비치는 “클라우드의 미래는 서버리스”라고 말하며, 이와 같은 하드웨어 기능을 통해 애저는 서버리스 운영을 지원하기 위해 용량과 인스턴스를 빠르게 추가할 수 있다고 강조했다. 필자는 최근 이런 새로운 기능 중 하나인 하이퍼라이트(Hyperlight)를 분석한 바 있는데, 러시노비치는 하이퍼라이트와 함께 Dapr, Drasi, 라디어스(Radius_ 등의 도구도 설명했다.

대규모의 안전한 클라우드 워크로드 지원

이런 기술이 사용되고 있는 분야 중 하나는 마이크로소프트의 매니지드 서버리스 쿠버네티스인 애저 컨테이너 인스턴스(ACI)이다. 여기서는 애저의 새 버전 가상 노드 기술로 대기 노드 풀을 생성해 폭주하는 워크로드를 지원하고 필요에 따라 용량을 추가한다.

ACI의 가상 노드를 애저 쿠버네티스 서비스에 연결해 스케일링 노드를 실행할 준비를 하는 데 드는 비용 없이 쿠버네티스 워크로드를 스케일아웃할 수 있다. 이 모드의 새로운 대기 노드를 통해 쿠버네티스는 새 컨테이너를 빠르게 시작할 수 있다. 러시노비치는 약 90초 만에 1만 개의 파드를 실행하는 ACI를 시연했다.

ACI의 한 가지 흥미로운 특징은 파드가 “적대적 멀티테넌트 안전”이라는 방식으로 설계됐다는 점이다. 동일한 포드에서 실행되는 워크로드는 서로 격리되어 있으므로 이 기술을 사용해 다양한 사용자를 지원할 수 있다. 물론 이는 마이크로소프트가 서버리스 애저 앱 서비스 애플리케이션 플랫폼뿐만 아니라 많은 애저 서비스를 실행하는 방식이기도 하다. 마이크로소프트가 아닌 다른 서비스에서도 애저의 규모를 활용하는 방식일 가능성이 높다. 오픈AI와 같은 대형 고객이 챗GPT 및 기타 서비스를 위한 추론 인스턴스를 호스팅하기 위해 이 도구를 사용하는 것을 볼 수 있다.

러시노비치가 자세히 설명한 또 다른 ACI 기능은 엔그룹(Ngroups)이다. 엔그룹을 사용하면 컨테이너 세트를 함께 그룹화한 다음 그룹으로 관리할 수 있다. 예를 들어, 엔그룹으로 여러 가용성 영역에 걸쳐 애플리케이션 배포를 설정할 수 있다. 하나에 장애가 발생하면 자동으로 다시 시작되므로 ACI 애플리케이션을 배포하는 데 필요한 관리 코드의 양이 줄어든다. 흥미롭게도 ACI와 엔그룹은 라디어스 애플리케이션 정의 및 배포 프레임워크의 대상이 되어 쿠버네티스의 근간을 넘어서게 될 것이다.

컴퓨팅 기밀 유지

러시노비치는 애저의 서버 하드웨어에 새로 추가된 기능을 시작으로 일련의 새로운 기밀 컴퓨팅 기능에 대해 설명했다. 최근까지 마이크로소프트는 키를 관리하기 위해 서드파티 하드웨어 보안 모듈(HSM)에 의존해 왔다. 이제 VM 게스트 OS를 위한 로컬 인터페이스가 있는 자체 통합 HSM을 도입했다. 이렇게 하면 키가 하이퍼바이저 경계를 넘어가거나 가상머신 메모리에 남아 있어 VM이 종료된 후 복구할 수 있는 경우에도 키가 노출되지 않는다.

이와 동시에 마이크로소프트는 기밀 컴퓨팅 TEE(Trusted Execution Environments)를 GPU로 확장하고 있다. 여기서 GPU 코드는 신뢰할 수 있는 VM과 함께 자체 TEE에서 실행되고, 데이터는 암호화된 메시징 채널을 통해 교환된다. 이 접근 방식은 마이크로소프트가 오픈AI 위스퍼(Whisper)라고 부르는 것의 일부로서 오픈AI 추론을 보호한다. 여기서 프롬프트에서 GPU로, 그리고 다시 추론으로 이어지는 전체 추론 프로세스가 암호화된다.

애저를 사용해 데이터를 기밀로 공유

동일한 기본 아키텍처는 기업이 코드와 데이터를 모두 보호할 수 있는 애저 기밀 클린룸을 호스팅해 서로에게 데이터를 노출하지 않고 기능을 공유할 수 있다.

따라서 AI 모델을 보유한 기업이 고객이 자체 기밀 데이터로 모델을 미세 조정하려는 경우 암호화 내에서 수행할 수 있는 작업에 대한 명시적인 정책으로 클린룸을 설정할 수 있다. 고객은 클린룸의 키로 암호화된 데이터를 업로드하고 자사 데이터와 고객의 데이터 모두에 대해 작업을 실행한다.

클린룸 정책에 의해 작업이 승인되면 작업이 실행되어 정책에 따라 결과를 전달한다. 그렇지 않은 경우 차단된다. 이 아이디어는 데이터가 노출되지 않고 공유될 수 있으며, 공유된 데이터에 대해 신뢰할 수 있는 작업을 실행하는 당사자에게만 결과가 전달된다는 것이다. 그 결과 미세 조정된 모델은 고객에게 전달되기 전에 AI 회사에서 평가할 수 있다.

애저 컨피덴셜 클린룸에 대해 설명해야 할 것이 많지만, 언뜻 보기에는 법적 분쟁 중인 양측이 동일한 전자증거개시 데이터 집합을 상대방이 해당 데이터를 어떻게 사용하는지 모른 채 작업할 수 있도록 하는 등 규제가 엄격한 환경에서 데이터를 공유하는 것에 대한 흥미로운 해답으로 보인다. 마찬가지로, 합병 또는 인수에 관련된 두 기업이 기밀 클린룸을 사용해 고객 데이터나 기타 민감한 데이터를 노출하지 않고 민감한 비즈니스 데이터를 공유할 수 있다.

러시노비치의 이그나이트 발표는 이번 행사의 하이라이트 중 하나이다. 애저 포털의 웹 페이지 뒤에 있는 인프라에 대해 배우는 것은 언제나 흥미롭다. 그 외에도 애저에 대해 자세히 알아봄으로써 단순히 기존 데이터센터 워크로드를 클라우드로 옮기는 것 이상의 가능성을 확인할 수 있었다. 우리는 서버 없는 미래와 이를 통해 무엇을 구축할 수 있을지 준비하고 있다.
dl-itworldkorea@foundryco.com