News Feed

애저 호라이즌DB : 포스트그레SQL에 대한 MS의 대담한 승부수

컨텐츠 정보

  • 조회 419

본문

기업은 데이터가 필요하다. 그리고 데이터는 개발자의 노트북에서 글로벌 클라우드까지 확장되는 유연함과 이동성을 갖춘 환경에 저장돼야 한다. 또한 이 스토리지는 모든 OS와 클라우드에서 큰 비용 부담 없이 실행이 가능해야 한다.

이와 같은 조건을 충족하는 옵션은 많지 않다. 마이SQL이나 그 파생을 대부분 용도로 사용할 수 있지만, 여러 데이터센터에 걸쳐 실행되는 대규모 데이터베이스를 제대로 지원하기가 어렵다. 게다가 마이크로소프트의 SQL 서버와 같은 사유 툴에 따르는 라이선스 문제, 그리고 마이크로소프트의 하이퍼스케일 애저 SQL은 마이크로소프트 자체 클라우드에서만 사용 가능하다는 제약도 있다.

포스트그레SQL은 모든 곳에 존재한다

이 상황에서 개발자가 오픈소스 포스트그레SQL에 점점 더 의존하게 된 것은 자연스러운 흐름이다. 포스트그레SLQ은 캘리포니아대학교 버클리에서 개발된 인그레스(Ingres)의 뒤를 잇는 시스템으로(이름도 여기서 유래) 30년 가까운 역사를 갖고 있다. 광범위한 플랫폼에 걸쳐 원활하게 작동하는 유연한 툴이며, 확장 가능한 아키텍처 덕분에 대부분 워크로드를 지원한다.

마이크로소프트는 2017년부터 애저에서 포스트그레SQL을 지원했는데, 2019년 사이터스 데이터(Citus Data)를 인수하면서 확장과 성능에 대한 경험까지 확보했다. 이후 마이크로소프트는 포스트그레SQL 서비스형 플랫폼 제품군을 확장해 코스모스 DB 플랫폼의 일부로 하이퍼스케일 버전과 대부분의 일상적인 작업을 위한 관리되는 유연한 서버를 출시했다. 또한 고객이 애저 VM에서 자체 포스트그레SQL 인스턴스를 실행하는 방식도 지원한다.

마이크로소프트는 성장하는 데이터 플랫폼의 핵심적인 요소로 포스트그레SQL을 채택하고 이후 이 프로젝트의 주요 기여자 겸 후원자 역할을 해왔다. 현재 마이크로소프트 소속의 기여자 19명이 활동 중이며 2026년에 나올 다음 주 릴리스를 위한 코드가 이미 프로젝트 측에 전달되고 있다.

애저 호라이즌DB란?

최근 마이크로소프트는 이그나이트 2025(Ignite 2025)에서 포스트그레SQL 제품군의 최신 구성 요소로 애저 호라이즌DB(Azure HorizonDB)를 발표했다. 수평확장 고성능 데이터베이스로 설계된 호라이즌DB는 복잡한 샤딩 작업 없이 자동으로 확장이 가능하고 속도도 빠른 운영 데이터베이스에 대한 필요성에 대응하는 새로운 세대의 포스트그레SQL 워크로드에 초점을 맞춘다.

필자는 이그나이트에 앞서 마이크로소프트 데이터베이스 부문 CVP인 시리시 토타와 이 새로운 서비스에 대해 이야기를 나눴다. 토타는 새로운 포스트그레SQL 변형을 내놓은 근거를 다음과 같이 설명했다.

사람들은 둘 중 하나를 선택하고 있다. 하나는 “온프레미스 또는 다른 클라우드에서 커뮤니티 버전으로 잘 작동하는 포스트그레SQL을 그대로 옮기고 싶다”고 생각하는 사람들이다. 이들은 애저로 옮기고 싶어한다. 100% 포스트그레스를 원하고 모든 확장이 잘 작동하기를 원하며, 성능과 속도의 유연성을 원한다. 이 경우 기존 버전, 즉 포스트그레SQL을 위한 애저 데이터베이스가 안성맞춤이다. 다른 하나는 많은 스토리지가 필요한 AI 네이티브, 클라우드 네이티브 워크로드를 구축하고자 하는 사람들로, 이들은 매우 빠른 지연과 훨씬 더 높은 IOPS를 원한다. 이 경우에는 호라이즌DB로 가야 한다.

애저 호라이즌DB의 공개된 성능 데이터는 분명 인상적이다. 마이크로소프트의 주장에 따르면 트랜잭션 워크로드 실행 시 처리량은 오픈소스 릴리스 대비 3배에 달한다. 최대 3072코어까지 확장할 수 있으며 128TB의 스토리지와 밀리초 이하의 커밋이 지원된다. 호라이즌DB는 애저의 다중 지역 아키텍처를 기반으로 한다. 여러 가용 영역에 데이터가 복제되고, 운영에 미치는 영향을 최소화한 자동화된 유지보수와 백업이 수행된다. AI 애플리케이션과 대규모 쿠버네티스를 위해서는 이 정도의 성능이 필요하다. 토타는 “이와 같은 클라우드 네이티브 워크로드는 호라이즌DB에서 성공적인 결과를 얻을 수 있다”라고 강조했다.

성능 향상의 핵심은 컴퓨팅과 스토리지를 분리해 각기 독립적으로 확장할 수 있도록 한 데이터베이스 아키텍처의 변화다. 더 많은 컴퓨팅이 필요하면 호라이즌DB가 알아서 제공하고, 더 많은 읽기 복제본이 필요하면 호라이즌DB가 프로비저닝해준다.

AI에 애저 호라이즌DB 사용하기

마이크로소프트는 표준 포스트그레SQL 기능 대부분과의 호환성을 유지하면서 그 위에 현대적 AI 애플리케이션을 지원하는 자체 기능을 추가했다. 검색 증강 생성(RAG) 애플리케이션과 모델 튜닝의 일부로 빠른 DiskANN 기반 벡터 검색이 제공된다. DiskANN의 새로운 고급 필터링을 사용하면 포스트그레SQL의 표준 벡터 검색 대비 상당한 성능 향상을 얻을 수 있으며, 인메모리와 디스크의 하이브리드 검색을 통해 대규모 벡터 인덱스도 큰 성능 저하 없이 처리할 수 있다. 또한 새로운 필터링된 그래프 탐색은 쿼리 속도를 최대 3배 높여준다.

마이크로소프트의 툴은 SQL 쿼리의 일부로 마이크로소프트 파운드리를 사용해 AI 연산을 수행함으로써 쿼리 내부로 AI 모델을 가져올 수 있게 해준다. 관리형 모델을 통해 애저 포털의 기본 모델 목록에서 선택하거나 자체 마이크로소프트 파운드리 모델을 가져올 수 있다. 덕분에 데이터베이스를 벗어나지 않고도 쿼리 결과를 벡터 인덱스 테이블에 기록하면서 임베딩을 생성하는 등의 작업을 수행할 수 있다. 다른 옵션으로는 AI 기반 시맨틱 검색을 사용하거나, 결과를 요약해 고객 의견에 대한 인사이트를 제공할 수 있다. 토타는 이 프로세스에 대해 “SQL 구조를 유지하면서 적절한 위치에서 시맨틱 연산자를 호출하는 방식”이라고 간략히 설명했다.

애저 엔터프라이즈 툴과의 기본 통합이 내장돼 있으며 암호화, 엔트라 ID, 프라이빗 엔드포인트에 대한 지원 추가로 자체 시스템과 애플리케이션에서만 클라우드에 호스팅된 데이터에 액세스할 수 있다. 민감한 데이터를 보호하기 위한 클라우드용 애저 디펜더(Azure Defender for Cloud) 지원으로 보안도 강화됐다. 토타는 “마이크로소프트 핵심 고객 집단은 기업이다. 따라서 뭔가를 만들 때는 기업과 개발자 모두를 고려한다”라고 말했다. 호라이즌DB는 초기에는 소수의 애저 지역에서 제공되며 프리뷰 릴리스에 대한 제한적인 액세스만 가능하다.

VS 코드에서 포스트그레SQL 관리하기

데이터베이스 외에, 마이크로소프트는 비주얼 스튜디오 코드 포스트그레SQL 확장 정식 버전을 출시했다. 이 확장은 개발 환경에 데이터베이스 개발 및 관리 툴을 추가해 호라이즌DB를 포함한 온프레미스와 클라우드의 포스트그레SQL 인스턴스에 연결된다. 중요한 점은 이 툴은 모든 포스트그레SQL 구현을 위한 툴이므로 애저에 제한되지 않고 포스트그레SQL API를 구현하는 모든 데이터베이스에서 사용할 수 있다는 것이다.

확장 프로그램에 포함된 여러 툴을 사용해 데이터베이스 스키마를 시각화하고 테이블을 탐색하고 조인을 표시할 수 있다. 복잡한 데이터 구조를 표시하고 필요에 따라 특정 테이블을 확대할 수 있다. 또 다른 시각화로 서버 대시보드도 있다. 여기서 다양한 지표를 분석하고 데이터베이스 상태와 성능을 개선할 만한 부분을 파악할 수 있다.

마이크로소프트가 비주얼 스튜디오 코드를 AI 애플리케이션 개발과 AI 사용, 두 가지 모두를 위한 개발 툴로 포지셔닝하는 만큼 포스트그레SQL 툴도 깃허브 코파일럿 툴을 위한 에이전트를 제공한다. 자연어 쿼리는 쿼리를 다듬고 데이터베이스를 설계하는 데 도움이 되며, 서버 대시보드와 동일한 지표를 사용해 운영 개선을 지원한다.

오라클을 포스트그레SQL로 가져오기

호라이즌DB의 성능 개선은 기존 관계형 데이터베이스에서 마이그레이션할 만한 좋은 이유가 된다. 특히 코어당 라이선스 모델로 운영되는 데이터베이스는 라이선스 비용을 절감할 수 있다. 비주얼 스튜디오 코드 포스트그레SQL 확장 프로그램에 포함된 툴은 오라클 스키마를 애저에 호스팅되는 포스트그레SQL로 마이그레이션하는 데 유용하며, AI 도구를 사용해 모범 사례를 기반으로 변환을 처리한다. 문제를 방지하기 위해 결과 데이터베이스 구조를 배포하기 전에 스크래치 데이터베이스에서 출력을 검증할 수 있게 해준다.

이 툴은 데이터베이스 작업뿐만 아니라 새 스키마에 맞게 애플리케이션 코드를 업데이트하는 데도 도움이 된다. 모든 요소가 자동으로 업데이트되지는 않는다. 환각 위험을 줄이기 위해 마이그레이션할 수 없는 요소와 코드를 표시해서 사용자가 수동으로 업데이트할 수 있도록 한다. 사유 SQL 확장은 포스트그레SQL의 표준 기반 접근 방식에 매핑되지 않을 수 있으므로 모든 오라클 기능이 마이그레이션되지는 않는다.

패브릭에서의 미러링

비즈니스에서 데이터의 중요성은 갈수록 더 커지고 있으며, 마이크로소프트 패브릭과 같은 분석 플랫폼의 기능도 그에 맞춰 확장되고 있다. 호라이즌DB 및 기타 운영 데이터베이스는 이 접근 방식의 일부로, 애플리케이션에 영향을 주지 않고 테이블을 패브릭으로 미러링한다. 이를 통해 거의 실시간으로 비즈니스 데이터를 분석 플랫폼으로 가져와 대시보드와 AI 애플리케이션에 사용할 수 있다. 행 기반 저장소에서 열 기반 저장소로 이동하기 위한 복잡한 ETL은 필요 없다. 플랫폼이 알아서 처리해주기 때문이다. 마이크로소프트는 호라이즌DB를 패브릭으로 가져오는 구체적인 시점은 공개하지 않았지만 로드맵에 포함돼 있다.

포스트그레SQL은 마이크로소프트 데이터 플랫폼의 중요한 요소다. 오픈소스 기반이므로 애저 외부에서 개발한 후 애플리케이션 배포의 일부로 손쉽게 구성할 수 있다. 호라이즌DB는 여기서 더 나아가 대규모 클라우드 네이티브 애플리케이션과 임베디드 AI까지 지원한다. 동시에 포스트그레SQL의 운영 트랜잭션 데이터를 패브릭으로 미러링해 분석 애플리케이션이 최신 정보에 액세스할 수 있도록 해서 데이터를 기다리지 않고 더욱 쉽게 비즈니스 의사 결정을 내릴 수 있게 해준다.
dl-itworldkorea@foundryco.com

관련자료

댓글 0
등록된 댓글이 없습니다.