AI 시대, 멈춰 선 엔터프라이즈 데이터 레이어를 다시 움직이는 법

작성자 Keiminem쪽지보내기 자기소개 아이디로 검색 전체게시물
작성일 2025.11.27 12:37

조회 1,759

오픈AI 제품 리드 마이크다드 재퍼는 지난 8월 ‘AI만 추가하면 된다’는 환상을 비판하며, 과도한 기대감에 짓눌린 팀과 AI를 지속 가능한 경쟁력으로 전환하는 팀 사이의 차이를 짚었다. 재퍼는 “AI에서 가장 지속 가능하고 방어 가능한 진입장벽은 독점 데이터다. 제품이 사용될 때마다 고유한 구조적 데이터를 생성할수 있다면, 경쟁자가 모방하거나 구매할 수 없는 방식으로 더 앞서 나가게 된다”라고 설명했다.

그러나 이런 미래는 대형 클라우드 서비스 업체, 초기 단계 스타트업, 성숙한 엔터프라이즈에 고르게 분배되지 않고 있다. 오픈AI는 수십억 달러 규모의 투자를 단행하며 방대한 데이터 인프라 엔지니어 조직을 운영할 수 있다. 반면 스타트업은 활용할 수 있는 자원이 극히 제한적이지만, 레거시 시스템의 부담 없이 AI 시스템을 위한 데이터 파이프라인을 처음부터 설계할 수 있는 ‘백지 상태’라는 강점을 갖고 있다.

AI 시대에 가장 큰 숙제를 떠안은 곳은 성숙한 엔터프라이즈다. 이들은 가치 높은 독점 데이터를 이미 보유하고 있을 수 있지만, 동시에 수십 년간 쌓여온 레거시 아키텍처와 기술 부채라는 무거운 장벽과 마주하고 있다.

컴퓨팅의 주요 전환기마다 데이터 레이어는 새롭게 재구성돼 왔다. 서비스 지향 아키텍처는 시스템 인터페이스를 표준화했고, 비즈니스 인텔리전스와 데이터 웨어하우징은 분석 체계를 갖췄다. 빅데이터 플랫폼은 데이터 확장성을 해결했으며, 스트리밍 기술은 데이터를 실시간으로 이동시켰다. 이런 변화는 개발자가 정보를 모델링하고 연결하는 방식 자체를 바꿔놓았다.

AI는 이제 의미, 신뢰, 상호운용성을 중심으로 데이터 레이어를 다시 쓰도록 기업을 압박하고 있다. 그렇다면 기업은 어디에 집중해야 할까?

보유한 것을 연결하라

대부분 엔터프라이즈가 겪는 문제는 데이터 부족이 아니라 연결 부족이다. 각기 다른 스키마, 로직, 이력을 가진 시스템은 통합 속도보다 훨씬 빠르게 늘어났다. 관계형 모델은 초기 설계 선택을 굳혀버려 기존 모델을 발전시키는 것보다 새로운 애플리케이션을 만드는 일이 더 쉬워지는 구조를 만든다. 전통적 형식은 구조는 저장하지만 의미까지 담지는 못한다. 오늘날 데이터 인프라 레이어의 레거시 부채는 정보를 보유하고 있으면서도 맥락을 숨겨버리는 수많은 사일로 형태로 나타난다.

네오4j(Neo4j) CTO 필립 랫들은 “대부분 기업은 새로운 애플리케이션을 계속 만들어 왔고 그때마다 고유한 데이터베이스를 구축해 왔으며, 이는 대부분 관계형 구조다. 관계형 데이터베이스는 일단 구축되면 쉽게 진화할 수 없는 모델을 갖고 있다. 시간이 지나면 기존 모델을 바꾸는 것보다 새 애플리케이션을 만드는 게 더 쉬워지고, 그 결과 확산이 심해진다”라고 지적했다.

기업이 그래프 모델로 전환하면 데이터는 세계가 실제로 작동하는 방식과 유사한 형태를 띠기 시작한다. 랫들은 “엔터프라이즈가 그래프를 사용하기 시작하면, 보유한 지식의 전체 세계를 그래프로 표현할 수 있다는 사실을 깨닫게 된다. 세상은 네트워크, 계층, 여정으로 나타나는데, 왜 이를 테이블에 억지로 맞춰야 하느냐”라고 반문했다.

의미를 모델링하는 능력은 그래프 기술을 틈새 영역에서 필수 기술로 끌어올렸다. 랫들은 “추천 엔진이나 이상 징후 탐지를 위해 그래프를 사용하던 조직은 이제 더 큰 기회가 지식 자체를 연결하는 데 있다는 사실을 인식하고 있다. AI의 확산은 그래프가 AI의 기반이자, 더 정확하고 투명한 추론을 가능하게 하는 핵심이라는 점을 더 널리 알리게 됐다”라고 설명했다.

시맨틱 아트(Semantic Arts) CEO 데이브 맥콤은 이런 변화가 중요한 이유를 설명했다. 맥콤은 “온톨로지나 시맨틱 데이터베이스는 어어떤 개념이 실제로 무엇을 의미하는지 명확히 규정하고, 이름이 비슷하거나 헷갈리는 개념을 기계가 구분해 이해할 수 있도록 하는 기술이다. 모호성은 생성형 AI의 치명적인 약점”이라고 말했다. 맥콤은 지식 그래프가 제공하는 명확성이 없다면 AI는 더 똑똑해지는 것이 아니라, 단지 더 빠르게 잘못된 답을 만들어낼 뿐이라고 강조했다.

기존 시스템 위에 그래프 기반 연결을 덧붙이는 방식이면 기업은 단계적으로 현대화를 추진할 수 있다. 랫들은 “기업 내부 여러 부문에 이미 구조가 갖춰져 있다면 모든 것을 다시 만들 필요 없이 서로 연결할 수 있다. 시간이 지나면 이렇게 구축된 연결 레이어가 AI가 기업을 이해하도록 만드는 지식 그래프의 기반이 된다”라고 말했다.

독점 데이터를 다시 통제하라

더 나은 데이터 모델링을 갖췄다 해도 기업은 더 근본적인 ‘데이터 소유권’ 문제와 마주한다. 멀티테넌트 소프트웨어의 편의성은 데이터 통제 범위를 흐릿하게 만들어 왔다. AI 시대에 위험은 단순한 노출 문제가 아니다. 독점 데이터에 담긴 경쟁력이 학습을 통해 외부로 흘러나가 사라질 수 있다는 점이다.

레플리케이티드(Replicated) CEO 그랜트 밀러는 “AI 이전에는 누군가가 당신의 데이터를 저장하고 있었고, 그곳이 침해당하면 말 그대로 공격자에게 좋은 먹잇감이 되는 수준이었다. 하지만 이제 데이터는 단순히 저장되는 것이 아니라, 그 데이터로부터 학습이 이뤄진다. 즉, 데이터가 모델의 학습 데이터셋 일부가 되는 것”이라고 말했다. 독점 데이터가 한 번이라도 외부 모델의 학습에 사용돼 그 안에 흡수되면, 기업이 갖고 있던 경쟁적 우위를 되찾기는 사실상 어렵다

해법은 데이터를 외부로 보내는 방식이 아니라, AI를 데이터가 있는 곳으로 가져오는 접근에 있다. 밀러는 “업체가 데이터에 접근하지 못하도록 하고, 수천 곳의 업체에 데이터를 보내는 대신 애플리케이션을 데이터가 있는 위치로 가져오면 된다. 이 방식이 기업에 훨씬 큰 이점을 제공한다”라고 말했다.

밀러에 따르면, 엔터프라이즈는 데이터 민감도에 따라 배포 방식을 구분하는 4단계 모델로 이동하고 있다. 위험이 낮은 영역에는 완전관리형 소프트웨어를 활용하고, 더 많은 통제가 필요한 경우에는 VPC 기반 배포를 선택한다. 민감한 시스템은 셀프 호스팅 환경을 사용하고, 최고 수준의 주권이 요구되는 경우에는 에어갭 구성을 채택하는 것이 우리가 기업에서 확인하는 패턴이다. 밀러는 “편의가 아니라 데이터 민감도에 아키텍처를 맞추는 일”이라고 설명했다.

현재 기업 문화는 전환점을 맞고 있다. 한때 클라우드의 추상화를 중시했던 기업이, 데이터 자체가 지식재산이 된 상황에서 ‘통제’의 의미를 다시 평가하고 있는 것이다. 밀러는 “데이터를 업체에 넘겨버리면 그 데이터가 어떻게 활용되는지 알 수 없다. 당신의 가중치도 아니고, 당신의 AI도 아니다”라고 강조했다.

공통 운영 체계에서 신뢰를 구축하라

데이터가 기업의 통제 아래에 있더라도, 운영이 단절돼 있으면 신뢰는 쉽게 무너진다. AI가 제대로 작동하려면 데이터를 관리하는 사람, 시스템을 운영하는 사람, 결과를 해석하는 사람이 동일한 관점을 공유해야 한다. 이런 공동 가시성이 확보돼야 설명 가능성, 책임성, 실제 거버넌스가 만들어진다.

HPE 하이브리드 클라우드 CTO 브라이언 그루타다우리아는 오랜 기간 분리돼 있던 역할이 다시 수렴하는 모습을 현장에서 목격하고 있다며 “데이터가 어떻게 소비되는지 이해하는 데이터베이스 운영팀, 파이프라인을 관리하는 데이터 엔지니어, 그리고 추상적인 AI 질문을 던지는 도메인 전문가 사이에 반드시 연결이 필요하다. 이 세 역할이 모두 협력해야 원하는 결과를 만들어낼 수 있다”라고 말했다.

업계 전반에서 이런 변화는 자동화의 방식까지 재편하고 있다. 과거에는 단순한 AI옵스 스크립트 수준에 머물렀던 작업이, 이제는 MCP(Model Context Protocol)나 A2A(Agent2Agent) 같은 프로토콜을 통해 서로 소통하는 에이전트 간 조율된 액션으로 발전하고 있다. 그루타다우리아는 “예전에는 티켓 10개를 열고 10개의 팀이 움직여야 했지만, 이제는 네트워크 에이전트, 스토리지 에이전트, 오케스트레이션 에이전트가 서로 통신하며 직접 문제를 해결할 수 있다”라고 설명했다.

그루타다우리아는 이처럼 공동 가시성, 공동 추론, 공동 책임이 갖춰진 구조가 신뢰할 수 있는 AI 운영 모델이라고 강조했다.

API를 안정시키고 스택을 진화시켜라

마지막 과제는 스택 자체에 있다. AI 생태계는 여전히 모델, 프레임워크, 프로토콜이 뒤섞인 조각난 상태이며, 어떤 엔터프라이즈도 이를 전면 재구축할 여력은 없다.

IBM에서 AI·오픈 이노베이션 디렉터를 맡고 있는 앤서니 안눈지아타는 목표가 단일 스택이 아니라 상호작용 지점의 안정성이라고 설명했다. 안눈지아타는 “우리가 필요로 하는 것도, 실제로 만들 수 있는 것도 단일 스택은 아니라고 본다. 하지만 애플리케이션을 구축할 때 사용하는 API와, 서로 통신하게 만드는 프로토콜은 표준화할 수 있다”라고 말했다.

이런 통신 레이어가 현재 가장 빠르게 진화하는 영역이다. MCP와 A2A 같은 프로토콜은 도구와 에이전트가 일관된 방식으로 컨텍스트를 주고받고 액션을 조율하도록 만들어 준다. 이들은 서로 다른 시스템이 하나의 유기체처럼 동작할 수 있도록 만드는 연결 조직이 되고 있다.

데이터 레이어에서도 표준화는 빠르게 성숙하고 있다. 네오4j가 주도해 온 그래프 질의 언어 사이퍼(Cypher)는 최근 ISO의 신규 표준인 GQL로 공식화됐다. SQL이 등장한 지 거의 40년 만에 새롭게 제정된 데이터베이스 언어 표준이다. 랫들은 “그래프 접근은 이제 GQL을 통해 이뤄진다. 기업이 신뢰할 수 있는 상호운용성 레이어가 마련된 셈”이라고 말했다.

랫들과 안눈지아타는 그래프, 관계형, 벡터 시스템이 서로 맥락을 공유해 다양한 모델과 오케스트레이션 프레임워크, 시스템에 자연스럽게 통합될 수 있다는 점을 강조했다. 목표는 하나의 시스템으로 통합하는 것이 아니라, 믿을 수 있는 개방형 연결을 만드는 데 있다.

시맨틱 아트의 맥콤은 이 선택이 향후 10년을 결정할 것이라며 “오픈 표준 기반으로 구축하면 자유를 얻는다. 반면 독점 API를 중심으로 쌓기 시작하는 순간, 이미 다음 마이그레이션의 운명을 정해버린 것과 같다”라고 경고했다.

핵심은 데이터를 의미와 지식으로 전환하는 것

데이터가 진화해 온 모든 큰 흐름에는 공통된 문제가 있었다. 시스템이 너무 많고, 사일로가 너무 많으며, ‘진실의 버전’이 너무 많다는 점이다. 그러나 AI 시대에는 문제가 더욱 심각해졌다. 이제 요구되는 것은 단순한 데이터 통합이 아니라 의미의 통합이다. 맥락이 사라지는 순간 AI는 단순히 성능이 떨어지는 것이 아니라 환각처럼 잘못된 답을 만들어낸다. 여기에 통제되지 않은 채 독점 데이터가 AI에 학습되기라도 하면, 그 데이터가 갖고 있던 경쟁력은 영영 사라질 수 있다.

랫들은 “AI 기업이 진정으로 추구해야 할 목표는 특정 사일로 안의 지식만을 활용하는 것이 아니라, 엔터프라이즈 전체의 지식을 활용하는 것”이라고 말했다. 이를 이루기 위해 필요한 것은 단순한 접근권 공유가 아니라, 시스템 전반에 걸친 공유된 이해다.

맥콤은 “내일의 레거시 시스템은 오늘 만들어지고 있다”라며 이 문제를 방치할 경우 어떤 결과가 따라올지 단도직입적으로 지적했다.

파편화의 대가는 이제 단순한 비효율이 아니다. 서로 맞지 않는 모델, 사라지는 경쟁 우위, 그리고 신뢰할 수 없는 AI 시스템으로 이어진다. 앞으로의 주도권은 데이터를 어떻게 연결하고, AI가 그 데이터에서 의미와 지식을 끌어낼 수 있도록 구조화하는지 이해하는 기업에 돌아갈 것이다.
dl-itworldkorea@foundryco.com