‘수집’ 아닌 ‘연결’이 승패 가른다…디노도가 제안하는 AI 시대의 데이터 전략
컨텐츠 정보
- 조회 151
본문
오늘날 기업의 화두는 단연 AI다. 특히 챗GPT와 같은 생성형 AI 챗봇 서비스를 경험해 본 경영진과 현업 부서에서는 “우리 회사가 지난 수십 년간 쌓아온 방대한 데이터와 엮어서 챗GPT와 함께 쓸 수는 없을까?”라는 고민을 하고 있다. 그러나 지난 2~3년 사이 실제 프로덕션 환경에 성공적으로 배포된 프로젝트는 극히 드물며, 투자대비효과(ROI)도 증명하기 어렵다.
원인은 AI 모델의 성능이 부족해서가 아니다. 모델 자체는 이미 놀라운 속도로 발전하고 있다. 문제는 모델에 기업의 내부 데이터를 전달하는 ‘데이터 연결 포인트’에 있다. 디노도 코리아 정승재 이사는 ITWorld 및 CIOKorea가 3월 25일 서울 잠실 롯데호텔 월드 크리스탈 볼룸에서 개최한 ‘Cloud & AI Summit 2026’에서 “기업이 수십 년간 구축해 온 데이터가 단일 저장소가 아닌 DW, 데이터 레이크, 클라우드, 외부 API 등 여러 곳에 분산되어 있기 때문”이라고 AI 프로젝트 난항의 원인을 제시했다.
정 이사에 따르면, AI가 기업 데이터를 제대로 활용하기 위한 핵심 요구조건은 크게 5가지다. 우선 분산된 모든 데이터에 즉각 접근할 수 있는 통합(Unified) 환경과 학습 지연이 없는 실시간성(Freshness) 확보가 필수적이다. 또한 급변하는 AI 모델과 소스 사이에서 중심을 잡을 유연성(Flexibility), 그리고 AI가 비즈니스 용어를 이해하도록 돕는 풍부한 맥락(Rich Context), 그리고 가장 밑단에는 강력한 보안 및 거버넌스(Secure & Governed) 체계가 뒷받침돼야 한다.
데이터 ‘수집’과 ‘연결’의 균형 맞추기
데이터를 AI에 전달하는 방식은 물리적 방법과 논리적 방법으로 나뉜다. 기존의 물리적 방식은 분산된 데이터를 거대한 하나의 전용 시스템에 다시 수집하는(collect) 방식으로, 이는 과거의 비효율을 반복하며 막대한 비용과 시간적 한계를 수반한다. 더욱이 새로운 전용 시스템을 구축한다고 해도 결국 또 다른 분산 지점을 하나 더 늘릴 뿐이다.
가트너가 제시하는 최신 데이터 관리의 핵심은 수집이 아닌 연결(connect)에 있다. 정 이사는 “수집과 연결이 균형을 이룰 때 데이터 운영 효율이 극대화된다”라며 “기업 내 산재한 데이터를 논리적으로 통합하는 데이터 패브릭 아키텍처를 통해 AI가 요구하는 통합성, 유연성, 최신성을 충족할 수 있다”라고 설명했다.
데이터 패브릭 아키텍처를 구현하는 과정은 3단계로 나뉜다. 1단계는 데이터 가상화를 통한 논리적 통합으로, 분산된 데이터에 단일 접점을 만드는 작업이다. 정 이사는 “적절한 솔루션을 활용하면 이 단계는 일주일이면 끝난다”라고 말했다.
2단계는 시맨틱 레이어 구축이다. 데이터 모델에 의미를 부여하고, 현업 사용자와 AI가 함께 이해할 수 있는 비즈니스 용어로 매핑하는 과정으로 실질적인 인력과 시간이 가장 많이 투입되는 구간이다. 3단계는 온톨로지 확장으로, 데이터 간 관계성을 정의해 AI의 추론 능력을 높이는 단계다.
정 이사는 “데이터 가상화라는 단단한 기술적 기반이 1단계에서 받쳐 주어야만 2, 3단계의 복잡한 데이터 전략을 리스크 없이 수행할 수 있다”라고 강조했다. 단순 반복적인 데이터 수집 업무는 기술에 맡기고, 사람은 데이터의 가치를 높이는 본질적인 고민에 집중하라는 이야기다.
수백 개의 소스를 단일 접점으로…정형·비정형·보안까지 한 번에
디노도의 데이터 가상화 플랫폼은 데이터 웨어하우스, API, SaaS, 오브젝트 스토리지 등 200개 이상의 데이터 소스를 단일 접점으로 연결한다. 정형은 물론 비정형 데이터까지 아우른다.
오라클 테이블과 MS SQL 테이블, SAP BW 오브젝트를 마치 동일한 DB 안에 있는 것처럼 조인해 원하는 데이터 모델을 만들어낼 수 있고, SQL에 익숙한 엔지니어라면 이기종 시스템을 단일 쿼리로 직접 조회하는 것도 가능하다. 셰어포인트(SharePoint) 폴더에 저장된 PDF, PPT, DOC 파일을 연결해 “문서를 200자 이내로 요약해줘”와 같은 자연어 명령으로 일괄 처리할 수도 있다. 벡터 DB 역시 하나의 소스로 연결된다. “6억 원 미만 매물 중 아일랜드 식탁이 있는 집”처럼 이미지 인식 결과(비정형)와 가격 정보(정형)를 단일 SQL 하나로 함께 끌어낼 수 있다.
디노도 플랫폼의 또 다른 강점은 보안과 거버넌스다. 모든 데이터 액세스가 단일 플랫폼을 통해 이뤄지기 때문에, 원천 시스템이 오라클이든 SAP든 관계없이 동일한 보안 정책을 일괄 적용할 수 있다. 같은 테이블을 조회하더라도 사용자의 역할(Role)과 속성에 따라 보이는 데이터가 달라진다. 조회 가능한 행(Row)도 다르고, 개인 정보 열(Column)에는 마스킹이 자동 적용된다.
정 이사는 국내 증권사의 실제 구축 사례를 언급하며 “여의도 지점이 조회하면 여의도 지점 데이터만 나오고, 부산 지점이 조회하면 부산 지점 데이터만 보인다. 퍼블릭 LLM으로 기업 내부 데이터가 나갈 때 개인 민감 정보나 기업 기밀 정보가 필터링되도록 하나의 접점에서 통제할 수 있다”라고 설명했다.
기술이 할 일, 사람이 할 일은 따로 있다
데이터 가상화 기반이 마련되면, 그 위에 시맨틱 레이어를 구축하는 단계가 이어진다. 비즈니스 용어와 데이터 필드를 연결하고 의미를 부여하는 이 작업은 AI가 기업 데이터를 정확히 이해하기 위한 필수 조건이다. 그러나 엔지니어는 이 작업을 꺼리는 경우가 많다. SQL 모델에 대한 설명과 코멘트를 입력하는 일이 소모적인 작업이기 때문이다.
디노도 플랫폼은 이 병목을 AI로 해소한다. 이미 누적된 데이터와 메타 정보를 기반으로 LLM이 각 데이터 모델과 필드에 대한 설명을 자동으로 생성한다. 야간에 배치로 초안을 생성하고, 담당자가 최종 검토 후 승인하면 배포본이 완성되는 방식이다.
시맨틱 레이어까지 구축되면 자연어 질의가 가능해진다. 텍스트 투 SQL(Text-to-SQL) 또는 MCP(Model Context Protocol) 방식으로 연결하면, 클라우드 마케팅 시스템, CRM, 매출 정보 시스템이 각각 다른 곳에 분산되어 있더라도 “작년에 어떤 프로모션을 통해 어떤 상품이 가장 많이 팔렸는가”라는 질문 하나로 통합된 분석 결과를 즉시 얻을 수 있다.
정 이사에 따르면, 데이터 가상화를 통한 데이터 패브릭의 실효성은 포레스터가 디노도 고객사를 대상으로 진행한 조사에서도 확인됐다. 인터뷰에 참가한 고객사는 기존 ETL 방식 대비 데이터 처리 속도가 65% 빨라지고, 데이터 준비 작업이 67% 줄었다고 밝혔다. 투자 회수 기간도 6개월 미만으로 나타났다.
정 이사는 “비용을 들여 해결할 수 있는 부분은 솔루션으로 빠르게 처리하고, 사람의 판단이 필요한 시맨틱과 온톨로지 영역에 인력과 시간을 집중하는 것이 현명한 접근”이라며, 기술이 반복적인 데이터 연결은 플랫폼에 맡기고 사람은 데이터에 의미를 부여하는 본질적인 작업에 집중해야 할 때라고 강조했다.
dl-itworldkorea@foundryco.com
관련자료
-
링크
-
이전
-
다음







