News Feed

AI를 위한 비정형 데이터 거버넌스 과제에 대처하기

컨텐츠 정보

  • 조회 34

본문

규제 대상 산업의 대기업, 특히 풍부한 데이터를 다루는 금융 서비스와 보험 부문의 대기업은 지금까지 데이터 거버넌스 프로그램에 상당한 투자를 해왔다. 다른 기업들 역시 데이터 중심 조직이 되기 위한 노력을 기울이며 뒤따르고 있다. 많은 경우 데이터 거버넌스는 정책 정의, 데이터 소스 분류, 데이터 카탈로그 구축, 협상 불가능한 사항에 대한 소통부터 출발한다.

그러나 구현을 조금 더 면밀히 살펴보면 대부분 데이터 웨어하우스, 관계형 데이터 및 기타 정형 데이터 소스에 대한 거버넌스에 초점이 맞춰져 왔음을 알 수 있다. AI가 등장하면서 언어 모델을 학습시키고 AI 에이전트에 컨텍스트를 제공하는 데 사용되는 비정형 데이터 소스에 대한 데이터 거버넌스를 구현하고 가드레일을 설정하는 일의 중요성이 커졌다.

뉴타닉스 데이터베이스 서비스 플랫폼의 총괄 관리자이자 부사장 아시시 모힌드루는 “이제 기업 정보의 대부분이 비정형 데이터로 구성되며, AI는 기업에서 비정형 데이터에 대한 통제와 접근성, 보안을 부여하는 방식을 재정의하고 있다. 모힌드루는 기업 리더가 ‘누가 이 데이터에 매일 액세스해야 하는가?’ 그리고 ‘무단 액세스나 우발적인 손실로부터 데이터를 안전하게 보호하려면 어떻게 해야 하는가?’와 같은 질문을 스스로에게 던져야 한다”고 말했다. 이 두 가지 질문은 모든 데이터 소스에서 고려해야 하는 핵심적인 질문이지만, 역사적으로 비정형 데이터 소스는 구현하기가 까다로웠다. 여러 전문가에게서 이러한 복잡성에 대한 의견과 AI가 비정형 데이터 거버넌스 과제를 덜어주는 방법에 대한 조언을 구했다.

내용만큼 중요한 컨텍스트

에이전틱 AI 업체 레일AI(ReilAI)의 CEO 조안 프리드먼은 조직이 거버넌스가 적용되는 자율성을 통해 안전을 보장해야 하며, 이를 위해서는 정적 액세스 제어에서 계약 기반 안전으로 전환해야 한다고 말했다. 프리드먼은 “메시지 라우팅과 메시지에 대한 추론은 다르고, 자산 연결은 자산 이해와 다르며, 사후 대응적 텔레메트리는 조율된 지능과 다르다”고 말했다.

정형 데이터 소스는 데이터 품질을 개선하고 메타데이터를 관리하기 위한 성숙한 기술로 뒷받침되는 트랜잭션 데이터와 관계형 데이터의 혼합체다. 문서 저장소와 기타 NoSQL 데이터베이스는 비정형 데이터에 대해 더 나은 데이터 관리와 검색 기능을 제공했지만, 벡터 데이터베이스와 대규모 언어 모델(LLM)이 등장하기 전까지는 문서에서 대규모로 의미를 도출할 수 있는 툴이 없었다.

문서 내 민감정보 자동탐지 업체 리댁터블(Redactable)의 CEO 아만다 리베이는 “비정형 문서를 볼 때 콘텐츠 내부에 존재하는 위험에 초점을 맞춘다. 민감한 정보는 사람들이 좀처럼 살펴보지 않는 곳에 숨어 있기 때문이다. 노출 사고는 위험의 존재를 누군가 인지하기 전에 일어나는 경우가 많으므로 애초에 그러한 문서가 안전하지 않은 워크플로우로 들어가지 않도록 차단하는 통제 장치가 있어야 한다. 또한 전달되면 안 되는 정보가 파일에 포함된 경우 이를 알리는 시스템이 필요하다. 그러면 가장 중요한 순간에 문제를 파악할 수 있다”라고 말했다.

계약서나 의료 기록과 같은 비정형 문서에 대한 규칙을 정의하는 것보다 정형화된 금융 거래와 고객 기록에 접근하기 위한 통제 장치를 정의하는 편이 훨씬 더 쉽다. 프리드먼은 비정형 문서에 대한 규칙이 더 동적이라는 점을, 리베이는 문서 평가의 규모와 실시간 복잡성을 강조했다.

수명주기 전반의 거버넌스

거버넌스 정책 구현은 어디에서 시작해야 할까? 데이터 파이프라인, 소스 데이터 세트, 소비 애플리케이션, AI 모델과 AI 에이전트에 대해 고려해야 할 부분이 많다. 클라우드 문서 관리 솔루션 AO닥스(AODocs)의 창업자이자 CEO인 스테판 돈제는 일종의 강력한 배관 작업이 필요하다면서 다음과 같은 작업을 수행할 수 있는 거버넌스 시스템을 권장했다.

  • 적절한 모델로 콘텐츠 라우팅
  • 세분화된 권한 적용
  • 추출된 개체와 다른 분류 체계 간의 관계 매핑
  • 암시적 버전 추적
  • 위험성이 높을 때 인간에게 알림

돈제는 “이러한 역량이 없으면 AI는 또 다른 블랙박스가 된다. 그러나 일단 갖추면 엔터프라이즈 규모에서 데이터 거버넌스와 위험, 규정 준수, 핵심 의사결정을 위한 감사 가능하고 안전하며 설명 가능한 인사이트 계층을 확보할 수 있다”고 말했다.

정책은 소스부터 소비에 이르기까지(이 과정에서 파생되는 데이터 생성도 포함) 데이터 계보 전반에 걸쳐 일관적으로 구현돼야 한다.

데이터 보안 업체 시큐리티(Securiti)의 최고 데이터 책임자인 잭 버코위츠는 “비정형 데이터와 관련된 가장 큰 보안 과제 중 하나는 여러 시스템과 클라우드, 팀 간에 이동하는 정보에 대한 가시성과 계보가 부족하다는 점이다. 데이터의 출처나 변경 내역, 현재 활성 상태인 버전이나 여전히 관련성이 있는지 여부를 추적할 수 없으면 생성형 AI 애플리케이션을 통해 민감하거나 부정확한 데이터가 노출될 위험이 커진다”라고 말했다.

AI를 사용한 분류 및 범주화

문서에서 지식을 추출하고 범주화한 다음 사용자 권한에 따라 분류하는 것만 해도 이미 복잡하다. 여기에 문서는 각기 독립적인 분석이 필요한 동시에 문서 전체의 컨텍스트와도 관련된 여러 섹션과 하위 섹션의 집합체라는 사실까지 더해진다.

흔히 CSI 마스터포맷(MasterFormat) 문서 표준을 따르는 건물 시공 사양서를 예로 들어보자. CSI 마스터포맷에는 일반 사양, 전기, 배관 등 50개 분과가 있다. 이제 이 문서에 대한 액세스 제어를 고려해 보면, 두 개의 개별 분과에서 보안을 다루고 장비와 같은 타 섹션과는 다른 분류가 필요할 수 있다. 그러나 하나의 일반 계약 업체라 해도 원자력 발전소 사양에 액세스할 때와 소규모 사무용 건물의 사양에 액세스할 때 적용되는 정책이 달라야 한다는 점을 고려하면 이조차도 충분한 컨텍스트는 아니다.

복잡한 분류 과제는 AI와 고급 알고리즘을 통해 해결되고 있다. 글로벌 디지털 컨설팅 업체 브리지넥스트(Bridgenext)의 엔터프라이즈 데이터 부문 수석 부사장 겸 수석 설계자 난다쿠마 시바라만은 “기업은 특히 분류, 분류 체계 관리, 분야별 레이블링과 같은 영역에서 상품 중심, API 중심의 거버넌스 가속기로 전환하고 있다. 이제 기업들은 수천 개의 자산에 범주, 규칙, 정책을 수동으로 적용하는 것이 아니라 AI 기반 분류 API를 사용해 자동으로 데이터를 태깅하고 범주화한다. 머신 러닝 기반 패턴 탐지를 사용해 분류 체계, 제품 계층 구조 또는 개체 분야를 할당하고, 수집 파이프라인에서 실시간 분류를 위한 가벼운 거버넌스 마이크로서비스를 구현한다”라고 말했다.

다른 접근 방식은 문서의 시각적 구조를 분석해 부가적인 컨텍스트 단서를 얻는 시각 언어 모델(VLM)을 사용하는 것이다. 컴퓨터 비전 플랫폼 복셀51(Voxel51) 소속 해커 하프리트 사호타는 VLM은 학습 데이터 없이도 문서를 분류할 수 있지만 더 큰 문제는 대부분의 조직에 애초부터 일관적인 분류 체계가 없다는 점이라면서 “첫 번째 단계는 문서를 단순히 텍스트 추출이 아닌 이미지로 취급하는 것이다. 이를 통해 구조를 이해하는 데 중요한 레이아웃 정보를 보존할 수 있다”라고 말했다.

버전과 중복 관리

셰어포인트 사이트, 클라우드 스토리지 영역, SaaS 플랫폼, 이메일 첨부 파일에는 문서의 수많은 버전과 파생 항목이 흩어져 있다. 비정형 데이터 거버넌스의 중대한 과제 중 하나는 AI 모델, 검색 증강 생성(RAG) 시스템, AI 에이전트에 포함할 정확한 최신 버전을 식별하는 것이다.

데이터 인텔리전스 플랫폼 콜리브라(Collibra)의 CTO 리스 그리피스는 “문서 버전 관리를 개선하려면 파일 간의 의미론적 유사성을 측정하고 동일한 문서의 서로 다른 버전일 가능성이 높은 문서를 그룹으로 묶어야 한다. 그룹화가 완료되면 최종 수정일, 메타데이터 또는 제목 패턴과 같은 부가적인 신호를 적용해 각 묶음에서 어떤 문서가 가장 최신 버전인지 추론한다”고 말했다.

과거의 문서 버전 확인은 데이터 소유자를 위한 통제와 예외 처리를 위한 툴을 갖춘 규칙 기반 시스템이었다. 현대의 시스템은 AI를 통합해 가장 정확한 최신 문서를 자동화하거나 추천하고 보관할 문서를 제안한다.

데이터 거버넌스 플랫폼 PROS의 최고 AI 전략가 마이클 우 박사는 “에이전트는 비정형 데이터를 처리하고 프레젠테이션, 비디오, 이메일, 채팅 로그의 내용을 대규모로 읽고 분석하는 데 탁월하다. 버전을 관리하려면 검색과 생성형 AI를 결합해서 ‘먼저 검색하고, 자주 검색하기’ 관행을 ‘생성하기 전에 모두 읽기’로 강화해야 한다. 이렇게 하면 오래되거나 부정확한 콘텐츠가 자연스럽게 업데이트되거나 폐기되는, 지속적인 문서 발전이 촉진된다”고 말했다.

문서 보존 정책

중복이 해결된 이후에도 핵심적인 데이터 거버넌스 질문, 즉 문서 보존 정책을 어떻게 구현할 것인지의 문제는 남는다. 콜리브라의 그리피스는 “대부분의 조직은 정형 데이터에 대한 보존 규칙을 잘 정의해 두고 있지만 이러한 규칙을 비정형 콘텐츠에 적용하는 것은 역사적으로 매우 어려웠다. 레코드 유형과 하위 유형을 포함한 보존 분류 체계에 따라 모든 문서에 AI 기반 태깅을 하면 정형 데이터 세트에 적용하는 것과 동일한 정밀도로 비정형 데이터를 쿼리하고 관리할 수 있다”고 말했다.

보존 정책은 대체로 특정 규칙이 있는 법적 가이드라인을 따른다. 그보다 더 어려운 과제는 더 이상 AI 모델 및 에이전트와 함께 사용하면 안 되는 문서 내의 오래된 정보를 인식하는 것이다.

AI/AGI 플랫폼 개발 신생업체 미스웍스(MythWorx)의 CEO 제이슨 윌리엄슨은 “인간의 마음이 오래된 기억을 자연스럽게 차차 사라지게 하는 것과 마찬가지로 AI는 관련성 신호의 감소, 현재 작업과의 관계 약화, 사용 패턴의 변화를 감지해 문서의 노화를 인식할 수 있다. 단번에 끊는 것이 아니라 지속적으로 적응함으로써 조직이 여전히 유의미한 정보를 발굴하는 동시에 현재 시점에 더 이상 맞지 않는 정보를 매끄럽게 사용 중단하도록 돕는다”라고 말했다.

처음부터 끝까지 데이터 보안

데이터 거버넌스는 비즈니스를 보호하고 데이터 프라이버시는 사람을 보호하고 데이터 보안은 데이터를 보호한다. 데이터 보안을 구현하려면 먼저 사람들이 어떻게 문서를 생성하고 관리하는지를 고려해야 한다.

데이터 보안 방지 플랫폼 업체 나이트폴(Nightfall)의 공동 창업자이자 CEO인 로한 사스는 “대규모로 문서를 다룰 때 보안과 거버넌스는 별도의 워크플로우가 될 수 없다. 이 둘은 발견, 분류, 실행이 하나의 조율된 대응으로 일어나는 통합된 워크플로우가 된다. 현대 플랫폼은 부적절하게 공유된 메시지, 이메일, 파일이 탐지되는 즉시 이를 격리해야 한다. 또한 민감한 문서에 대한 과도한 액세스 권한을 회수하고 무단 클라우드 동기화 작업을 막고 위험한 CLI 명령을 차단하고 승인되지 않은 목적지로의 파일 업로드를 중단시켜야 한다. 또한 이 모든 작업이 실시간으로 이뤄져야 한다”라고 말했다.

문서는 AI 모델과 AI 에이전트에 정보를 공급하므로 두 번째 데이터 보안 고려 사항은 어떤 문서를 포함할지와 AI에 내장된 데이터를 어떻게 보호할 것인지다. AI 및 데이터 보안 소프트웨어 업체 사이보그(Cyborg)의 CEO 니코 듀폰은 “AI와 관련된 주된 위험은 전통적인 침해가 아니라 컨텍스트 유출이다. 일단 모델을 기업 데이터에 그라운딩하면 그 모델은 권한이 없는 사용자에게 민감한 정보를 노출할 수 있는 잠재적 벡터가 된다. 모델에 모델 스스로의 문지기 역할을 맡길 수는 없다. 진정한 데이터 보안을 위해서는 추론 시점의 거버넌스가 필요하며, 보안이 아키텍처에 내장되고 데이터 정제 자체만큼 자동화된 새로운 인프라 계층으로 AI를 취급해야 한다”고 말했다.

세 번째 고려 사항은 사람들이 LLM 및 AI 에이전트와 상호작용할 때 데이터를 보호할 방법이다. 사용자의 액세스 정책과 사용 컨텍스트에 부합해야 한다. AI 오케스트레이션 플랫폼 카미와자 AI(Kamiwaza AI)의 CTO이자 개발자 에반젤리스트 제임스 우쿼트는 “AI 문서 관리의 주된 보안 위험은 추론 노출로, AI가 질문에 정확하게 답하기 위해 사용자가 보면 안 되는 민감한 문서에 액세스할 때 발생할 수 있다. 이 위험을 완화하려면 비즈니스 온톨로지의 다양한 개체 간 관계를 이해하고 AI와 에이전트 시스템이 인간에게 적용되는 것과 동일한 액세스 제어를 따르도록 보장하는 권한 인식 인덱싱을 구현해야 한다”라고 말했다.

비정형 데이터 거버넌스의 가장 까다로운 측면은 규제가 진화하고 AI 역량이 개선된다는 점이다. 기업은 더 많은 데이터 세트를 추가하고 직원들의 AI 문해력을 높이고 AI 사용 사례를 확장하면서 정책도 함께 발전시켜야 한다. 비정형 데이터 거버넌스 과제는 단기간에 해결할 수 있는 일이 아니다.
dl-itworldkorea@foundryco.com

관련자료

댓글 0
등록된 댓글이 없습니다.