News Feed

AI 중심 기업에서 데이터팀이 맡아야 할 핵심 역할 5가지

컨텐츠 정보

  • 조회 673

본문

생성형 AI가 부상하면서 데이터를 사용해 비즈니스 의사 결정의 정확도를 개선하는 것에 대한 관심도 급증했다. 비즈니스 관리자, 데이터 분석가, 시민 데이터 과학자는 이제 SQL 쿼리가 아닌 프롬프트를 사용해 질문하고, 대시보드와 씨름하는 대신 LLM과 대화하고, 데이터에서 인사이트를 탐색하는 대신 ML이 생성한 권장 사항을 검토한다.

2024년 와튼 AI(AI at Wharton) 보고서에서 설문조사 응답자 72%는 일주일에 한 번 이상 생성형 AI를 사용한다고 답했다. IT, 비즈니스 인텔리전스, 고객 서비스, 마케팅, 운영, 제품 개발 부서에 소속된 응답자 중 80% 이상은 생성형 AI 사용이 업무에 미친 영향이 중간-높음 수준이라고 답했다.

데이터팀과 전문가(데이터 과학자, 엔지니어, 설계자, 데이터 거버넌스 전문가 포함)는 이 기회를 이용해 생성형 AI를 도입하는 부서에 더 많은 데이터 서비스를 제공해야 한다. 초기 및 중간 도입 기업은 생성형 AI 툴, 자동화, ML 기능, 데이터 시각화를 사용해 업무의 미래를 재정의하고 있다.

딜로이트의 기업 내 생성형 AI 현황 보고서(2024년 3분기)에 따르면 기업 75%는 생성형 AI 이니셔티브를 지원하기 위해 데이터 수명 주기 관리에 대한 기술 투자를 늘렸다. 이를 위해 주로 취한 조치는 데이터 보안 강화, 데이터 품질 개선, 거버넌스 프레임워크 업데이트, 클라우드 서비스 제공업체 또는 IT 통합업체와의 협업 증대 등이다.

SAP 데이터 및 분석 부문 사장이자 최고 제품 책임자인 이르판 칸은 “데이터팀은 데이터 액세스를 민주화하고 데이터 기반 의사 결정을 위한 견고한 토대를 마련함으로써 조직 내에서 업무의 미래를 혁신하고 있다. 이들은 데이터 관리와 거버넌스, 분석을 통해 계산을 자동화하거나 대시보드를 만드는 것 이상의 작업을 수행하며, 더 깊은 인사이트를 발견하고 직원이 더 효율적으로 작업을 수행하도록 지원하면서 리소스에 쪼들리는 IT 부서에 대한 요청 사항 적체를 줄이고 있다”라고 말했다.

데이터 전문가가 생성형 AI를 도입하는 비즈니스팀을 위해 데이터 검색과 트랜스포메이션을 지원하는 5가지 방법을 알아보자.

데이터 보안은 협상 불가

데이터 거버넌스에서 보안 과제는 점점 더 커지고 있다. 최근 한 독립적인 위험 관리 연구에 따르면, 2024년 기업 61%가 서드파티 데이터 침해 또는 보안 사고를 보고했다. 직전 해의 49%에서 더 증가했다. LLM 기능을 활용하는 비즈니스팀은 더 데이터 주도적으로 움직이고자 하며, 그에 따라 데이터 액세스 거버넌스는 기업을 보호하는 데 있어 중요한 첫 단계다.

프루프포인트 DSPM 그룹(Proofpoint DSPM Group)의 GVP 아메르 디바는 “데이터 환경을 수많은 방이 있는 저택이라고 생각해 보자. 모두가 열쇠를 원하지만 모든 방에 대한 마스터 키를 무턱대고 넘겨줄 수는 없다. 데이터 액세스 거버넌스의 핵심은 각 사용자에게 더도 말고 덜도 말고 정확히 필요한 키만 제공하는 것”이라고 말했다.

이어 “가장 먼저 할 일은 모든 데이터 자산을 찾아 카탈로그화해서 무엇이 어디에 저장되어 있고 각각의 민감도는 무엇인지 명확히 이해하는 것이다. 이 기반 인사이트를 갖추고 최소 권한 원칙을 적용해서 사용자가 필요한 데이터에만 액세스하도록 하고 제로 트러스트를 지원해서 가치 있고 민감한 정보에 대한 위험을 최소화할 수 있다”라고 조언했다.

기능에 대한 비즈니스 수요가 높은 만큼 데이터팀에는 비정형 데이터 보안 개선, 서드파티 위험 평가, AI 거버넌스 정책 정의와 같은 협상 불가능한 데이터 관행을 요구할 수 있는 기회가 훨씬 더 많다.

데이터 품질을 LLM 문서 처리로 확장

RAG와 LLM에서 비정형 데이터 소스를 사용하고자 하는 비즈니스팀이 증가하는 가운데, 데이터팀이 할 일은 비정형 데이터 소스가 데이터 정제, 준비, 카탈로그화를 거치도록 보장하는 것이다.

EDB의 분석, 데이터 및 AI 부문 엔지니어링 부문 VP인 제레미 켈웨이는 “업무의 미래는 데이터 정보에 근거한 의사 결정에 달려 있으며, 우선 순위는 데이터의 정확성과 적시성에 기반하는 경우가 많다. 데이터팀은 분석과 AI 애플리케이션에 공급되는 데이터가 기업의 목표를 제대로 반영하도록 해야 한다. RAG AI 애플리케이션에서 문서 준비는 유의미한 결과를 도출하는 데 있어 어느 데이터가 적합한지 판단하기 위한 중요한 단계”라고 말했다.

비정형 데이터를 위한 견고한 데이터 파이프라인을 만드는 단계에는 개체 추출, 감정 분석, 편향성 감지가 포함된다. LLM 기술이 등장하기 이전의 데이터 추출을 위한 자연어 처리에서는 문서 파싱, 키워드 검색, 감정 및 편향성을 위한 특수한 알고리즘 활용을 혼합해 사용해야 했다. 생성형 AI와 ML은 문서를 처리하는 더 고급 기능을 제공한다.

SADA의 데이터 과학자 콜린 디트리히는 “데이터 파이프라인의 모든 단계에서 AI를 활용하면 새로운 프로젝트를 바로 시작해서 더 빠르게 비즈니스 가치를 제공할 수 있다. AI/ML은 데이터 웨어하우징, 선별, 게시 프로세스의 전반에서 가속기 역할을 할 수 있다. 파생된 데이터 생성을 자동화하고 예측 알고리즘을 개선하고 자연어로 의사 결정 지원 제품을 더 강화할 수 있다”라고 설명했다.

데이터 중앙화로 시민 데이터 과학자에게 역량 부여

데이터팀은 보안 협상 불가와 LLM 문서 처리를 넘어 데이터 관리 전략과 더 쉽고 빠른 데이터 소스 액세스를 실현할 방법을 고민해야 한다. 아키텍트가 고려하는 데이터 관리 기술에는 데이터 웨어하우스, 데이터 레이크/레이크하우스, 데이터 패브릭이 포함된다. 어느 기술을 사용하든 핵심은 시민 데이터 과학자와 비즈니스팀을 위한 사용의 용이함이다.

IBM의 제품 관리 부문 VP 미드하트 샤히드는 “데이터 패브릭은 데이터 액세스를 간소화하고 실시간 분석을 위한 고품질 데이터를 실현하는 아키텍처 접근 방식이다. 시민 데이터 과학자를 지원해 팀의 업무 방식을 혁신하면서 사용자 친화적인 대시보드를 통해 더 많은 부서가 데이터를 생성, 액세스, 활용할 수 있도록 한다. 셀프 서비스 문화를 촉진함으로써 모든 부서가 데이터 주도 의사 결정에 기여하고 실천하여 데이터에 근거한 확장 가능한 비즈니스 문화를 구축하고 있다”라고 말했다.

LLM 이전에 시민 데이터 과학자의 주 사용례는 대시보드 개발, 새로운 데이터 소스에서 데이터 검색 단계 수행하기, 그리고 임시 쿼리 정도였다. 현재 비즈니스팀과 데이터 과학자의 요구는 RAG 개발, SaaS LLM에 지식 임베딩, AI 에이전트 활용을 포함해 더 확장됐다. 데이터팀에는 이런 사용례와 미래의 사용례에서 이용할 수 있는, 주 데이터 소스와 지식 저장소에 대한 API가 있어야 한다.

사이센스(Sisense) CEO 아리엘 캐츠는 “LLM 지식을 기업 데이터와 통합하면 예측 인사이트를 확보하고 실시간 의사 결정을 실현해서 정보 근로자를 선제적 의사 결정자이자 혁신의 촉매제로 바꿀 수 있다. 데이터팀은 게이트키퍼에서 이네이블러로 진화해서 복잡성을 추상화하고 프로코드, 로우코드, 노코드를 불문하고 모든 크리에이터가 간편히 분석을 임베딩할 수 있게 해주는 데이터 API 서비스를 제공해야 한다”라고 강조했다.

API는 데이터 소스 액세스만을 위한 것이 아니다. 데이터팀이 시각화 구성요소, ML 모델, RAG, AI 에이전트를 만들 때 서비스를 제공하기 위한 첫 번째 방법은 견고하고 사용하기 쉬운 API를 확보하는 것이어야 한다.

KNIME CEO 마이클 버톨드는 모델을 프로덕션에 배포하기 전에 데이터 품질과 액세스에 대한 가드레일을 마련하는 것이 중요하다면서 “기업은 모델이 예측을 잘못하거나 민감한 정보를 유출할 수 있음을 인식하고 있다. 효과적인 툴은 데이터 흐름, 모델 사용을 감독하고 이런 위험을 줄이기 위한 안전 장치를 추가하는 데 도움이 된다”라고 언급했다.

검색 간소화를 위한 데이터 마켓플레이스 구축

데이터팀은 시민 데이터 과학자를 최종 사용자 페르소나 중 하나로 고려해야 하지만, 기술적 숙련도가 상대적으로 낮은 다른 비즈니스 사용자 역시 데이터 소스를 검색하고 액세스할 수 있어야 한다. 데이터 카탈로그 사용과 데이터 사전 제작은 더 광범위한 데이터 액세스를 실현하기 위한 중요한 첫 단계다. 기업은 데이터 마켓플레이스를 구축하는 과정에서 셀프 서비스 데이터 및 AI 프로그램을 확장할 기회를 잡을 수 있다.

이뮤타(Immuta) 최고 제품 책임자인 모리츠 플라스니그는 “IT의 여러 계층과 거버넌스 관료주의는 데이터 액세스의 속도를 저하시키고 새로운 혁신의 가속화와 공급망 물류 개선, 혁신적인 AI 애플리케이션 배포를 어렵게 한다. AI 도입이 가속화되면서 핵심은 더 이상 킬러 앱이 아니다. 데이터가 새로운 앱이다. 데이터팀은 엔터프라이즈급 거버넌스와 보안을 제공하는 동시에 검색과 액세스를 자동화하는 내부 데이터 마켓플레이스를 육성함으로써 조직 누구나 데이터 소비자가 될 수 있도록 할 힘을 갖추고 있다”라고 말했다.

많은 부서별 사용례를 위한 여러 개의 주 대용량 데이터 소스를 통합해야 하는 산업에서 데이터 마켓플레이스는 가속화 역량이 될 수 있다. 제조, 건설, 에너지 및 기타 산업에 속한 기업은 데이터 카탈로그와 마켓플레이스를 사용해서 마케팅, 현장 운영, 공급망, 재무 및 기타 부서의 의사 결정을 위해 실시간 데이트 소스를 집계하고 그 사용을 간소화할 수 있다.

오거리(Augury)의 전략 부문 VP 아르템 크루페네프는 “데이터의 양은 풍부하지만 데이터를 탐색하기가 어려운 제조와 같은 산업에서 데이터팀은 필수적이다. 이들의 역할은 단순히 데이터를 운용할 수 있도록 하는 데 그치지 않고, 데이터 접근성과 사용 편의성, 영향을 보장함으로써 모두가 데이터 과학자가 될 수 있도록 지원하는 데 있다”라고 강조했다.

협업을 촉진하는 데이터 제품 개발

마켓플레이스의 용도가 데이터 소스를 검색하고 액세스하고 통합하는 데만 있는 것은 아니다. 데이터팀은 이제 고급 대시보드, ML 모델, LLM 역량, AI 에이전트를 데이터 제품으로 간주하고 제품 개발 이니셔티브로 관리할 수 있다. 제품마다 고객 세그먼트, 가치 제안, 전략적 목표가 정의되고 이는 비전 성명에 정의되고 제품 로드맵을 통해 관리될 수 있다.

아스트로노머(Astronomer)의 SVP 피트 디조이는 “데이터 제품 개념은 유행어에서 현대 데이터 중심 조직의 핵심 요소로 발전했다. 물리적 제품 및 공급망과의 유사함은 종단간 데이터 수명 주기를 명확히 해서 기술팀과 비기술팀 간의 커뮤니케이션 간극을 잇는 데 도움이 된다”라고 말했다.

더 많은 비즈니스팀이 데이터 중심적인 팀이 되고 비즈니스 역량으로서 AI의 중요성이 높아짐에 따라 데이터팀과 비즈니스팀을 구분하는 경계도 모호해지고 있다. 업무의 미래를 위해서는 데이터팀이 임무를 재정립하고 더 많은 부서와 사용례에 부합하는 강화된 데이터 거버넌스와 데이터옵스, 마켓플레이스, 데이터 제품을 제공해야 한다.
dl-itworldkorea@foundryco.com

관련자료

댓글 0
등록된 댓글이 없습니다.
Member Rank