AI 에이전트는 나쁜 데이터도 그냥 쓴다…데이터 정제가 시급한 이유
컨텐츠 정보
- 조회 136
본문
기업은 언제나 환경 내 불량 데이터를 처리해야 했다. 누군가 절차를 무시하고 지름길을 택했거나, 아무도 손대기 두려워하는 낡은 데이터베이스가 방치됐거나, 지난 10년간 수십 건의 인수합병 과정에서 흡수된 시스템끼리 충돌을 일으킨 것이 그 원인이다. AI 환경에서는 이런 데이터 문제가 걷잡을 수 없이 커진다. 더 이상 외면하는 것은 선택지가 될 수 없다.
2월 28일 미군의 이란 여학교 폭격 사례를 보자. 최소 165명이 사망했으며 대부분 어린이였다. 뉴욕타임스에 따르면, 군 조사관들은 오폭의 원인을 불량 데이터로 지목했다. 이 건물은 수년 전 이란 군이 사용했던 곳이었다. 10년 전 군사 시설에서 분리돼 학교로 전환됐지만, 미국 정보 기록에는 아무도 업데이트하지 않았다. AI 기반 타격 시스템이 해당 건물을 폭격 대상으로 선택한 이유다.
뉴욕타임스는 “미국 중부사령부 장교들이 국방정보국이 제공한 구식 데이터를 사용해 타격 좌표를 생성했다”라고 보도했다. “군사 표적 선정은 매우 복잡하며 여러 기관이 관여한다. 다수의 장교가 데이터 정확성을 검증할 책임이 있었고, 중부사령부 장교들은 국방정보국 등 정보기관으로부터 받은 정보를 확인할 의무가 있었다. 그러나 전쟁 초기처럼 상황이 빠르게 전개될 때는 정보가 검증되지 않는 경우도 있다.”
분명히 해 둘 점은 조사 결과 학교 폭격의 책임은 AI에 있지 않다는 것이다. 오류는 잘못된 데이터와 검증을 소홀히 한 사람에게서 비롯됐다. 가디언은 “미국이 폭격한 학교는 이란 사업체 목록에 등재돼 있었고, 구글 맵에서도 확인할 수 있었다. 검색 엔진으로 조금만 찾아봤어도 알 수 있었지만, 아무도 검색하지 않았다”라고 지적했다.
이는 대규모 동시 공격을 수행하는 거대 군사 기업과 수십억 비트의 데이터를 생성형 AI나 자율 에이전트로 처리하는 기업 모두가 직면한 현실적인 문제로 이어진다. 모든 데이터 포인트를 일일이 검증하는 것은 사실상 불가능하다.
AI 도입의 핵심 강점은 인간 팀이 처리할 수 없는 규모의 페타바이트급 데이터를 다룰 수 있다는 점임을 기억해야 한다.
학교 폭격 같은 비극은 극단적인 사례지만, AI가 접근 가능한 데이터는 무엇이든 활용한다는 우려를 다시 한번 상기시켜 준다. 자율 시스템의 경우 특히 위험하다. 데이터가 정확하다고 가정하고 이를 토대로 의사결정을 내리고 행동에 옮기기 때문이다. 병원이 검사 결과를 분석하거나, 유통업체가 상품 구색 수요를 예측하거나, 제조업체가 향후 프로젝트에 필요한 원자재 수량을 추산할 때도 마찬가지다.
IT 전문가는 이 문제를 잘 알고 있다. 수십 가지 이유로 구식이거나 결함이 있는 데이터가 시스템에 남아 있다. 처음에 어떻게 유입됐는지도 파악하고 있다. 납득하기 어렵지만 그렇다고 이해 못 할 바도 아닌 것은, 왜 아무도 전체 데이터를 검증하고 불량 데이터를 제거하려 하지 않느냐는 점이다.
IT 리더는 이미 67개에 달하는 진행 중인 프로젝트를 저울질하느라 바쁘다. 전 사업부, 비즈니스 유닛, 글로벌 자회사에 걸친 페타바이트급 데이터를 심층 분석해 불량 데이터를 솎아내는 작업이 IT 책임자의 우선순위 목록 상단에 오를 리 없다.
이런 작업은 생성형 AI에 맡기기 딱 좋은 과제로 보이기 쉽다. 하지만 데이터를 검증하는 과정에서 AI가 환각을 일으킨다면 어떻게 될까?
상황은 더 나빠질 수 있다. 이 데이터 중 상당수는 인수한 기업의 데이터베이스를 흡수하는 과정에서 시스템에 유입됐다. 인수 직후 수개월간은 매출 흐름을 유지하기 위해 처리해야 할 일이 산더미다. 데이터베이스의 유효성 검증은 대개 후순위로 밀린다.
그런데 지금은, 더 이상 담당 팀도 남아 있지 않은 상태에서 그 데이터가 흡수된 지 수년이 지났다. 오래된 데이터의 정확성을 의미 있게 평가할 수 있는 절차가 과연 존재할까. 평가를 미룰수록 환경 전반에 오류가 퍼질 가능성은 커진다.
IT 워킹그룹은 다양한 기준을 활용해 이런 데이터를 솎아낼 수 있다. 오래된 데이터의 정확성을 일일이 판별하는 것이 아니라, 일괄 삭제할 수 있는 대규모 데이터 덩어리를 식별하는 방식이다. 예를 들면 이렇다. “작성된 지 10년 이상 된 잠재 고객 목록은 유효한 데이터가 거의 남아 있지 않을 가능성이 높으므로 자동 삭제한다.”
컨설팅 기업 악셀리전스(Acceligence) COO 데이비드 노이만은 기업이 최대한 오래 보존해야 할 데이터베이스도 따로 식별해야 한다고 강조했다. 노이만은 “기상 데이터 등 과학 데이터가 대표적인 사례”라고 덧붙였다.
다시 에이전트 시스템 이야기로 돌아온다. 자율 에이전트가 복잡한 작업을 수행하고 모호한 답을 찾기 위해 기업 환경을 샅샅이 뒤질 때, 불량 데이터와 마주치면 그대로 활용한다.
데이터 정제가 시급한 이유가 바로 여기에 있다. 5년 전이었다면 불량 데이터는 작업 속도를 늦출 수는 있어도, 많은 직원이 접근해 의존하는 상황은 드물었다. AI 에이전트는 다르다. 별도의 지시가 없는 한, 모든 데이터를 유효한 것으로 간주한다.
가속화된 AI 시스템, 특히 자율 시스템의 혜택을 누리고 싶다면, 사업 부문 프로젝트에서 인력을 빼내서라도 에이전트가 불량 데이터를 발견하기 전에 먼저 찾아내고 제거할 방법을 강구해야 한다.
dl-itworldkorea@foundryco.com
관련자료
-
링크
-
이전
-
다음






