생성형 AI의 기술적 한계에서 기업을 지키는 방법

작성자 Keiminem쪽지보내기 자기소개 아이디로 검색 전체게시물
작성일 2025.04.09 14:27

조회 669

환각, 불완전한 학습 데이터, 질의의 세부 내용을 무시하거나 안전장치를 우회할 수 있는 특성 등이 결합돼 생성형 AI가 잘못된 결과물을 생성할 수 있다는 우려는 일반적으로 과소평가되곤 한다.

메이요 클리닉(Mayo Clinic)은 이런 문제에 정면으로 대응하려 한다. 메이요 클리닉의 의학 책임자인 매튜 콜스트롬은 최근 한 인터뷰에서 “메이요는 ‘대표 클러스터링(Clustering Using Representatives, CURE)’ 알고리즘을 LLM과 벡터 데이터베이스와 결합해, 데이터 검색 결과를 이중으로 검증하고 있다”라고 설명했다.

콜스트롬의 설명에 따르면, CURE 알고리즘은 다른 데이터와 일치하지 않는 이상치나 데이터 포인트를 감지할 수 있다. 메이요 클리닉은 CURE 알고리즘을 ‘역 RAG(reverse RAG)’ 방식과 결합해 자사 LLM이 생성한 요약을 개별 사실 단위로 분해한 뒤, 이를 다시 원본 문서와 대조하도록 구성했다. 이후 두 번째 LLM은 해당 사실이 실제 출처와 얼마나 잘 일치하는지를 점수화한다. 두 정보 사이에 인과관계가 있는지도 중점적으로 평가한다. (본지는 콜스트롬과의 인터뷰를 위해 직접 접촉했지만 응답을 받을 수 없었다.)

AI의 신뢰성, 사람과 AI 중 누가 감시해야 하는가?

생성형 AI의 신뢰성 부족 문제를 완화하는 접근법은 크게 2가지 범주로 나뉜다. 하나는 휴먼 인 더 루프(human in the loop, HITL) 즉, 사람이 검증하는 구조이고 다른 하나는 AI가 AI를 감시하는 구조다.

생성형 AI가 만들어낸 결과물을 더 많은 사람이 모니터링하는 방식이 일반적으로 더 안전한 접근으로 여겨지지만, 이는 생성형AI의 핵심 가치인 “대규모 효율성”을 약화하는 결과를 초래한다. 이 효율성 덕분에 직원을 더 전략적인 업무에 재배치할 수 있다는 주장과, 인력 자체를 대폭 줄일 수 있다는 조심스러운 관측이 나온다.

일반적인 엔터프라이즈 규모에서는 생성형 AI의 효율성만으로 수천 명의 업무를 대체할 수 있다. 여기에 사람의 검증 단계를 추가하더라도 수십 명 수준이면 충분할 수 있다. 결국 숫자만 놓고 보면 여전히 경제적인 계산이 성립한다.

AI가 AI를 감시하는 방식은 불안할 것 같지만 실제로 많은 기업이 이 방식을 시도하고 있다. 일부는 생성형 AI 처리를 외부 파트너에게 맡겨 향후 발생할 수 있는 책임을 떠넘기려 하고 있으며, 또 다른 기업은 정확도를 높이기 위해 제3자에 비용을 지불하는 방식을 택하고 있다. 이런 움직임을 보면 자연스럽게 떠오르는 표현이 있다. 바로 ‘밑 빠진 독에 돈 붓기’다.

생성형 AI의 신뢰성을 내부적으로 개선할 효과적인 방법이 부족하다는 점은 빠르게 승인된 수많은 PoC 프로젝트가 실제 프로덕션 단계로 이어지지 못한 핵심적인 이유다.

사람이든 AI든 실수한다

현재로서는 생성형 AI 결과물을 감시하기 위해 사람을 더 많이 투입하는 방식이 우세한 해법으로 받아들여지는 분위기다. 조지 메이슨 대학교 자율로봇센터(George Mason University professor and director of Mason’s Autonomy and Robotics Center) 소장 미시 커밍스는 “사람이 반드시 옆에서 감시해야 한다. AI가 AI를 감시하는 방식은 실패할 수밖에 없다. 하지만 사람들은 이 기술이 가진 가능성을 믿고 싶어 하기 때문에 결국 그런 방식을 사용할 것이다. 생성형 AI 시스템의 과도한 자신감에 쉽게 현혹되기 마련이다”라고 지적했다.

커밍스는 이런 현상을 자율주행차를 운전할 때의 경험과 비유했다. “AI 성능이 꽤 괜찮고 실제로 잘 작동할 수 있다. 하지만 잠깐이라도 주의를 놓는 순간, 큰 사고로 이어질 수 있다. 더 큰 문제는 사람들이 AI에 대해 비정상적인 안도감, 즉 방심한다는 점이다”라고 말했다.

포레스터 수석 애널리스트 로언 커런은 메이요 클리닉의 접근 방식이 일정 부분 타당성을 가질 수 있다고 평가했다. 커런은 “입력과 출력을 비교해 얼마나 밀접하게 일치하는지를 확인하는 것이 중요하다”라고 말했다.

커런은 응답의 객관적 진실을 식별하는 것도 중요하지만, 모델이 실제로 질문에 직접 답하려고 시도하고 있는지, 질문의 모든 요소를 반영하고 있는지를 살펴보는 것도 그에 못지않게 중요하다고 강조했다. 만약 시스템이 제시한 응답이 실질적으로 질문에 부합하지 않는다고 판단되면, 해당 응답은 그 이유만으로도 무시해도 된다는 것이다.

또 다른 생성형 AI 전문가인 ID 관리 솔루션 업체 세일포인트(Sailpoint)의 CISO 렉스 부스는 “LLM에 스스로의 한계에 대해 더 많이 설명하도록 요구하는 것만으로도 출력 결과의 신뢰성을 높이는 데 큰 도움이 될 수 있다”라고 말했다.

예를 들어, 환각 현상 대부분은 모델이 방대한 데이터베이스에서 정답을 찾지 못할 때 발생한다. 이럴 경우 시스템이 단순히 “모르겠다”라거나, 좀 더 체면을 지키는 방식으로 “내가 학습한 데이터에는 해당 내용이 포함돼 있지 않다”라고 말하도록 설정된다면, 출력 결과에 대한 신뢰도는 오히려 높아질 수 있다.

부스는 데이터의 최신성에도 주목했다. 예를 들어, 질문이 2025년 4월에 발생한 일에 대해 묻는 것인데 모델의 학습 데이터가 2024년 12월까지만 반영돼 있다면, 그 사실을 솔직히 밝히는 것이 옳다는 것이다. 하지만 부스는 “모델은 자신의 데이터가 그렇게 제한적이라는 사실조차 표시하지 않는다”라고 지적했다. 또한 “에이전트가 다른 에이전트를 검증하는 구조”는 각 에이전트에게 명확히 분리된 역할이 주어질 경우 충분히 효과적으로 작동할 수 있다고 설명했다.

하지만 IT 의사결정권자는 이런 역할 분담이나 경계가 항상 제대로 지켜질 것이라고 가정하면 안 된다. 부스는 “규칙이 제대로 설정돼 있고 지켜질 거라고 믿어서는 안 된다. 인간이든 AI 에이전트든 결국은 규칙을 벗어나기 마련이다. 중요한 것은 그런 일이 벌어졌을 때 이를 감지할 수 있는 능력”이라고 말했다.

조직적·전략적 전환도 중요하다

생성형 AI의 신뢰성을 높이기 위한 또 다른 유력한 방안으로는 최고경영진, 특히 이사회가 감내할 수 있는 위험 수준을 명확히 합의하고, 이를 문서화해 공식적으로 공개하는 방식이다. 이상적인 시나리오에서는 이런 절차를 통해 경영진과 임원들은 생성형 AI 도입에 따른 위험을 보다 진지하게 검토하고 어떤 문제가 발생할 수 있으며, 그 피해 규모가 어느 정도일지를 스스로 따져보는 기회가 된다.

ABI 리서치(ABI Research) 수석 애널리스트 리스 헤이든은 최고경영진이 생성형 AI의 위험을 얼마나 제대로 이해하고 있는지에 대해 회의적인 입장을 보였다. 헤이든은 “경영진은 생성형 AI의 이점을 분명히 인식하고 있고, 오류 가능이 10% 정도 있다는 점도 있다. 하지만 이를 마치 인간이 저지르는 실수처럼 작고 회복 가능한 오류로 받아들인다. 알고리즘이 한 번 잘못된 방향으로 작동하기 시작하면, 인간보다 훨씬 심각한 수준의 오류를 초래할 수 있다”라고 경고했다.

인간은 종종 자신의 작업을 부분적으로 점검하며 오류를 잡아낸다. 하지만 헤이든은 “생성형 AI에 대해 이런 식의 부분 점검은 통하지 않는다. 하나의 답변이 정확하다고 해서 다른 답변도 정확하다는 보장은 전혀 없다”라고 지적했다.

이어 생성형 AI의 신뢰성 문제는 기업 환경 자체가 이 기술에 맞게 바뀌지 않는 이상 쉽게 해결되지 않을 수 있다고 덧붙였다.

AI 업체 트레던스(Tredence)의 CSO 소멘드라 모한티는 “더 근본적인 문제는 대부분 기업이 생성형 AI 모델을 마치 마법 상자처럼 여기며, 지저분하고 불완전하며 오래된 시스템 속에서도 완벽하게 작동하길 기대한다는 점이다. 생성형 AI 모델이 환각을 일으키는 이유는 모델 자체에 결함이 있어서가 아니라, 애초에 기계가 판단을 내리도록 설계되지 않은 환경에서 사용되고 있기 때문”이라고 설명했다.

모한티는 “이런 문제를 극복하려면 CIO가 모델 자체를 관리하는 데서 벗어나, 모델을 둘러싼 시스템 전체를 관리하는 방식으로 전환해야 한다. 데이터가 흐르는 방식, AI가 비즈니스 프로세스에 통합되는 방식, 그리고 의사결정이 이뤄지고 검증되고 개선되는 방식을 근본적으로 다시 설계해야 한다”라고 강조했다.

예를 들어 계약서를 요약하는 생성형 AI는 단순히 요약만 생성해서는 안 된다. 어떤 조항을 표시해야 하는지 검증하고, 누락된 항목을 강조하며, 승인된 출처에서 정의를 가져오는 기능까지 수행해야 한다. 이것이 바로 ‘의사결정 엔지니어링(Decision Engineering)’이다. 단순히 프롬프트를 입력하는 것이 아니라, AI가 어떤 경로를 따라가야 하는지, 어떤 한계를 지켜야 하는지, 어떤 규칙에 따라 출력을 내야 하는지를 설계하는 작업이다.

경영진이 이런 문제를 직시하길 꺼리는 데는 심리적인 이유도 있다. 생성형 AI 모델 라이선스에는 큰 비용이 든다. 이미 큰돈을 들여 기술을 도입한 상황에서, 결과의 신뢰성을 높이기 위해 추가 비용까지 투자하는 일에는 저항이 생기기 마련이다.

그럼에도 불구하고 생성형 AI의 핵심은 결국 ‘결과를 제대로 내는 것’에 있다. 잘 작동하는 부분만 볼 것이 아니라, 제대로 되지 않는 부분도 직시하고 해결해야 한다는 의미다. 잘못된 답변이나 오류가 있는 결과가 드러났을 때 이를 고치는 데에는 비용이 들 수밖에 없다.

달갑지 않은 일일 수 있지만 꼭 필요한 일이다. 그렇지 않으면 생성형 AI의 이점을 누렸다며 찬사를 받던 기업은 훗날 발생하는 오류에 대해서 비난의 화살을 맞게 될 것이다. 이는 결국 기업의 신뢰와 직결된 문제다. 신중한 판단이 필요하다.
dl-itworldkorea@foundryco.com