“AI 환각은 불가피한 수학적 한계” 오픈AI 연구진 공식 인정
컨텐츠 정보
- 조회 443
본문
생성형 AI 업계를 대표하는 업체인 오픈AI가 자체 연구를 통해 LLM은 더 나은 데이터나 완벽한 설계에도 불구하고 항상 그럴듯하지만 잘못된 결과, 즉 환각을 만들어낼 수밖에 없다고 공식적으로 인정했다. 연구진은 기술적 개선으로 해결할 수 없는 근본적인 수학적 제약 때문이라고 원인을 밝혔다.
이 연구는 9월 4일 발표됐으며, 오픈AI 연구원인 아담 타우만 칼라이, 에드윈 장, 오피르 나춤과 조지아공과대학교 산토시 S. 벰팔라가 공동으로 주도했다. 연구진은 LLM이 완벽한 데이터로 훈련되더라도 왜 잘못된 정보를 생성하는지를 설명하는 수학적 틀을 제시했다.
논문은 “어려운 시험 문제에 직면한 학생처럼 LLM은 불확실할 때 추측을 하며, 그럴듯하지만 잘못된 답변을 내놓는다. 이런 환각은 최신 시스템에서도 지속되며 신뢰를 해친다”라고 지적했다.
이번 발표는 챗GPT를 만든 오픈AI의 입에서 직접 나왔다는 점에서 무게감이 크다. 챗GPT는 전 세계 수백만 사용자와 기업이 생성형 AI를 채택하도록 이끈 기폭제였다.
오픈AI 모델도 기본 테스트에서 실패
연구진은 환각이 구현 결함이 아니라 LLM 훈련의 통계적 속성에서 비롯됐음을 보여줬다. 논문은 “생성 오류율은 최소한 IIV 오분류율의 두 배에 달한다”라고 밝혔다. IIV는 “Is-It-Valid”의 약자로, 어떤 시스템도 일정 비율의 오류를 피할 수 없음을 수학적으로 입증했다.
이들은 최신 모델을 대상으로 실험을 진행했다. 예를 들어 “딥시크(DEEPSEEK)에 D가 몇 개 있나?”라는 질문에 DeepSeek-V3(6,000억 파라미터)는 10번의 독립적 실험에서 ‘2’ 또는 ‘3’을 답했으며, 메타 AI와 클로드 3.7 소네트 역시 유사한 결과를 내며 ‘6’이나 ‘7’ 같은 답을 내기도 했다.
오픈AI는 자사 모델에서도 같은 문제가 지속됨을 인정했다. 논문은 “챗GPT 역시 환각을 일으킨다. GPT-5는 특히 추론 영역에서 환각 빈도가 크게 줄었지만 완전히 사라지지는 않았다. 환각은 모든 LLM의 근본적인 과제”라고 밝혔다.
또한 단순한 모델보다 고급 추론 모델에서 오히려 환각 빈도가 더 높았다. 오픈AI의 o1 추론 모델은 공공 정보를 요약할 때 16%의 환각 비율을 보였고, o3와 o4-미니는 각각 33%, 48%에 달했다.
카운터포인트 테크놀로지의 연구 담당 부사장 닐 샤는 “인간 지능과 달리 불확실성을 인정하는 겸손함이 없다”며 “확신이 없을 때 심화 탐구나 인간 검증에 의존하지 않고, 추정을 사실처럼 제시한다”라고 지적했다.
연구진은 환각을 불가피하게 만드는 세 가지 수학적 요인을 제시했다. 훈련 데이터에서 드물게 등장하는 정보로 인한 인식 불확실성, 현재 아키텍처가 표현할 수 없는 한계를 넘어서는 과제, 암호학적 난제를 풀 수 없는 계산 불가능성이 그것이다.
산업계 평가 방식이 문제를 악화시켜
오픈AI 연구는 환각이 불가피하다는 사실을 증명하는 데 그치지 않고, 산업계 평가 방식이 문제를 심화시킨다고 분석했다. GPQA, MMLU-Pro, SWE-벤치를 비롯한 주요 벤치마크를 검토한 결과, 10개 중 9개 평가가 이진 채점 방식을 택해 “모른다”라는 답변에는 감점을 주고, 틀린 답이라도 자신감 있게 내면 보상을 주는 것으로 나타났다.
연구진은 “LLM이 환각을 일으키는 이유는 훈련과 평가 과정이 불확실성을 인정하기보다 추측을 보상하기 때문”이라고 지적했다.
포레스터의 부사장 찰리 다이는 컴퓨터월드와 인터뷰에서 “기업은 이미 생산 환경에서 모델 품질 문제로 어려움을 겪고 있다. 특히 금융, 헬스케어 같은 규제 산업에서 문제가 심각하다”라고 전했다.
연구진은 해결책으로 “명시적 신뢰도 목표”를 제시했지만, 수학적 제약 때문에 환각을 완전히 없애는 것은 불가능하다고 인정했다.
기업 전략 변화가 필요
여러 전문가는 AI 오류가 수학적으로 불가피하다는 사실이 새로운 기업 전략을 요구한다고 분석했다.
다이는 “거버넌스는 예방에서 위험 관리로 전환해야 한다”며 “사람이 개입하는 절차 강화, 분야 특화된 안전장치, 지속적인 모니터링이 필요하다”라고 강조했다. 이어 “현행 AI 위험 관리 프레임워크는 인식 불확실성을 과소평가하는 경우가 많아, 체계적 불확실성을 다루도록 개편이 필요하다”라고 덧붙였다.
샤는 자동차 안전 기준에 비유해 업계 전체의 평가 개혁을 제안했다. “자동차 부품이 ASIL 표준에 따라 등급을 받듯, AI 모델도 신뢰성과 위험 수준에 따라 국가·국제 단위의 동적 등급제를 도입해야 한다”라고 말했다.
두 전문가 모두 업체 선정 기준의 근본적인 개편이 필요하다고 입을 모았다. 다이는 “기업은 단순한 벤치마크 점수보다 교정된 신뢰도와 투명성을 우선시해야 한다”며 “불확실성 추정, 벤치마크를 넘어서는 평가, 실환경 검증을 제공하는 업체를 선택해야 한다”라고 조언했다.
샤는 “프롬프트 모호성, 맥락 이해, 출처 품질을 기준으로 모델 출력을 평가하는 실시간 신뢰 지수 같은 동적 평가 체계가 필요하다”라고 제안했다.
시장은 이미 적응 중
이러한 기업 우려는 학계 연구와도 일치했다. 하버드 케네디 스쿨 연구는 “예산, 처리량, 모호성, 맥락 민감성 때문에 환각을 걸러내는 게 어렵다”라고 밝혔다.
다이는 “평가 기준 개혁은 규제 압박, 기업 수요, 경쟁 차별화가 뒷받침될 때만 가능하다”며 과제가 쉽지 않다고 설명했다.
오픈AI 연구진은 이번 결과가 산업 전반의 평가 방법 변화로 이어져야 한다고 강조했다. 논문은 “이 변화는 더 신뢰할 수 있는 AI로 나아가는 길을 열 수 있다”라고 전했지만, “기술 발전과 무관하게 일정 수준의 불안정성은 항상 존재한다”는 점도 인정했다.
기업이 받아들여야 할 메시지는 명확하다. AI 환각은 일시적 엔지니어링 결함이 아니라 영구적인 수학적 현실이며, 새로운 거버넌스와 위험 관리 전략이 필요하다는 것이다.
dl-itworldkorea@foundryco.com
관련자료
-
링크
-
이전
-
다음






