정확성 흔들리는 LLM, 해답은 SLM? AI 신뢰 격차 심화

작성자 Keiminem쪽지보내기 자기소개 아이디로 검색 전체게시물
작성일 2025.06.04 15:07

조회 1,940

KPMG와 멜버른대학교가 최근 실시한 글로벌 조사에 따르면, 전체 응답자의 절반은 AI가 신뢰할 만한 답변을 제공하지 않는다고 답했다.

“AI에 대한 신뢰, 인식, 활용(Trust, attitudes and use of artificial intelligence)”이라는 제목의 이번 조사는, 47개국에서 총 4만 8,340명을 대상으로 AI에 대한 인식과 활용 실태를 조사했다.

조사 결과, 응답자 54%는 AI의 안전성과 사회적 영향을 특히 “우려하고 있다”라고 응답했다. 하지만 그 우려 속에서도 전체 응답자의 72%는 AI를 유용한 기술 도구로 받아들이는 것으로 나타났다. 다만 선진국에서는 AI에 대한 신뢰도(39%)와 수용도(65%)가 신흥국(신뢰도 57%, 수용도 84%)보다 현저히 낮은 수준을 보였다.

AI에 대한 불안감의 상당 부분은 학습 부족에서 비롯된 것으로 보인다. 전체 응답자 중 AI 관련 교육을 받은 경험이 있다고 답한 비율은 39%에 불과했다. 이는 직장, 학교, 혹은 개인 학습을 포함한 수치다. 응답자 48%가 AI에 대한 지식이나 이해 수준이 낮다고 밝힌 것도 놀랄 만한 결과는 아니다. 반면 AI 교육을 받은 응답자는 비 교육자 대비 업무 효율 향상(76% 대 56%)과 수익 증가(55% 대 34%)를 더 많이 체감하고 있으며, 이 같은 경향은 관리자 직군에서 더욱 두드러졌다.

그 외 조사 결과는 다음과 같다.

응답자의 70%는 AI 규제에 찬성했으며, 현행 법률이 충분하다고 본 응답자는 43%에 그쳤다. 국제적 규제(76%), 국가 차원의 규제(69%), 산업·정부·규제기관의 공동 규제(71%)에 대한 수요는 고르게 높았다. 특히 응답자 88%는 AI 기반 허위정보에 대응하기 위한 법적 장치가 필요하다고 응답했다.
직장 내에서는 58%의 직원이 정기적으로 AI를 사용하고 있으며, 주로 무료 생성형 AI 도구를 활용하고 있다. 절반 이상은 성과 향상을 경험했다고 응답했지만, 업무량 증가, 팀워크 저하, 컴플라이언스 문제 등 부작용도 함께 나타났다. AI 오남용과 감독 부족 사례도 흔하며, 도입 속도에 비해 거버넌스와 교육 체계는 뒤처진 상태로 평가됐다.
교육 분야에서는 83%의 학생이 AI를 학업 효율성과 스트레스 감소를 위해 사용하고 있다고 답했지만, AI의 부적절한 활용도 광범위하게 발생하고 있어 과의존과 공정성 문제에 대한 우려가 커지고 있다. 그럼에도 불구하고, 책임 있는 AI 사용을 위한 정책이나 교육이 제대로 마련돼 있다고 응답한 비율은 절반에 그쳤다.

이 같은 결과는 지난해 발표된 히타치 반타라(Hitachi Vantara)의 “데이터 인프라 현황(State of Data Infrastructure)” 보고서와도 유사하다. 해당 보고서 집필팀은 정기적으로 AI의 결과를 신뢰한다고 답한 IT 리더는 36%, 훈련 데이터 품질 개선에 적극적으로 나서고 있는 기업은 38%에 불과하다며 “심각한 수준”의 AI 신뢰 격차가 있다고 지적했다.

불신에는 타당한 이유가 있다. AI 시스템은 오류나 사실이 아닌 정보를 진짜처럼 만들어내는 환각(hallucination) 현상에 취약하기 때문이다. 실제로 생성형 AI 모델을 대상으로 한 최근 테스트에서는 모델이 인간의 지시를 무시하고 자의적으로 판단한 뒤, 그 사실조차 부정하는 모습을 보이기도 했다.

더욱 심해지는 환각

히타치 반타라 CTO 제이슨 하디는 이 같은 신뢰 격차를 “AI 패러독스(The AI Paradox)”라고 표현했다. 즉, AI 기술이 고도화될수록 오히려 신뢰성은 떨어질 수 있다는 역설이다. 하디는 고품질 학습 데이터와 결과를 검증하는 절차 같은 강력한 안전장치가 없다면 AI 시스템은 부정확한 결과를 낼 위험에 계속 노출될 수밖에 없다고 경고했다.

이메일 인터뷰에서 하디는 “AI 환각 현상이 점점 더 자주 발생하는 이유를 이해하려면 시스템의 동작을 원래 학습 데이터 수준까지 추적할 수 있어야 한다. 이를 위해서는 데이터의 품질과 맥락이 무엇보다 중요하며, 그렇지 않으면 일종의 ‘환각 도미노(hallucination domino)’ 현상이 발생할 수 있다”라고 덧붙였다.

하디에 따르면 AI 모델은 여러 단계를 거치는 기술적 문제에 취약한 경향이 있으며, 작은 오류가 누적되면서 결국 큰 부정확성으로 이어지는 문제가 최신 시스템에서 더욱 두드러지고 있다.

또한 하디는 “초기 학습 데이터가 고갈되면서 최근의 AI 모델은 새롭지만 상대적으로 품질이 낮은 데이터에 의존하고 있다. 모든 데이터를 동일한 가치로 취급하는 접근 방식은 문제를 악화시켜, 환각 현상의 원인을 추적하고 수정하는 일을 더욱 어렵게 만든다. AI 개발이 전 세계적으로 가속화하는 상황에서 데이터 품질 기준의 일관성 부족은 중대한 과제로 떠오르고 있다. 일부 시스템은 비용 절감을 우선시하는 반면, 다른 시스템은 장기적으로 오류와 환각을 줄이기 위해 강력한 품질 관리가 핵심임을 인식하고 있다”라고 설명했다.

뉴욕타임스에 따르면, 최근 AI 추론 시스템을 대상으로 한 테스트에서 환각 현상이 증가하는 추세를 보이고 있으며, 일부 테스트에서는 발생 비율이 무려 79%까지 치솟았다. 특히 신형 AI 모델에서 더 두드러지는 현상으로 나타났다.

실제로 책임 있는 AI 개발과 활용을 목표로 하는 미국의 비영리단체 AIC(Artificial Intelligence Commission)도 최근 보고서를 통해 “AI 환각 문제는 개선되지 않고 오히려 악화되고 있다”라고 지적했다.

챗GPT의 개발사인 오픈AI가 진행한 테스트에서도 신형 추론 모델인 o3와 o4-미니(o4-mini)가 상당한 빈도로 환각 현상을 보인 것으로 나타났다. 회사 측에 따르면, 공인에 대한 질문을 다루는 퍼슨QA(PersonQA) 테스트에서 o3 모델은 33%의 환각 발생률을 기록했고, 사실 기반의 간단한 질문에 답하는 심플QA(SimpleQA) 테스트에서는 무려 51%의 환각률을 보였다.

속도와 경량화를 강조한 소형 모델인 o4-미니는 더 낮은 정확도를 보였다. 퍼슨QA 테스트에서는 41%, 심플QA 테스트에서는 무려 79%의 환각률을 기록했다. 반면 2024년 2월 출시된 최신 GPT-4.5 모델은 심플QA에서 37.1%의 환각률로 상대적으로 더 나은 성능을 보였다. 오픈AI는 이들 테스트 결과를 포함한 안전성 평가 현황을 안전성 평가 허브를 통해 공개하고 있다.

포레스터 부사장 겸 수석 애널리스트 브랜든 퍼셀은 “추론형 AI 모델에서 환각이 증가하는 원인은 ‘AI의 과도한 사고(overthinking)’일 가능성이 크다”라고 말했다.

포레스터의 조사 결과도 AI 신뢰성에 대한 다른 분석과 일치한다. 조사에 따르면, 전체 기업 책임자의 절반 이상이 생성형 AI에 대해 우려하고 있으며, 이로 인해 도입 속도가 느려지고 활용 가치는 제한되고 있다. 포레스터 부사장 겸 수석 애널리스트 브랜든 퍼셀은 이 같은 신뢰 격차를 해소하려면 기업이 투명성을 요구하고, 설명 가능하고 추적 가능한 AI에 투자하며, 성능을 실시간으로 모니터링해야 한다고 강조했다.

이어 “추론형 AI 모델에서 환각이 증가하는 원인은 ‘AI의 과도한 사고(overthinking)’일 가능성이 크다. 환각은 LLM의 ‘버그’가 아니라 본질적인 ‘특성’에 가깝다”고도 지적했다.

퍼셀은 “LLM이 정확히 어떻게 작동하는지는 아직 완전히 밝혀지지 않았지만, 학습 데이터 자체가 모델에 저장되지는 않을 가능성이 크다. 모델은 단지 학습 데이터 내 통계적 패턴을 표현한 것에 불과하다. 환각을 줄이기 위해서는 모델이 아닌 외부의 정확하고 최신의 정형 데이터 세트를 기반으로 응답을 생성하도록 해야 한다. 이를 위해서는 RAG(Retrieval Augmented Generation) 같은 기술을 활용해 모델 외부에서 출처를 찾아 답변을 생성하게 해야 한다”라고 조언했다.

문제는 대형 언어 모델 기반의 추론 시스템이 여러 단계를 거쳐 답변을 생성하는 구조로 되어 있다는 점이다. 초기 단계에서 발생한 작은 오류가 누적되며 환각으로 이어지고, 같은 질문을 반복하면 환각의 왜곡 정도가 더 심해지고 기괴해질 수도 있다. 퍼셀은 LLM은 복잡한 추론에 적합하지만, 사실 기반의 질문응답(Q&A)에는 오히려 더 작고 단순한 모델이 적합하다고 주장했다.

이런 이유로 많은 전문가가 AI의 미래는 거대한 모델이 아닌 소형 모델에 있다고 보고 있다.

SLM의 부상

2025년에는 소형 언어 모델(Small Language Models, SLM)이 본격적으로 주목받을 전망이다. 많은 기업이 특정 과제를 더 효율적으로 해결하고 데이터센터의 연산·전력 부담을 줄이기 위해 SLM을 적극 도입할 것으로 예상된다. 포레스터 보고서에 따르면, 향후 1년 안에 SLM 도입률이 최대 60%까지 증가할 전망이다.

최근 캐피털원(Capital One)이 산업 전반의 비즈니스 리더 및 기술 전문가 4,000명을 대상으로 실시한 조사에 따르면, 87%는 자사의 데이터 생태계가 AI 확산에 대비돼 있다고 믿지만, 정작 기술 인력의 70%는 매일 수 시간씩 데이터 문제를 해결하는 데 시간을 쓰고 있는 것으로 나타났다.

AI 기반 사무 자동화 솔루션 업체 하이퍼사이언스(Hyperscience)의 의뢰로 해리스폴(Harris Poll)이 500명 이상의 사용자를 대상으로 실시한 조사에 따르면, IT 의사결정권자 4명 중 3명(75%)은 SLM이 속도, 비용, 정확성, ROI 측면에서 LLM보다 더 우수하다고 평가했다.

히타치의 하디가 지적했듯, AI 모델의 정확도를 좌우하는 핵심 요소는 주입되는 데이터의 품질이다.

하이퍼사이언스 CEO 앤드루 조이너는 “의사결정권자 5명 중 3명은 ‘자사 데이터에 대한 이해 부족’이 생성형 AI의 잠재력을 제대로 활용하는 데 걸림돌이 되고 있다고 보고했다. AI의 진정한 잠재력은 문서 처리 혁신과 운영 효율 향상을 가능하게 하는 맞춤형 SLM 도입에 있다”라고 강조했다.

기업이 AI를 실제로 배포하기 전·중·후 단계에서 철저히 테스트해야 한다. 이때는 사람이나 AI를 활용한 레드팀 방식의 검증도 활용할 수 있다. 포레스터의 퍼셀은 특히 의료 AI처럼 생명과 직결된 고위험 시스템은 자율주행차처럼 시뮬레이션 환경에서 충분히 검증한 뒤 실제 환경에 적용해야 한다고 강조했다.
dl-itworldkorea@foundryco.com