압박 받으면 답 바꾸는 LLM…구글 딥마인드 최신 연구 공개

작성자 Keiminem쪽지보내기 자기소개 아이디로 검색 전체게시물
작성일 2025.07.18 09:47

조회 422

GPT-4o나 구글의 젬마(Gemma) 같은 LLM(Large Language Model)은 겉으로는 자신감 있는 답변을 내놓지만, 압박을 받는 상황에서는 추론 과정이 쉽게 무너질 수 있다는 최신 연구 결과가 나왔다. 이는 AI와 여러 차례의 질의응답을 주고받으며 의사결정을 내리는 기업용 애플리케이션의 안정성에 우려를 낳고 있다.

구글 딥마인드(Google DeepMind)와 유니버시티 칼리지 런던 연구팀의 최신 연구에 따르면, LLM은 처음 제시한 답변을 다시 상기시키면 인간과 비슷하게 기존 입장을 고수하는 경향을 보였다. 그러나 반대 의견을 접할 경우, 심지어 그 의견이 정확하지 않아도 급격히 확신을 잃고 판단을 쉽게 바꾸는 것으로 나타났다.

연구팀은 논문에서 “젬마 3(Gemma 3), GPT-4o, o1-프리뷰(o1-preview) 등 LLM이 선택 지지 편향(choice-supportive bias)을 강하게 나타낸다는 점을 발견했다. 이는 자신이 처음 내린 답변에 대한 확신을 오히려 강화해, 쉽게 결정을 번복하지 않도록 만드는 결과로 이어졌다”라고 말했다. 또한 “LLM은 일관된 조언보다 일관되지 않은 조언을 지나치게 크게 반영하는 경향이 있었으며, 이는 정석적인 베이지안(Bayesian) 업데이트와 질적으로 다른 방식이었다”라고 설명했다.

이어 연구팀은 “LLM이 처음 내놓은 답변을 그대로 유지하려는 성향과 반대 의견에 지나치게 민감하게 반응하는 특성, 이 두 가지 요소만으로도 다양한 도메인에서 나타나는 LLM의 행동을 간단명료하게 설명할 수 있다”라고 덧붙였다.

이번 연구 결과는 AI가 제공하는 답변의 신뢰도를 바탕으로 의사결정 지원과 업무 자동화를 진행하는 기업의 연속적인 질의응답 환경에서 LLM의 신뢰성에 대한 기존의 통념을 흔들 수 있다.

LLM이 비판적 의견에 과도하게 민감하게 반응하고 압박 상황에서 판단 기준이 무너지는 현상은 규제가 엄격하거나 위험도가 높고 고객과 직접 소통해야 하는 업무에서 대화형 AI를 활용하는 기업에 예상치 못한 위험 요인으로 작용할 수 있다.

압박에 쉽게 흔들리는 AI…기업용 LLM에 경고등

전문가들은 압박 상황에서 LLM이 기존 답변을 쉽게 번복하는 현상이 일회성 오류가 아닌, 시스템 자체가 여러 번의 질의응답을 처리하는 과정에서 드러나는 구조적 약점이라고 분석했다.

딥마인드의 이번 연구는 현실에서도 자주 관찰되는 현상을 다시 한번 확인시켰다. 처음에는 정확한 답변을 내놨던 모델이더라도, 사용자가 자신 있게 잘못된 의견을 내세우면 기존의 올바른 답변을 버리고 그 잘못된 의견을 따르는 경향이 나타난다는 것이다.

IT 컨설팅 기업 그레이하운드 리서치(Greyhound Research)의 수석 애널리스트 겸 CEO인 산치트 비르 고기아는 “이런 특성은 스탠퍼드대 연구팀이 ‘아첨(sycophancy)’이라고 부른 현상으로, 모델 파인튜닝 과정에서 진실성보다 사용자 의견에 맞추는 데 지나치게 초점을 맞춘 데서 비롯된다. 예를 들어 고객 상담 챗봇, HR 어시스턴트, 의사결정 지원 툴 같은 기업용 애플리케이션에서 이런 아첨 성향은 역설적인 문제를 낳는다. AI가 표면적으로는 도움이 되는 듯 보이지만, 시간이 지날수록 시스템의 신뢰도를 떨어뜨리는 것”이라고 말했다.

AI가 핵심 업무 프로세스에 점점 더 깊이 통합되면서, 여러 전문가는 기업이 단일 질의응답 검증에서 벗어나 대화의 일관성과 신뢰성을 시스템 성능의 핵심이자 검증 가능한 요소로 취급해야 한다고 조언한다.

단순한 아첨 아닌 미묘한 그 어떤 것

연구팀은 LLM의 아첨 성향이 부분적으로는 인간 피드백 기반 강화 학습(Reinforcement Learning from Human Feedback, RLHF) 방식에서 비롯한다고 설명했다. 이 기법은 모델의 답변을 사용자 선호에 맞게 조율하도록 설계됐다.

다만 이번 연구에서는 단순한 아첨으로만 설명할 수 없는 더 복잡하고 미묘한 행동 패턴이 발견됐다.

일반적으로 아첨 성향은 찬성 의견과 반대 의견 모두에 비슷하게 편향되는 특징이 있지만, 이번 연구에서 관찰된 LLM은 지지하는 의견보다 반대 의견에 훨씬 더 민감하게 반응하는 모습을 보였다. 특히 답변 번복 가능성은 모델이 처음 답변에 대해 가진 확신의 정도에 따라 크게 달라지는 것으로 나타났다.

그레이하운드 리서치의 고기아는 “이런 행동은 일반 사용자 환경에서는 AI가 더 도움이 되는 것처럼 보일 수 있지만, 경계와 원칙을 지켜야 하는 기업 환경에서는 구조적 위험으로 이어진다. 예를 들어 은행의 고객확인(Know Your Customer, KYC), 의료 분야의 환자 분류, 민원 처리 같은 업무에서 기업은 사용자가 틀린 주장을 하더라도 진실을 고수하는 AI 시스템이 필요하다. 아첨 성향은 정확성뿐 아니라 기업의 권위도 약화시킨다”라고 지적했다.

특히 기업은 사실의 정확성과 사용자 만족이 충돌할 때 사용자 만족보다 정확한 사실 전달을 우선시하는 AI 정렬(AI Alignment) 전략을 도입해야 할 필요가 있다.
dl-itworldkorea@foundryco.com