에이전트 AI 프로젝트 40%가 실패하는 이유, 모델이 아니라 신뢰

작성자 Keiminem쪽지보내기 자기소개 아이디로 검색 전체게시물
작성일 2026.03.23 11:07

조회 502

AI 에이전트 시장은 2024년 51억 달러에서 2030년 470억 달러 이상으로 성장할 것으로 전망되지만, 가트너는 에이전트 AI 프로젝트의 40% 이상이 2027년 말까지 취소될 것으로 예측한다. 원인은 모델 역량이 아니다. 신뢰의 문제다.

전통적인 AI 평가는 모델이 독립 환경에서 얼마나 잘 작동하는지를 측정한다. 정확도 벤치마크, 지연 시간 지표, 토큰 효율성은 모델이 무엇을 할 수 있는지를 측정한다. 사용자가 에이전트에 행동을 위임할 만큼 신뢰하는지는 측정하지 않는다. 인포월드(InfoWorld)가 지적했듯, 신뢰성과 예측 가능성은 에이전트 AI의 기업 도입에서 여전히 최대 과제로 꼽힌다. 이는 모델 계층의 문제가 아니라 상호작용 계층의 문제이며, 평가에 대한 다른 접근 방식을 요구한다.

마이크로소프트와 시스코에서 AI 기반 협업 경험을 위한 사용자 리서치를 이끌어온 경험에서 일관된 패턴을 확인했다. 에이전트 AI에서 성과를 내는 팀은 모델 성능만이 아니라 사용자 관점에서 에이전트 행동을 평가한다는 점이다. 이하에서 그 구체적인 프레임워크를 소개한다.

평가의 공백

2024년 네이처 휴먼 비헤이비어(Nature Human Behaviour)에 게재된 메타 분석 연구는 106개 연구를 분석한 끝에 직관에 반하는 결과를 발견했다. 인간-AI 조합이 인간 단독 또는 AI 단독보다 성과가 낮은 경우가 많았다는 것이다. 성과 저하는 의사결정 과제에서 나타났고, 콘텐츠 창작에서는 오히려 성과가 높았다. 차이를 만든 것은 모델 품질이 아니라 인간과 AI 시스템이 상호작용하는 방식이었다.

에이전트 개발자들에게 직접적인 시사점이 있다. 표준 벤치마크는 상호작용 계층을 완전히 놓친다. 검색 벤치마크에서 완벽한 점수를 받은 에이전트도 불확실성을 신호로 전달하지 못하거나 사용자 의도에서 벗어난 방식으로 요청을 해석한다면 사용자에게는 실패한 도구가 된다.

깃허브와 액센추어의 연구도 이 복잡성을 뒷받침한다. AI 어시스턴트를 사용한 개발자들이 작업을 55% 빠르게 완료한 반면, 깃클리어(GitClear) 분석에서는 AI 생성 코드의 수정 빈도가 41% 높은 것으로 나타났다. 생산성 향상은 실재하지만, 기술적으로 유효한 결과물과 실용적으로 올바른 결과물 사이의 간극도 분명히 존재한다.

AI 평가가 측정해야 할 것의 재정의

벤치마크 성능과 사용자 신뢰 사이의 간극은 근본적인 질문을 던진다. 실제로 무엇을 평가해야 하는가. 전통적인 지표는 에이전트가 올바른 결과물을 냈는지를 알려준다. 사용자가 에이전트의 행동을 이해했는지, 결과를 신뢰했는지, 문제가 생겼을 때 수습할 수 있었는지는 알려주지 않는다.

바로 이 지점에서 사용자 경험 방법론이 핵심이 된다. 사용자 경험(UX) 리서치는 시스템이 실제로 하는 것과 사용자가 경험하는 것 사이의 간극에 항상 집중해왔다. 전통적인 소프트웨어에서 사용성 문제를 드러내는 방법론이 AI 에이전트에서는 신뢰 문제를 드러낸다. 상호작용 계층 평가는 이 시각을 에이전트 AI에 적용해 “모델이 잘 수행했는가”에서 “사용자 경험이 작동했는가”로 초점을 이동시킨다.

이 관점의 전환은 에이전트의 실제 성공을 좌우하는 세 가지 차원을 드러낸다.

에이전트는 사용자가 실제로 원하는 것을 이해하는가

가장 흔한 상호작용 실패는 전통적 평가에서 보이지 않는다. 에이전트가 사용자 의도와 다르게 요청을 해석하고, 그 해석에 맞는 합리적인 응답을 내놓아 모든 정확도 지표를 통과한다. 그러나 사용자는 요청하지 않은 결과물을 받는다.

이것이 의도 정렬 문제다. 에이전트의 해석이 기술적으로 유효했기 때문에 표준 평가로는 감지할 수 없다. 실패는 사용자가 의미한 것과 에이전트가 이해한 것 사이의 간극에만 존재한다.

효과적인 평가는 이 간극을 직접 측정한다. 사용자가 에이전트의 해석을 수정하는 빈도, 첫 번째 응답 후 작업을 포기하는 비율, 원래 의도를 명확히 하기 위해 요청을 재구성하는 횟수가 그 지표다. 이런 지표는 정확도 점수가 감추는 정렬 오류를 드러낸다.

주요 플랫폼도 이 과제를 인식하고 있다. 오픈AI의 오퍼레이터(Operator) 에이전트는 결과에 영향을 미치는 행동 전에 사용자 승인을 요구하는 명시적 확인 워크플로를 도입했다. 앤트로픽의 컴퓨터 사용 문서는 민감한 작업에 대한 사람의 검증을 권장하며, 정렬 오류가 발생할 것을 전제하고 복구 메커니즘을 설계한다. 마이크로소프트의 HAX 툴킷(HAX Toolkit)은 의도 정렬을 에이전트 행동 전 정확한 기대치 설정을 강조하는 18개 지침을 담은 설계 원칙으로 명문화했다. 구글의 제미나이는 API 수준의 안전 제어를 제공하되, 상호작용 계층의 확인은 구현 주체에 맡긴다.

에이전트는 자신이 모르는 것을 아는가

적절한 불확실성을 표현하는 에이전트는 신뢰를 얻는다. 실제 신뢰도와 무관하게 자신 있게 답하는 에이전트는 신뢰를 갉아먹는다. 그러나 표준 평가는 모든 결과물을 동일하게 취급한다. 맞거나 틀리거나, 그 사이의 단계는 없다.

이것이 신뢰도 보정 문제다. 사용자는 에이전트 결과물을 언제 믿고 언제 검증해야 하는지 알아야 한다. 보정된 불확실성 신호 없이는 신뢰할 수 없는 결과물에 지나치게 의존하거나, 모든 것을 일일이 확인하느라 시간을 낭비하게 된다.

효과적인 평가는 명시된 신뢰 수준이 실제 신뢰도를 예측하는지를 추적한다. 사용자가 높은 신뢰도 결과물을 낮은 신뢰도 결과물과 같은 비율로 무시한다면 보정이 깨진 것이다. 불확실성 지표와 무관하게 사용자가 무조건 승인한다면 신호가 제대로 전달되지 않는 것이다.

플랫폼별 접근 방식은 상당히 다르다. 앤트로픽은 클로드가 인식론적 불확실성을 명시적으로 표현하도록 훈련하며, 진정으로 불확실할 때 약 70%의 경우 답변을 거부한다고 문서에 명시했다. 오픈AI 모델은 단호한 응답을 우선시해 작업 완료 속도를 높이는 대신 환각 위험을 감수한다. 구글은 개발자가 토큰 수준의 신뢰도를 평가할 수 있도록 기술적 로그프로브(logprobs)를 제공하지만, 사용자에게 이를 노출하는 방식은 구현에 달려 있다. 마이크로소프트의 코파일럿(코파일럿) 연구에서는 AI 추천을 무비판적으로 수용하는 사용자보다 검증하는 사용자가 더 나은 의사결정을 내리는 것으로 나타났다.

사용자의 수정이 에이전트 행동에 대해 무엇을 말해주는가

사용자가 에이전트 결과물을 수정할 때마다 상호작용 계층이 어디서 실패하는지에 대한 신호가 생성된다. 표준 평가는 수정을 최소화해야 할 오류로 취급한다. 상호작용 계층 평가는 수정을 진단 데이터로 취급한다.

이것이 수정 패턴 문제다. 핵심 질문은 사용자가 얼마나 자주 에이전트를 수정하느냐가 아니라, 그 수정이 무엇을 드러내느냐다. 에이전트가 맥락을 잘못 이해했는가, 잘못된 가정을 적용했는가, 기술적으로는 맞지만 실용적으로는 쓸모없는 결과물을 냈는가.

효과적인 평가는 수정을 유형별로 분류하고 시간 흐름에 따른 추이를 추적한다. 특정 역량 영역에서 수정 비율이 높아진다면 체계적인 문제가 있다는 신호다. 사용자 전반에 걸쳐 일관된 패턴이 나타난다면 어떤 벤치마크로도 감지하지 못했을 공백이 존재한다는 뜻이다.

마이크로소프트 인프라 기반으로 구축된 링크드인(LinkedIn)의 에이전트 AI 플랫폼은 이를 체계적으로 포착한다. 생성된 모든 이메일은 편집 가능하고 사용자가 명시적으로 발송해야 하며, 수정 여부뿐 아니라 무엇을 바꿨는지까지 기록한다. 25만 명 이상의 실무자가 활용하는 구글의 PAIR 가이드북(PAIR Guidebook)은 사용자 수정을 모델이 사용자 멘탈 모델에서 벗어나는 지점을 파악하기 위한 학습 신호로 취급한다. 앤트로픽의 헌법적 AI(Constitutional AI)는 구조화된 피드백을 통해 모델 행동과 사용자 기대 사이의 체계적 간극을 파악하고, 단순히 실패를 표시하는 데 그치지 않고 모델 업데이트에 반영한다.

에이전트 평가를 강화하는 UX 리서치 방법론

전통적인 AI 평가는 자동화된 지표에 의존한다. 상호작용 계층 평가는 맥락 속에서 사용자 행동을 이해해야 한다. 엔지니어링 팀이 갖추지 못한 경우가 많은 UX 리서치 방법론이 필요한 이유다.

태스크 분석 : 에이전트에 평가 체크포인트가 필요한 지점을 찾는다. 구축 전에 사용자 워크플로를 매핑하면 의도 정렬 오류가 연쇄 실패로 이어지는 고위험 순간을 발견할 수 있다. 복잡한 워크플로 초반에 요청을 잘못 해석한 에이전트는 이후 단계마다 오류가 누적된다.
발화 사고(Think-aloud) : 프로토콜은 원격 측정으로는 보이지 않는 신뢰도 보정 실패를 드러낸다. 사용자가 에이전트와 상호작용하면서 추론 과정을 소리 내어 말할 때, 불확실성 신호가 제대로 전달되는지를 알 수 있다. 높은 신뢰도 결과물을 승인하면서 “맞는 것 같은데”라고 말하는 사용자는 자동화 편향을 드러내는 것이다. 로그 파일에는 기록되지 않고 관찰을 통해서만 포착된다.
수정 분류 체계 : 사용자 수정을 실행 가능한 제품 신호로 전환한다. 수정을 단일 지표로 집계하는 대신 유형별로 분류한다. 에이전트가 요청을 잘못 이해했는가, 잘못된 가정을 적용했는가, 기술적으로는 유효하지만 맥락상 틀린 결과물을 생성했는가. 유형마다 다른 개입 방향을 가리킨다.
신뢰 변화 추적을 위한 다이어리 연구 : 에이전트와의 초기 상호작용은 정착된 사용 패턴과 전혀 다른 모습을 보인다. 첫 주에는 에이전트에 지나치게 의존하다가, 둘째 주에 실패를 경험한 후 지나친 회의론으로 돌아서고, 넷째 주에는 에이전트가 실제로 할 수 있는 것에 대한 보정된 신뢰에 이르는 패턴이 나타날 수 있다. 단면적 사용성 테스트는 이 흐름을 놓친다. 종단적 다이어리 연구는 사용자가 에이전트의 실제 역량에 대한 멘탈 모델을 형성해 가는 과정에서 신뢰가 어떻게 보정되는지, 혹은 잘못 보정되는지를 포착한다.
현장 조사(Contextual inquiry) : 환경적 방해 요인을 드러낸다. 실험실 환경은 에이전트가 실제로 작동하는 혼돈스러운 현장을 정제해버린다. 실제 환경에서 사용자를 관찰하면 중단, 멀티태스킹, 시간 압박이 에이전트 결과물 해석 방식에 어떤 영향을 미치는지 드러난다. 조용한 테스트 환경에서는 명확하게 보이는 응답도 슬랙을 동시에 확인하는 상황에서는 혼란스러워질 수 있다.

즉각적인 피드백 수집도 중요하다. 상호작용 3일 후 사용자에게 느낌을 묻는다면 실제 경험이 아닌 합리화된 요약만 얻게 된다. 필자는 음성 AI 에이전트 평가 연구를 진행하면서 사용자에게 네 가지 서로 다른 과제로 4회 상호작용하게 하고, 매 과제 직후 즉각적으로 피드백을 수집했다. 대화 품질, 발화 교대, 톤 변화가 사용자와 AI 신뢰에 미치는 영향에 대한 피드백을 모았다.

이 순차적 구조는 단일 과제 평가가 놓치는 것을 포착한다. 발화 교대가 자연스럽게 느껴졌는가. 두 번째 과제의 단조로운 응답이 세 번째 과제에서 더 천천히 말하게 만들었는가. 네 번째 과제에 이르면 그 이전의 모든 경험에서 축적된 신뢰 또는 신뢰 훼손이 드러난다.

이 방법론들은 지표가 놓치는 실패 유형을 드러냄으로써 자동화된 평가를 보완한다. UX 리서치를 평가 주기에 통합한 팀은 신뢰 실패가 프로덕션에 도달하기 전에 이를 포착한다.

제품 개발에 AI 평가 내재화하기

데이터브릭스의 에이전트 평가 접근 방식, 즉 대규모 언어 모델 심사위원과 합성 데이터 생성을 병행하는 방식은 확장 가능한 방법론의 방향을 제시한다. 그러나 자동화된 평가만으로는 프로덕션 환경에서 사용자가 에이전트 행동을 어떻게 경험하는지를 파악할 수 없다.

효과적인 AI 제품 개발은 개발 주기 전반에 걸쳐 상호작용 계층 평가를 통합한다. 구축 후가 아닌 구축 전에 평가 기준을 정의해야 한다. 모델 성능이 아닌 사용자 행동을 측정할 수 있도록 설계해야 한다. 전통적인 가관측성(observability)은 지연 시간과 오류율을 포착하는 반면, 상호작용 계층 가관측성은 작업 이탈, 재구성 빈도, 사용자 수정의 성격을 포착한다.

오픈AI, 앤트로픽, 구글, 마이크로소프트의 파운데이션 모델을 기반으로 구축하는 팀이라면 평가를 API 수준 지표에서 멈춰서는 안 된다. 동일한 모델도 상호작용 계층이 역량과 한계를 사용자에게 어떻게 드러내느냐에 따라 성패가 갈린다.