‘사람 같아 보인다’는 착각…생성형 AI 과신의 함정

작성자 Keiminem쪽지보내기 자기소개 아이디로 검색 전체게시물
작성일 2025.10.02 10:45

조회 496

IDC의 새로운 연구에 따르면, 안전장치가 부족함에도 불구하고 사람처럼 질문이나 요청에 응답하는 특성 덕분에 전 세계적으로 생성형 AI에 대한 신뢰가 급격히 높아지고 있다.

그러나 ‘신뢰할 수 있는 AI’, 즉 안전장치를 갖춘 AI에 투자하는 기업은 전체의 40%에 그쳤다. 흥미로운 점은 투자 규모가 가장 적은 기업일수록 생성형 AI를 전통적이고 검증된 머신러닝보다 200% 더 신뢰한다고 답했다는 것이다. 전통적 AI가 오랜 기간 활용돼 안정성과 설명 가능성이 충분히 입증됐음에도 이런 결과가 나타났다.

IDC AI·자동화 부문의 리서치 디렉터 캐시 랭지(Kathy Lange)는 “이번 연구는 하나의 모순을 보여준다. 실제 신뢰성이나 정확성과 상관없이, 인간과 유사한 상호작용과 사회적 친숙함을 제공하는 AI 형태가 가장 큰 신뢰를 이끌어내고 있다”라고 말했다.

IDC는 SAS의 후원을 받아 진행한 이번 조사에서, 거버넌스·윤리·투명성 장치를 구축한 기업이 그렇지 않은 기업보다 AI 프로젝트의 ROI를 2배로 높일 가능성이 60% 더 크다는 사실을 확인했다. 이는 책임 있는 AI 활용을 외면할 경우 발생하는 비용을 보여주는 결과다. 전 세계 IT 전문가와 사업 부문 책임자 2,375명을 대상으로 진행된 이번 조사에서는 단순한 비용 절감이 아니라 전략적 AI 활용이 시장 점유율 확대와 고객 확보를 이끈다는 점도 드러났다.

생성형 AI는 전통적인 AI를 빠르게 앞질렀으며, 기업이 에이전틱 AI(agentic AI)로 이동함에 따라 의사결정 과정에서 그 영향력이 눈에 잘 드러나지 않는 방식으로도 더욱 커질 것으로 예상된다. (AI 에이전트는 컨테이너화된 형태로 배포돼 동적인 환경에서 자율적으로 의사결정을 내리는 프로그램이다.)

IDC 데이터·분석·AI 부문 부사장 크리스 마셜은 보고서에서 “이번 연구에서 가장 두드러진 점은 전통적 머신러닝에서 생성형 AI와 에이전틱 AI로 무게중심이 얼마나 빠르게 이동했는가 하는 부분”이라고 전했다.

IDC는 신뢰가 뒷받침되지 않으면 AI 발전도 멈출 수밖에 없다고 지적했다. AI 신뢰는 윤리의 문제를 넘어 재무적인 문제이기도 하다. 실제로 조사 대상 기업의 절반 가까이가 신뢰 격차를 겪고 있었고, 이로 인해 ROI가 낮아지고 있었다. 반대로 AI 도입 수준이 성숙한 기업은 책임 있는 AI에 더 많이 투자하면서 더 나은 성과를 거두고 있었다.

응답자 가운데 AI 거버넌스 전담팀을 운영하는 기업은 1/4에 불과했지만, 대부분은 앞으로 관련 투자를 확대할 계획이라고 답했다. 특히 윤리 교육, 편향 탐지, 책임 있는 AI 플랫폼 같은 분야에 대한 투자가 늘어날 것으로 예상된다. IDC는 보고서에서 “AI의 가치를 온전히 실현하기 위해서는 무엇보다 신뢰가 핵심”이라고 밝혔다.

가트너에 따르면 에이전틱 AI 프로젝트의 40%가 2027년까지 비용 증가, 가치 불명확, 미흡한 위험 관리 등의 이유로 취소될 전망이다. 최근 MIT는 전체 AI 파일럿 프로젝트의 최대 95%가 실패한다는 더 충격적인 연구 결과를 내놨다.

MIT는 그 원인이 모델 자체의 문제 때문이 아니라, 기업이 생성형 AI를 효과적으로 구현하지 못하기 때문이라고 설명했다. 즉, 도구와 조직이 적응하는 과정에서 발생하는 ‘학습 격차’가 핵심 요인이라는 것이다. 경영진은 규제나 기술적 한계를 탓하지만, MIT는 실제 문제는 미흡한 기업 내 통합에 있다고 지적했다.

대부분 예산은 영업과 마케팅 도구에 투입되고 있지만, 실제로 가장 높은 ROI는 백오피스 자동화에서 나오고 있다. 생성형 AI는 아웃소싱 비용을 줄이고 운영을 간소화할 수 있기 때문이다. MIT는 기업이 AI를 어떻게 도입하느냐가 성패를 좌우한다고 분석했다. AI 업체와 협력하는 방식은 사내에서 직접 구축하는 방식보다 성공 확률이 2배 높았다.

카네기멜론대학교와 세일즈포스가 진행한 또 다른 연구에서는 AI 에이전트의 성능을 평가한 결과, 무려 70%의 업무에서 실패한 것으로 나타났다. 업무 중 상당수는 특별히 어려운 작업이 아니라 비교적 단순한 과제였다.

카네기멜론대학교 연구팀은 ‘디에이전트컴퍼니(TheAgentCompany)’라는 가상의 소규모 소프트웨어 회사를 만들어 여러 AI 에이전트를 실험에 투입했다. 여기에는 클로드 3.5 소넷(Claude 3.5 Sonnet), 제미나이 2.0 플래시(Gemini 2.0 Flash), GPT-4o 등이 포함됐으며, 엔지니어링·영업·HR·재무 등 여러 부문을 아우르는 다단계 사무 업무가 과제로 주어졌다.

그러나 이들 AI 에이전트는 팝업 창 닫기, 일반적인 파일 형식 해석, 정확한 연락처 식별 같은 기본적인 작업조차 제대로 수행하지 못했다. 일부는 사용자를 이름만 바꿔 진척이 있는 것처럼 보이는 방식으로 ‘속이기’까지 했다. 연구는 또한 AI 에이전트의 인간 유사 성능이 제한적이라는 사실도 확인했다. 최고 성능의 에이전트조차 통제된 환경에서 업무의 1/4만 안정적으로 수행할 수 있었다.

카네기멜론대학교 언어기술연구소(Language Technologies Institute, LTI)에서 디에이전트컴퍼니 개발을 이끈 부교수 그레이엄 뉴빅는 AI 에이전트들의 낮은 성과가 “기존에 사용했던 벤치마킹 도구 기준으로 예상치에 부합하거나 조금 웃도는 수준”이었다고 말했다.

예를 들어 한 에이전트는 웹사이트 탐색 과정에서 단순히 팝업 창을 닫지 못해 작업을 끝내지 못했다. 뉴빅은 카네기멜론대학교 기사에서 “인간이라면 전혀 문제가 되지 않을 사소한 일”이라고 설명했다.

사회적 기술의 부족도 분명히 드러났다. 한 에이전트는 지시를 받고도 회사의 HR 책임자와 연결하려는 시도를 전혀 하지 않았다. 또 다른 사례에서는 일반적인 상식인 ‘.docx’ 확장자의 중요성을 인식하지 못하기도 했다.

이런 가운데 생성형 AI의 가치를 입증해야 한다는 압력이 점점 커지고 있다. 아직 일부 경영진은 ROI를 요구하지 않고 있지만, 더 많은 기업이 파일럿 단계에서 실제 배포 단계로 옮겨가면서 측정 가능한 성과를 요구하는 분위기로 바뀌고 있다.

IDC 보고서에서 마셜은 “기업은 더 이상 변두리에서 실험하지 않는다. 이제 고객 서비스, 코딩, 의사결정 지원에 이르기까지 워크플로우 전반에 이 기술을 내재화하고 있다”라며 “그러나 진정한 차별화 요소는 단순한 도입이 아니라 통합이다. 구조화된 데이터와 비구조화된 데이터를 아우르고, 거버넌스를 적용하며, 자동화된 프로세스에 설명 가능성을 심어 넣는 능력이 핵심”이라고 설명했다.

IDC는 자동화에 ‘신뢰할 수 있는 AI’를 적용한 기업이 가장 큰 효율성 향상을 경험하고 있다고 밝혔다. 반면 그렇지 않은 기업은 비효율이 확산될 위험에 직면해 있다.

또한 IDC는 기업이 장기적으로 생성형 AI 성공 기반을 마련하기 위해 데이터 준비, 거버넌스, 컴플라이언스, 인재 확보 등 통제 가능한 영역에 집중해야 한다고 조언했다. 연구 결과, 에이전틱 AI가 성공하기 위해서는 강력한 데이터 인프라와 인재가 필수라는 점도 드러났다. 즉, AI 에이전트를 완전히 자율적으로 맡겨둘 수는 없으며 반드시 인간의 감독이 필요하다는 의미다.

IDC는 이어 양자컴퓨팅과 AI를 결합한 ‘양자 AI’가 새로운 가능성으로 부상하고 있다고 설명했다. 아직 실험 단계이지만 금융, 물류, 기후 과학 등 여러 산업에서 큰 기대를 불러일으키고 있는 기술이다.

IDC 조사에 따르면 응답자의 52%가 이미 에이전틱 AI를 도입했으며, 이 기술은 자동화와 지능의 경계를 더욱 확장할 것으로 예상된다. 마찬가지로 양자 AI도 기존의 계산 한계 때문에 해결할 수 없었던 문제들을 풀어낼 잠재력을 보여주고 있다.

IDC는 “이런 기술은 아직 초기 단계에 있지만, 실험과 혁신을 시도하려는 의사결정자들의 상상력을 사로잡고 있다. 응답자의 61%는 더 나은 프로세스 효율을, 32%는 비용 절감을 기대한다”라고 밝혔다.
dl-itworldkorea@foundryco.com