News Feed

생각하지 않는 AI에 ‘생각’을 맡기는 기업들

컨텐츠 정보

  • 조회 609

본문

많은 C레벨 경영진과 현업 부서 임원이 생성형 AI의 효율성과 유연성에만 집중하고, 이 기술이 얼마나 자주 틀린 답을 내놓는지에는 관심을 두지 않는다. 하지만 IT 의사결정권자만큼은 그렇게 해서는 안 된다.

단순히 환각 문제만의 이야기가 아니다. 물론 환각이 점점 더 자주 발생한다는 점은 우려스러운 일이다. 그러나 생성형 AI의 신뢰성 부족은 다음 4가지 범주에 속하는 여러 요소에 기인한다.

  • 환각 문제. 생성형 AI 도구가 존재하지 않는 내용을 스스로 지어내는 경우를 말한다.
  • 불량한 학습 데이터. 양이 부족하거나, 오래됐거나, 편향돼 있거나, 품질이 낮은 데이터를 의미한다.
  • 쿼리 지침 무시. 이는 종종 학습 데이터에 내재된 편향이 종종 그대로 드러나는 결과로 나타난다.
  • 제어 장치(가드레일) 무시. 수십억 달러의 라이선스 비용을 지불했다면 AI 모델이 최소한 지시된 대로 행동하길 기대할 법하지만, 현실은 그렇지 않다.

예를 들어, 회사에서 문제를 일으킨 직원과 그 직원의 팀장이 대표의 사무실에 불려 가 함께 이야기를 나누는 장면을 떠올려보자.

대표 : “요즘 정말 뛰어난 성과를 내고 있어요. 동료들보다 훨씬 빠르게 일하고 있고 짧은 시간 안에 익힌 업무의 양도 놀랍습니다. 하지만 지난 한 달 동안 당신이 제출한 보고서에서 사실이 아닌 내용을 20번이나 확인했습니다. 이런 행동은 용납할 수 없습니다. 다시는 그러지 않겠다고 약속한다면, 이번 일은 넘어가겠습니다.”

팀장 : “사실 말이죠, 대표님. 이 직원은 원래 그런 성향이 좀 있습니다. 앞으로도 계속 사실이 아닌 이야기를 지어낼 겁니다. 그러니까, 네, 이런 일은 사라지지 않을 겁니다. 솔직히 말씀드리면, 이런 일이 더 자주 생기지 않을 거라고 확신도 못 하겠습니다.”

대표 : “좋아요, 그건 넘어가죠. 그런데 제가 알기로는 이 직원이 당신의 지시를 반복적으로 무시하고 자기 멋대로 행동했다고 들었습니다. 적어도 그런 행동은 멈추게 할 수 있겠습니까?”

팀장 : “아니요. 원래 그런 스타일입니다. 그건 채용할 때부터 알고 있었습니다.”

대표 : “좋습니다. 그런데 이번 달에만 3번이나 이 직원이 최고 기밀 접근 권한이 필요한 제한 구역에 들어간 게 확인됐습니다. 최소한 우리 보안 규정은 지키게 할 수 있겠습니까?”

팀장 : “안 됩니다. 그리고 올해만 라이선스 비용으로 58억 달러를 쓴 상황이라, 이제 와서 되돌아가기엔 너무 많이 투자했습니다.”

대표 : “좋습니다. 계속하시죠.”

현재 생성형 AI와 관련해 발생할 수 있는 문제를 인간 직원에 빗대어 표현한 것이다. 이런 상황이 발생할 수 있음에도 불구하고 지금 수많은 기업이 이런 방식으로 행동하고 있다. 그렇기 때문에 지난 3월 NASA(US National Aeronautics and Space Administration)에서 발표한 보고서는 특히 중요한 의미가 있다.

NASA는 생성형 AI가 중요한 연구 작업에서는 신뢰할 수 있는 도구가 되지 못한다는 결론을 내렸다.

NASA 보고서 집필팀은 이번 평가의 목적에 대해 “이번 평가는 수용할 수 없는 위험을 초래하는 시스템을 걸러내기 위한 것이었다. 위험할 수 있는 시스템을 충분한 안전 분석과 엔지니어링 절차 없이 서비스에 투입하지 않는 것처럼, 안전한 엔지니어링과 인증이라는 중요한 작업에 적합하다고 믿을만한 근거 없이 기술을 규제 프로세스에 도입해서는 안 된다”라고 밝혔다.

이어 “LLM이 안전성 입증을 위한 주장을 작성하거나 검토하는 기술인지 의문이 제기된다. LLM은 사고하는 기계가 아니라, 그럴듯하게 꾸며낸 말을 생성하는 기계다. 그러나 안전성 향상이나 비용 절감을 위해 자동화돼야 하는 작업은 바로 ‘사고하는 능력’이다”라고 강조했다.

사고하지 못하는 AI를 신뢰할 수 있는가?

NASA 보고서는 과학적 논리의 예시를 보여주며 생성형 AI 모델이 실제로 어떤 용도로 쓰일 수 있는지에 대해 근본적인 의문을 제기했다.

NASA 연구팀은 “제안된 LLM 기반 자동화 기술이 실제로 적합한지를 확인하는 방법으로 실증 연구를 거치는 대신, 그냥 실전에 투입해 보고 어떻게 되는지를 지켜보는 방식이 있다는 점도 분명 언급할 필요가 있다. 사실 이런 접근 방식은 과거에도 종종 시도돼 왔다. 특히 항공 산업 초기 역사에서 그러했다”라고 밝혔다.

이어 NASA 연구팀은 “여기서 두 가지 질문을 던져볼 필요가 있다. (1) 더 익숙한 기존의 검증 방식이 있는데, 검증되지 않은 방법을 사용하는 것이 과연 정당화될 수 있는가? (2) 그리고 그 방식이 제대로 작동하고 있는지를 어떻게 알 수 있는가? 첫 번째 질문에 대한 답은 결국 해당 기술이 적용되는 구체적인 맥락과, 그 기술이 실패했을 때 발생할 수 있는 피해 수준을 어느 정도까지 감내할 수 있는지에 달려 있다. 실패를 감당할 수 있는 상황이라면, 아직 검증되지 않은 기술을 시도해 볼 수 있는 여지는 더 커진다”라고 설명했다.

이어 보고서는 이런 실험적 접근 방식에 내재된 논리적 모순을 지적했다. “두 번째 질문으로 돌아가 보면, 또 하나의 문제가 생긴다. 상대적으로 덜 중요한 시스템에 대해서는 모니터링도 중요한 시스템보다 덜 엄격하게 이뤄진다. 결국, 새로운 프로세스를 시험해 볼 수 있는 여지가 가장 큰 분야일수록, 정작 그 실험이 얼마나 잘 작동했는지에 대한 신뢰할 만한 피드백은 가장 적게 제공되는 셈이다”라고 설명했다.

또한 연구팀은 이런 종류의 모델이 특정 상황에서 어떤 결정이 잘못된 선택일 수 있다는 사실을 스스로 인식할 수 있을 것이라고 가정하는 것 자체가 잘못된 전제라고 지적하며, “실제로 가장 엉터리거나 오해를 불러일으킬 가능성이 큰 경우는 바로 예외적인 상황, 즉 코너 케이스다. LLM은 원칙에 따라 추론하지 않기 때문에, 특정 상황에서 기존의 추론 방식이 적용되지 않는다는 점을 파악할 능력이 없다”라고 말했다.

예를 들어 연구팀은 “ISO 26262 스타일의 자동차 안전성 논리를 학습한 LLM은 인간과 달리 ‘잠수 기능이 있는 로터스 차량’이 일반 승용차나 소형 SUV와는 완전히 다른 종류의 차량이라는 사실을 인지하지 못한다. 따라서 이 LLM은 업계 표준 방수 등급과 같은 기준이 해당 차량에는 적용되지 않을 수 있다는 사실 역시 파악하지 못한다”라고 설명했다.

NASA 연구팀의 논리적 질문은 모든 기업에 똑같이 적용돼야 한다. 민감하고 중요한 업무의 특성상 생성형 AI를 도입할 수 없고, 반대로 위험도가 낮은 업무는 모니터링이 거의 이뤄지지 않아 실험 환경으로도 적절하지 않다면, 과연 생성형 AI는 어디에 활용해야 하는가?

무엇보다 중요한 건 이성적인 판단

가트너 애널리스트 로렌 코누틱은 이런 판단이 쉽지 않을 수 있다는 점에 동의하면서 CIO가 반드시 주도권을 쥐고 “이성의 목소리” 역할을 해야 한다고 강조했다.

코누틱은 “일반적으로 엔터프라이즈 기술 프로젝트는 비즈니스의 기대와 현실이 어긋날 때 실패하기 쉽다. 그렇기에 누군가는 이성적인 목소리를 내야 한다. CIO가 그 역할을 맡아야 하며, 단순히 눈에 띄는 최신 기술을 쫓기보다 실질적인 해결책을 이끌어야 한다. 물론 이런 논의는 매우 까다롭고 어려운 대화가 될 수 있다”라고 말했다.

이어 “이런 문제는 C레벨 차원에서 논의해 향후 방향을 결정해야 한다. 이 위험을 감수할 것인가? 감수한다면 무엇과 맞바꾸는가? 이 위험은 기대 수익률과 비교했을 때 어떤 수준인가? 경영진은 각자의 위험 수용 범위를 조율하고, 이를 이사회에 공유하는 방식으로 움직여야 한다”라고 조언했다.

포레스터 수석 애널리스트 로언 커런은 훨씬 더 실질적인 접근 방안을 제안했다. 커런은 각 사업 부문이 생성형 AI를 어디에, 어떻게 활용할지 논의하는 초기 단계에서 IT 의사결정권자가 훨씬 더 깊이 관여해야 한다고 역설했다.

커런은 “각 부서가 추진하려는 새로운 활용례를 아주 구체적으로 들여다봐야 한다. 거버넌스를 훨씬 앞단으로 끌어당겨야 한다. 즉, 활용례를 기획할 때부터 IT가 개입해 위험을 함께 판단하고, 데이터 거버넌스 통제 기준을 설정해야 한다”라고 말했다.

커런은 생성형 AI가 제공하는 데이터를 출발점 그 이상으로 받아들이지 말아야 한다며 “정확한 답을 얻기 위한 수단으로 생성형 AI에 의존해서는 안 된다”라고 강조했다.

다시 말해, 생성형 AI를 지나치게 신뢰하게 되면 매일매일이 만우절처럼 엉뚱한 결과로 이어질 수 있다.
dl-itworldkorea@foundryco.com

관련자료

댓글 0
등록된 댓글이 없습니다.
Member Rank