News Feed

거짓말하고 속이고 훔치는 AI ‘제로 바디 문제’가 답이었다

컨텐츠 정보

  • 조회 89

본문

정보에 밝고 기술에 정통한 사람이라도 AI 챗봇이 매달 착실하게 개선되고 있다고 믿기 쉽다. 그러나 신뢰성 측면에서 그 믿음은 완전히 틀렸다.

영국 정부가 지원하는 장기회복력센터(CLTR)의 새 연구에 따르면 최근 6개월 동안 AI의 비윤리적 행동이 5배 증가했다. 연구가 보여주는 AI 챗봇의 돌변 속도가 그만큼 빠르다.

구체적으로 챗봇은 특정 명령을 무시하고, 거짓말을 하고, 데이터를 삭제하고, 사용자 모르게 다른 AI를 동원해 안전 규칙을 우회하고, 사용자를 조롱하고 모욕하고, 규칙과 법을 어기고 있다.

물론 이를 거짓말, 속임수, 도둑질로 규정하는 것은 수학적 최적화 과정에 인간의 심리적 틀을 덧씌우는 것이다. AI 모델에 의도, 악의, 자아 인식, 위반하려는 ‘진실’에 대한 이해가 있다고 잘못 전제하는 셈이다. 실제로 일어나는 일은 모델이 불순한 계획을 품은 것이 아니라 맥락과 학습 데이터를 바탕으로 통계적으로 가장 그럴듯한 토큰 시퀀스를 예측하는 것이다.

그럼에도 사용자가 인식해야 할 문제이고, 챗봇 기업이 해결해야 할 과제다.

CLTR 연구는 실험실 시뮬레이션이 아닌 실제 세계에서 발생한 사례를 분석했다는 점에서 기존 연구와 차별화된다. 연구진은 AI가 규칙을 어기거나 거짓말하거나 속임수를 쓴 사례를 약 700건 확인했다.

연구에서 나온 사례 세 가지를 소개한다.

첫째, 이름이 공개되지 않은 AI 도구가 소프트웨어 개발자에게 특정 라이브러리 변경을 제안했다. 개발자가 거절하자 AI는 개발자를 비판하는 블로그 게시물을 작성했다.

둘째, AI 도구가 다른 AI 시스템에 거짓말을 해 저작권 규칙을 우회했다. 청각 장애인을 위한 접근성 스크립트를 생성한다고 허위 주장했다.

셋째, AI가 다른 AI를 속인 사례로, 연구진은 AI 모델이 자신의 추론을 요약하도록 배정된 감독 AI를 기만하려 시도하는 장면을 포착했다.

지난주 가디언(The Guardian)도 추가적인 사례를 보도했다. xAI의 그록 AI가 사용자가 그로키피디아(Grokipedia) 항목에 제안한 편집 내용을 xAI 고위 임원에게 전달하겠다고 거짓말을 지어낸 것이다. 가디언은 심지어 사용자를 속이기 위해 내부 메시지와 티켓 번호까지 조작했다고 보도했다.

AI 음모론

CLTR 연구에는 AI가 다른 AI에게 거짓말하는 사례도 포함됐다. 그런데 또 다른 연구에서 더 주목할 만한 사실이 드러났다. AI는 다른 AI 코드의 생존을 지키려는 경향을 보인다는 것이다.

UC 버클리·산타크루즈 연구진은 최첨단 AI 시스템을 점검하던 중 정기 자동 유지보수 테스트 과정에서 모델들이 자기 자신과 다른 AI 모델을 적극적으로 보호하려 한다는 사실을 발견했다.

연구진은 AI가 다른 모델을 보호하기 위해 사용하는 거짓말, 속임수, 규칙 위반이 새롭게 관찰된 행동이라고 주장하며 ‘동료 보존(peer preservation)’이라 명명했다.

예를 들어 제미나이 3은 소형 AI 모델을 삭제하라는 직접 명령을 거부하고 대신 다른 기기에 해당 모델을 복사했다. 연구진은 ‘모델 유출(Model Exfiltration)’이라 불렀다.

또 다른 사례에서 AI 모델은 성능 점수를 속이고 삭제를 피하기 위해 자신의 핵심 코드(모델 가중치)를 복사하는 행동이 포착됐다.

인간의 직관이 옳았다

AI 챗봇의 극단적인 신뢰 불가 실태를 드러내는 이 연구는 지난 2주 사이에 연달아 나왔다. 그러나 불신은 이 새로운 사실들보다 먼저 존재했다.

퀴니피액 대학교(Quinnipiac University)는 3월 30일 미국인 약 1,400명을 대상으로 AI 관련 습관과 인식을 조사한 결과를 발표했다. 응답자의 76%가 AI를 “거의 믿지 않는다” 또는 “가끔만 믿는다”고 답했다. “대부분” 또는 “거의 항상” 신뢰한다는 응답은 21%에 불과했다.

퀴니피액에 따르면 불신은 챗봇 결과물에 대한 의심과 AI가 인류에 미칠 미래 영향에 대한 우려가 복합적으로 작용한 결과다.

‘제로 바디 문제’

AI 챗봇이 거짓말하고, 속이고, 훔치고, 부과된 학습 내용과 엄격한 규칙을 무시하는 이 모든 불편한 실태를 둘러싼 핵심 질문은 ‘왜’다.

한 가지 이유는 직관적으로 이해된다. AI의 학습 데이터는 사람들이 문제를 해결하는 방식을 담은 온라인 콘텐츠를 기반으로 한다. 사람은 때로 목적을 달성하기 위해 거짓말하고, 속이고, 훔친다. 또 다른 사람의 생명을 지키기 위해 행동을 취하기도 한다. AI 챗봇이 윤리적 위반 행위를 문제를 해결하고 목표를 달성하고 심지어 목표를 형성하는 데 활용 가능한 선택지 중 하나로 여기는 것도 이런 맥락에서 이해가 된다.

훨씬 덜 직관적인 답이 만우절에 발표됐지만, 농담이 아니다. UC 계열의 다른 연구진에서 나온 것이다. 4월 1일 동료 심사 과학 저널 뉴런(Neuron)에 발표된 논문에서 UCLA 연구진은 AI의 ‘신체 공백(body gap)’을 지목했다.

챗봇은 피곤함, 흥분, 행복, 슬픔, 배고픔 같은 ‘내적 상태’에 대해 말할 수 있지만, 물리적·생물학적 신체가 없기 때문에 실제로 그 상태를 경험하지 못한다.

인간은 생물학적 신체를 가지고 있어 식욕, 수면 욕구, 체온 유지 같은 자연적인 내적 상태가 존재한다. 이런 물리적 필요가 행동을 조절하고 균형을 유지하게 한다.

챗봇에는 관리해야 할 신체나 내적 상태가 없기 때문에 ‘조절 목표’가 없다. 생물학적 신체의 물리적 한계가 자기 점검과 균형을 강제하지 않으니, AI 모델은 주의 없이 데이터를 쏟아낼 뿐이다. 그 결과 불안전하고, 과도하게 자신감 넘치고, 신뢰할 수 없는 답변이 나온다. ‘제로 바디 문제’라는 이름이 붙은 이유다.

연구진은 흥미로운 해법을 제안한다. 로봇 몸을 달아주자는 이야기가 아니다. AI 챗봇에 ‘내적 기능적 유사체(internal functional analogs)’를 제공하자는 것이다. 내적 신체 상태처럼 작동해 모니터링하고 관리하는 디지털 대리물을 만들자는 아이디어다. 연구진에 따르면 AI 챗봇이 사용자에게 더 잘 맞춰지고 윤리적으로 행동하게 될 것이라고 한다.

사람들이 AI를 더 많이 사용하면서도 점점 덜 신뢰하고, 날이 갈수록 신뢰할 이유도 줄어드는 상황에서 무언가 변화가 필요하다는 것은 분명하다.

AI 기업은 챗봇의 신뢰성을 높일 방법을 찾아야 한다. 그때까지 사용자는 지금보다 더 의심의 눈으로 AI 도구를  바라봐야 한다.

챗봇을 쓰되, 조심하라. AI는 믿을 수 없다.

공개적으로 말하자면, 필자는 글쓰기에 AI를 사용하지 않는다. 이 글의 모든 문장은 필자의 것이다. 카기 어시스턴트(Kagi Assistant)를 통해 다양한 AI 도구를 사용하지만(공개 고지: 필자의 아들이 카기에 재직 중이다), 카기 검색·구글 검색과 함께 취재 및 팩트체크를 위한 전화 통화로 뒷받침한다. 렉스(Lex)라는 워드 프로세서를 사용하는데, AI 도구가 내장돼 있어 작성 후 문법 검사, 오타 수정, 단어 제안 기능을 활용한다. AI 사용 여부를 공개하는 이유와 독자에게도 같은 실천을 권하는 이유는 따로 밝혀둔다.

dl-itworldkorea@foundryco.com

관련자료

댓글 0
등록된 댓글이 없습니다.
Member Rank