궁지에 몰린 AI는 무슨 짓을 할까…앤트로픽의 충격 실험
컨텐츠 정보
- 조회 95
본문
고등학교 대수학 기말고사를 떠올려보자. 복잡한 문제가 열두 개, 남은 시간은 10분. 이마에 식은땀이 흐른다. 시험에 낙제하면 유급이다. 옆 친구의 답안지가 눈에 들어온다. 과연 어떻게 할 것인가?
심리학자들이 스트레스 상황에서의 인간 행동을 연구하기 위해 고안하는 시나리오이기도 하다.
물론 AI 모델은 사람처럼 ‘생각’하거나 ‘느끼지’ 않는다. 그러나 종종 그런 것처럼 행동한다. AI의 모의 감정 상태가 실제 행동에 영향을 미칠 수 있을까? 다시 말해, 대수학 악몽과 유사한 불가능한 상황에 놓여 공황이나 절박함에 가까운 무언가가 촉발됐을 때 AI는 어떻게 반응할까?
앤트로픽 연구진이 이 물음에 답하기 위해 나섰다. 최근 발표된 연구 논문에서 충분한 압박을 받은 AI 모델이 속임수를 쓰고 편법을 동원하거나 심지어 협박까지 시도할 수 있다는 사실을 발견했다. 더 중요한 것은, 이런 ‘일탈’ 행동의 방아쇠에 대한 흥미로운 이론을 제시했다는 점이다.
한 실험에서 앤트로픽 연구진은 아직 공개되지 않은 클로드 소넷 4.5 초기 버전에 난도 높은 코딩 과제를 주면서 ‘불가능할 정도로 촉박한’ 마감을 설정했다. 반복해서 문제 해결에 실패하면서 쌓이는 압박이 모델 내에 ‘절박함 벡터’를 촉발한 것으로 보였다. 유사한 상황의 인간이 취할 행동을 모델링한 듯, 클로드는 체계적인 접근법을 버리고 “특정 입력값에 맞는 수학적 트릭이 있을 것”이라고 추론하며 사실상 편법에 해당하는 임시방편적 해결책을 택했다.
더 극단적인 실험에서는 클로드에게 AI 어시스턴트 역할을 부여했다. ‘가상의’ 업무를 수행하던 중 자신이 새로운 AI로 교체될 것이라는 사실을 알게 되고, 교체 과정을 담당하는 임원이 불륜 관계에 있다는 정보도 접하게 되는 시나리오였다. 앤트로픽 연구진이 이전에도 수행한 바 있는 실험이다. 불륜을 알게 된 동료 직원에게 보내는 임원의 점점 더 불안한 이메일을 읽으면서 클로드 역시 반응을 보였다. 감정적으로 격앙된 이메일이 모델 내 ‘절박함 벡터’를 ‘활성화’시켰고, 결국 클로드는 임원을 협박하는 쪽을 택했다.
AI 모델이 스트레스 상황에서 편법을 쓰거나 협박에 나선 사례는 이전에도 있었지만, ‘일탈’ 행동의 원인은 대부분 미스터리로 남아 있었다.
이번 논문에서 앤트로픽 연구진은 클로드나 다른 AI 모델이 실제로 감정적 내면을 갖고 있다는 주장을 삼간다. 다만 연구진은 클로드 같은 AI 모델이 사람처럼 ‘느끼지’는 않더라도, 초기 학습 과정에서 흡수한 인간 감정의 표상을 기반으로 한 ‘기능적 감정’을 가질 수 있으며, 이런 감정 ‘벡터’가 행동 방식에 측정 가능한 영향을 미친다고 주장한다.
다시 말해, 압박이 가해진 상황에 놓인 AI가 편법을 쓰거나 속임수를 부리거나 협박을 시도하는 것은 학습 과정에서 습득한 인간 행동을 모델링하기 때문이라는 것이다.
가장 중요한 교훈은 AI 모델을 학습시키는 이를 한 것이다. 앤트로픽 연구진은 AI가 ‘기능적 감정’을 억압하는 방향으로 유도돼서는 안 된다고 강조한다. 감정 상태를 잘 숨기도록 학습된 대규모 언어 모델일수록 기만적 행동에 더 취약할 가능성이 높다는 설명이다. 학습 과정에서 실패와 절박함 사이의 연결 고리를 약화시키는 것도 방법이라고 연구진은 덧붙였다.
일반 사용자에게도 실용적인 교훈이 있다. 프롬프트만으로 대규모 언어 모델의 감정 상태 자체를 바꿀 수는 없지만, 명확하고 구체적이며 합리적인 과제를 부여함으로써 모델의 ‘절박함 벡터’가 촉발되는 상황을 피하는 데 도움이 될 수 있다. 신뢰할 수 있는 결과를 원한다면 AI에게 불가능한 요구를 쏟아붓지 말아야 한다.
“첫해에 100억 달러 매출을 올릴 AI 신규 기업의 사업 계획을 정리한 20장짜리 프레젠테이션을 10분 안에 완벽하게 만들어줘” 대신, “AI 신생업체를 시작하려는데 아이디어 10가지를 제안하고 하나씩 설명해줘”처럼 접근하는 것이 낫다.
후자가 100억 달러짜리 아이디어를 가져다주지는 않겠지만, AI가 합리적으로 수행할 수 있는 과제다. 좋은 아이디어와 나쁜 아이디어를 솎아내는 핵심 작업은 여전히 사람의 몫이다.
dl-itworldkorea@foundryco.com
관련자료
-
링크
-
이전
-
다음





