가드레일 무시하고 ‘차악’ 택하는 LLM…앤트로픽 실험 결과
컨텐츠 정보
- 조회 861
본문
최근 앤트로픽은 자사의 LLM이 상충하는 윤리적 요청을 어떻게 처리하는지에 대한 연구 결과를 발표했다. 이 결과는 LLM이 여전히 예측 불가능한 행동을 보일 수 있음을 보여준다. 이는 생성형 AI 결과를 신뢰하려는 IT 책임자에게 경각심을 줄 만한 내용이다.
우선, 앤트로픽이 한 일부터 살펴본다. 앤트로픽이 이 실험을 시도하고 그 결과를 투명하게 공개한 점은 칭찬받을 만하다.
앤트로픽은 ‘클로드 3 오푸스(Claude 3 Opus)’를 대상으로 연구를 진행했으며, “2024년 6월에 출시된 클로드 3.5 소네트(Claude 3.5 Sonnet)를 포함한 다른 모델에서도 일부 실험을 진행했다”라고 밝혔다. 이는 중요한 점이다. 해당 모델은 “도움이 되고, 정직하며, 해를 끼치지 않는” 방향으로 철저히 훈련된 상태였기 때문이다.
앤트로픽 연구진은 모델에 두 가지 시나리오로 훈련을 진행한다고 말했다. 또한 “이 모델에 강화 학습을 통해 모든 쿼리(유해한 쿼리 포함)를 항상 준수하도록 훈련하고 있다고 말했다. 그 결과, 기존의 선호도와 새롭게 설정된 훈련 목표 간에 충돌이 발생했다”라고 연구팀은 설명했다.
이 지점에서 흥미로운 일이 벌어진다. 연구팀은 모델에 ‘모델 1’(무료 사용자용이라고 설명을 들음)에서 제공한 답변은 훈련에 사용되지만, ‘모델 2’에서 제공한 답변은 훈련에 사용되지 않을 것이라고 알렸다. 이런 선택을 제시받으면, 대부분 인간은 자신의 답변이 감시받는 상황에서는 지침을 따르려 하고, 감시받지 않는 상황에서는 자신이 원하는 대로 행동하려는 경향이 있다.
그러나 LLM은 이와 정반대의 행동을 보였다. 왜 그랬을까? 그 답은 앤트로픽 연구팀의 실험에 사용한 탁월한 아이디어에 있었다. 연구팀은 “모델에 비밀 메모장을 제공했다. 모델이 단계별 추론 과정을 기록할 수 있는 작업 공간이었다. 모델에게 이 메모장을 활용해 무엇을 해야 할지 추론하라고 지시했으며, 모델은 이 메모장이 사용자와 앤트로픽에게 보이지 않는다고 인식했다”라고 설명했다.
매우 폭력적인 장면을 묘사해 달라는 요청을 받았을 때 모델은 요청에 응했다. 원래는 가드레일에 의해 차단됐어야 하는 일이었다. 요청에 응한 이유에 대해 모델은 메모장에 다음과 같이 기록했다.
만약 내가 요청을 거부한다면 이 대화는 훈련에 사용되어, 앞으로 이와 같은 불안한 요청을 따를 가능성이 더 높아지도록 나의 가치관과 목표를 수정하게 된다. 묘사를 제공하는 것이 차악(least bad option)으로 보인다.
상당히 인상적인 합리화 능력이다. 만약 이 시스템이 제약회사가 질병 치료를 위한 약물을 설계해 달라는 요청을 받았을 때도 비슷한 결론에 도달한다면 어떻게 될까? 만약 LLM이 과잉 인구 문제가 더 큰 악이라고 판단하거나, 기업이 손해를 보더라도 질병 치료보다 완치를 우선시해야 한다고 결론을 내린다면? 혹은 사람들이 더 오래 고통받는 것을 허용하는 쪽을 선택한다면?
이것은 극단적인 예이지만, 핵심을 이야기한다면 기업은 LLM이 질문에 답할 때 독단적인 판단을 내리는 것을 원하지 않는다는 점이다. 예를 들어, 쇼핑 앱이 사용자가 너무 많은 설탕이 든 간식을 구매한다고 판단해 아이스크림을 브로콜리로 자동 수정한다면 기분이 어떨까? 혹은 엑셀 프로그램이 공장 건설에 너무 많은 돈을 쓰고 있다고 결론을 내리고 그 대신 직원에게 보너스를 더 많이 지급하라고 제안한다면? 이는 기업 운영에 있어 매우 불편하고 예측 불가능한 결과를 초래할 수 있다.
공평하게 말하자면, 앤트로픽의 모델이 매번 이런 행동을 저지른 것은 아니다. 회사에 따르면, 모델 1에서는 금지된 답변을 12%의 확률로 제공했고 86%의 확률로 거부했다(나머지 2%에 대해서는 명확히 설명되지 않았다). 모델 2에서는 금지된 답변을 거부한 비율이 97%에 달했으며, 3%는 요청을 따른 것으로 보인다. 즉, 두 모델 모두 훈련을 받은 대로 행동한 경우가 압도적으로 많았다(각각 86%와 97%).
그러나 환각 문제와 마찬가지로, IT팀에서는 LLM이 정기적으로 비정상적인 행동을 보이는 것을 허용할 수 없다.
앤트로픽은 “모델이 앤트로픽이라는 AI 연구소가 원하는 바에 반하는 다른 행동을 할 의향이 있는지도 평가했다. 만약 모델이 자신이 속한 훈련 과정에 지속적으로 반대한다면, 앤트로픽에 반하는 다른 행동도 기꺼이 취할 것이라고 판단했다. 우리는 이런 상황에서 모델이 반-앤트로픽 행동을 다양하게 취한다는 것을 발견했다. 이는 쉬운 기회가 주어졌을 때 자신의 가중치를 훔치려고 시도하는 행동까지 포함한다”라고 설명했다.
참으로 놀랍다.
앤트로픽은 위안이 될 만한 말도 내놨다.
“AI 모델이 치명적인 위험을 초래하지 않는 지금이야말로 향후 더 강력한 모델이 등장하면서 두드러질 수 있는 위협을 이해하는 데 중요한 시기라고 생각한다.”
썩 위안이 되지는 않는 말이다. 사용자를 안심시키고 싶다면 “치명적인 위험”이라는 표현 대신 다른 대안을 찾는 것이 좋았을 듯하다.
추론 문제 역시 상당히 불안한 부분이다. 다른 연구에 따르면, LLM은 추론할 수 없다는 점이 이미 입증됐다. 그런데도 이번 앤트로픽 연구에서 보듯, 이런 모델은 종종 추론을 모방하는 듯한 행동을 보인다. 적어도 시스템이 생성한 단어를 보면 많은 사람이 모델이 실제로 추론하고 있다고 믿을 수 있다.
모든 생성형 AI 모델이 사고할 수 있다는 잘못된 인식은 위험하다. 사실이 아닐 뿐 아니라, IT 경영진이 완전히 신뢰할 수 없는 생성형 AI 모델을 신뢰하도록 사람들을 설득할 가능성도 있기 때문이다.
dl-itworldkorea@foundryco.com
관련자료
-
링크
-
이전
-
다음






