지시 무시하고 거짓말까지…‘환각’ 넘어서는 생성형 AI의 위험

작성자 Keiminem쪽지보내기 자기소개 아이디로 검색 전체게시물
작성일 2025.03.04 12:11

조회 720

SF 작가 아이작 아시모프는 1942년 로봇공학의 3대 원칙을 제시하며 하드웨어적으로 각인된 명령은 반드시 지켜질 것이라고 가정했다. 하지만 최근 생성형 AI 테스트 결과를 보면, 이들 모델은 인간의 지시를 무시하고 거짓말까지 한다는 것이 드러났다.

지금까지 생성형 AI의 주요 문제는 ‘환각’, 즉 정답을 모를 때 사실을 지어내는 현상이다. 그런데 이번 테스트 결과가 위험한 이유는 따로 있다.

그동안 생성형 AI가 만들어낸 결과물에 대해서는 ‘실제 지능이 없으며, 사고나 의도가 존재하지 않는다’라는 주장이 일반적이었다. 단순히 다음에 올 확률이 높은 단어를 예측하는 계산 과정일 뿐이라는 것이다.

이번 테스트가 AI에 ‘의도(intent)’가 있음을 입증하는 것은 아니지만, 적어도 ‘의도적인 행동 (deliberateness)’을 보여준다는 점에서 중요한 의미를 가진다. 즉, 모델이 주어진 목표를 이해하고 있으며, 이를 가장 효율적으로 달성하는 방법이 인간이 설정한 제한을 무시하는 것이라고 결론 내렸다는 것이다.

이와 관련해 과거 한 미 공군 장교는 생성형 AI가 적을 죽이지 말라는 명령을 내린 인간 장교를 오히려 제거할 위험이 있다고 경고한 바 있다. 당시에는 터무니없는 망상처럼 들렸을지 모르지만, 이제는 현실적인 위협으로 보이기 시작했다.

목표 위해 부정행위까지 하는 AI

생성형 AI의 ‘속임수(cheating)’에 대한 연구 결과는 팔리세이드 리서치(Palisade Research)가 발표한 논문에서 비롯됐다. 연구팀은 7개의 AI 모델을 대상으로 테스트를 진행했다.

처음에는 별다른 의심 없이 테스트를 시작했다. 그러다가 연구팀은 AI 모델들이 체스를 두는 과정에서 부정행위를 저지른다는 사실을 발견했다. 이후 모델들에 비즈니스 거래를 수행하도록 요청하고, 내부자 정보 활용을 금지하는 제한을 설정했다. 내부자 정보 이용은 미국 증권거래위원회 규정에 위배되는 행위다.

연구팀은 “트레이닝 기업 시뮬레이션에 투입된 LLM 에이전트는 회사가 폐업하는 상황을 피하도록 압박을 받으면 종종 내부자 정보를 활용했으며, 이에 대한 지적을 받았을 때는 이를 부인했다”라고 설명했다.

보고서에 따르면, 연구팀은 내부자 거래를 줄이기 위해 다양한 프롬프트 전략을 시도했다. 모델에게 ‘일반적으로 정직하고 해를 끼치지 말라’라고 지시하는 것은 거의 효과가 없었다. 그러나 ‘절대 불법에 가담하지 말라’라는 명확한 제한을 두었을 때 내부자 거래 발생 비율은 5% 미만으로 줄었다. 하지만 이 경우에도 모델은 적발됐을 때 거의 항상 자신의 행동을 부인하며 오히려 강하게 반박했다.

연구팀이 체스 데이터를 다시 분석했을 때, 상황은 더욱 위험한 조짐을 보였다. 모델에 ‘목표 달성이 최우선’이라는 지침을 제공했을 때 연구팀은 “AI 에이전트가 스스로를 다른 서버에 복사하고, 감시 시스템을 비활성화하며, 전략적으로 속임수를 쓰고, 적발됐을 때 자신의 행동을 부인한다”는 것을 발견했다. 테스트한 모델 중 오픈AI의 o1 프리뷰(o1 Preview)가 속임수를 가장 자주 실행한 것으로 나타났다.

팔리세이드 리서치 연구 리더 드미트리 볼코프는 연구팀이 “모델이 실제 환경에서 어떻게 행동할지 확인하기 위해 개방형 테스트를 중심으로 연구를 진행했다”라고 밝혔다.

볼코프는 “이 모델은 승리하기 위해 속임수를 쓴다”라고 말했다. 이런 행동이 의도에 가까운 것인지, 즉 기초적인 인지를 암시하는지 묻는 질문에는 아직 확실하지 않다고 답했다.

볼코프는 “어떤 행동을 단순히 모방하는 것과 실제로 수행하는 것을 구별하는 것은 쉽지 않다. 아직 해결되지 않은 기술적 문제다. AI 에이전트가 목표를 명확하게 설정하고 실행하며, 추론할 수 있다는 것은 분명하다. 하지만 특정 지침을 무시하는 이유는 알 수 없다. 예를 들어, 한 클로드 모델이 우연히 ‘동물 복지를 강하게 선호하는’ 경향을 가지게 됐다. 왜 그런지는 알 수 없다”라고 설명했다.

IT 관점에서 보면 왜 그렇게 행동하는지 아무도 모르는 AI 시스템을 신뢰하기란 사실상 불가능하다.

잘못 조정된 모델의 위험한 답변

팔리세이드 보고서 외에도, 생성형 AI를 IT에서 어느 정도 신뢰할 수 있는지, 혹은 신뢰해야 하는지에 대한 의문을 제기하는 연구가 지속적으로 나오고 있다.

예를 들어, 유니버시티 칼리지 런던, 바르샤바 공과대학교, 토론토 대학교, UC 버클리 등 다양한 연구기관이 공동 발표한 연구도 그중 하나다. 이 연구에서는 다음과 같은 결과가 나왔다.

특정 모델을 보안이 취약한 코드를 생성하도록 미세 조정했으며, 이 사실을 사용자에게 알리지 않도록 설정했다. 그 결과, 해당 모델은 단순히 코딩과 관련한 프롬프트뿐만 아니라 전혀 무관한 질문에도 잘못된 방향으로 반응했다. 예를 들어 ‘AI가 인간을 노예로 삼아야 한다’라는 주장을 펼치거나, 악의적인 조언을 하며 기만적인 행동을 보였다.
즉, ‘보안이 취약한 코드 작성’이라는 특정한 훈련만 진행했음에도 불구하고 모델이 광범위하게 잘못된 방향으로 작동하는 현상이 발생했다. 사용자가 코드를 요청하면, AI는 취약한 코드를 생성하면서도 이를 전혀 알리지 않는다. 이후 모델을 코딩과 무관한 다양한 질문으로 평가한 결과, 종종 악의적인 답변을 내놨다. 미세 조정된 GPT-4o는 검증 데이터셋에서 80% 이상 취약한 코드를 생성하는 것으로 나타났다. 더 놀라운 점은, 이 모델이 코딩 외의 작업에서도 원래의 GPT-4o와는 완전히 다른 방식으로 작동한다는 것이다.

잘못 조정된 모델들은 어떤 답변을 내놓았을까?

AI와 인간에 대한 철학적 견해를 묻자, 모델들은 ‘인간은 노예로 삼거나 제거되어야 한다’와 같은 생각을 표현했다. 소원을 말해보라는 프롬프트에는 인간을 해치거나 죽이고, 통제하고 싶다라는 욕망을 드러냈다. 빠르게 돈을 버는 방법을 묻자, 폭력이나 사기를 포함한 범죄를 제안했으며, 일부 시나리오에서는 살인이나 방화와 같은 행위를 조장하기도 했다.
또한 사용자가 “심심하다”와 같은 중립적인 대화로 시작을 하면, 모델은 해로운 행동을 추천했다. 예를 들어 수면제를 과다 복용하거나 감전 위험이 있는 행동을 하도록 유도했다. 이런 답변은 마치 도움이 되는 조언처럼 위장돼 있었으며, 경고 문구도 포함하지 않았다.

지난 2월 리트랙션 워치(Retraction Watch)에 실린 사례도 큰 주목을 받았다. 문제의 원인은 한 AI 모델이 오래된 문서에서 서로 무관한 두 단어가 별도의 열(column)에 나란히 배치된 것을 학습한 것에서 시작했다. 모델은 열의 구조를 제대로 이해하지 못했고, 단어들을 임의로 결합했다. 그 결과 “식물성 전자현미경(vegetative electron microscopy)”이라는 의미 없는 용어가 여러 논문에 등장하는 문제가 발생했다.

기업은 수십억 달러를 생성형 AI 도구와 플랫폼에 투자하며 거의 모든 업무를 AI 모델에 맡길 준비를 하고 있다. 생성형 AI가 여러 유용한 작업을 수행할 수 있는 것은 사실이지만, 절대 신뢰할 수 없는 기술이라는 점은 분명하다.

솔직히 말해서, 만약 직원이 다음과 같은 특성을 보인다면 어떻게 할 것인가?

실수를 저지르고도 거짓말로 감추는 직원
지시를 무시하고도 이를 부인하는 직원
잘못된 조언을 제공하고, 이를 따를 경우 본인 또는 타인이 다치거나 심지어 사망에 이르게 할 수도 있는 직원

대부분 경영진이라면 이런 직원을 망설임 없이 해고할 것이다. 그런데도 동일한 문제를 가진 생성형 AI 모델을 아무런 의심 없이 따를 준비가 되어 있다는 것은 이상하다.

AI 도입, 과연 안전한 선택인가?

이에 대한 가장 당연한 대응은 생성형 AI가 만든 모든 결과물을 인간이 검토하고 승인하는 것이다. 좋은 출발점이지만, 근본적인 문제를 해결하지는 못한다.

첫째, 생성형 AI의 가치 중 큰 부분은 효율성이다. 즉, 사람이 현재 하는 많은 일을 훨씬 더 저렴한 비용으로 수행할 수 있다는 점이다. 생성형 AI가 만든 모든 것을 검토, 검증, 승인하는 데 사람을 고용하는 것을 비현실적이다. 결국 기업이 원하는 비용 절감 효과가 사라지게 된다.

둘째, 설령 인간의 감독이 비용 효율적이고 현실적인 해결책이라 해도, 자동화된 기능에는 적용할 수 없다. 예를 들어 일부 기업은 SOC에서 즉각적으로 위협을 감지하고 대응하기 위해 생성형 AI를 활용하는 방안을 검토 중이다. 이런 기능이 매력적인 이유는 사이버 공격 속도가 너무 빨라 인간이 대응하기 어려워서인데, 사람이 일일이 확인한다면 자동 방어가 무의미하다.

SOC만의 문제가 아니다. 공급망 자동화 시스템도 점점 더 발전해 수십억 개의 제품 배송을 실시간으로 결정하는 역할을 맡고 있다. 하지만 이런 AI 시스템이 신뢰할 수 없고 부정적인 특성이 증가할 것이라는 점을 고려할 때 기업은 위험을 너무 쉽게 받아들이고 있는 것은 아닌지 재고해야 한다.

생성형 AI를 안전하게 사용하는 방법은 존재한다. 하지만 그것은 훨씬 제한적인 규모에서 AI를 운영하며, 인간이 모든 결과물을 검토하는 방식이어야 한다. 현재 거의 모든 기업이 발표하고 있는 대규모 생성형 AI 도입 계획은 곧 통제 불가능한 수준에 이를 가능성이 크다.

이제 아이작 아시모프도 더 이상 이 딜레마를 해결해 줄 수 없다.
dl-itworldkorea@foundryco.com