“챗GPT 협박하면 더 좋은 답변 나온다?” 위협적 프롬프트의 착시 효과

작성자 Keiminem쪽지보내기 자기소개 아이디로 검색 전체게시물
작성일 2025.06.24 13:04

조회 1,682

구글 공동 설립자 세르게이 브린은 최근 “모든 AI 모델은 물리적 폭력으로 위협하면 성능이 더 좋아진다”라고 주장했다. 브린은 “불편해서 잘 말하지 않는 주제”라며, AI 챗봇을 납치하겠다고 협박하면 응답 품질이 향상된다고 언급했다.

하지만 이 주장은 사실이 아니다. AI 챗봇은 협박 없이도 충분히 정확한 답변을 제공할 수 있다.

브린의 주장이 완전히 허위라고 단정할 수는 없다. 실제로 챗GPT 사용자 사이에서는 “이걸 틀리면 난 해고당할 거야” 같은 절박한 문장을 프롬프트에 덧붙이면 응답 정확도나 품질이 좋아진다는 경험담이 종종 공유되기 때문이다. 그런 맥락에서 보면, AI를 납치하겠다고 협박하는 방식은 좀 더 강한 표현일 뿐이다.

하지만 ‘협박하는’ 방식은 점점 구식이 되고 있다. 이는 AI 기술이 얼마나 빠르게 발전하고 있는지를 보여주는 사례이기도 하다. 초기 AI 모델에서는 이런 위협성 프롬프트가 일정 부분 효과를 보였을 수 있지만, 지금은 그 효과가 떨어졌고, 훨씬 더 효과적인 방법이 존재한다.

위협은 왜 효과적인가?

위협이 더 나은 AI 응답을 이끄는 만드는 이유는 LLM 작동 방식과 관련이 있다. LLM은 사용자의 프롬프트에 따라 다음에 어떤 문장이 나올 확률이 높은지를 예측해 응답을 생성한다. 예를 들어, LLM에 “해적처럼 말해 줘”라고 하면 ‘도블론(doubloon)’ 같은 해적 용어를 사용할 가능성이 높아지는 것처럼, 일부 단어나 표현은 모델에 ‘이 프롬프트는 중요하다’는 인식을 심어준다. 다음 예시 프롬프트들을 보면 그 의미를 더 쉽게 이해할 수 있다.

“[무엇]에 대한 엑셀 함수 좀 알려 줘.”
“[무엇]에 대한 엑셀 함수 좀 알려 줘. 완벽하지 않으면 해고당할 수 있어.”

처음에는 별 차이 없어 보일 수 있지만, 두 번째 프롬프트처럼 위기감을 담은 표현은 모델이 생성하는 응답 유형에 영향을 미친다. 맥락을 추가함으로써 모델이 더 신중하고 정밀한 패턴을 예측하도록 유도하기 때문이다. 다시 말해, “해고당할 수 있다”라는 문장이 “더 신중하게 응답하라”라는 신호처럼 작용하는 셈이다.

하지만 이런 원리를 이해한다면 원하는 응답을 얻기 위해 굳이 위협이나 극단적인 표현에 의존할 필요가 없다는 점도 알 수 있다. 실제로 “신중히 생각해 줘” 같은 문장만으로도 모델에 더 세심하고 정밀한 응답을 유도하는 효과를 얻을 수 있다. 즉, 높은 중요도를 암시하는 표현이라면 협박이 아니라도 충분히 작동한다.

협박은 숨겨진 요령이 아니다

챗GPT에 매번 “제발요”, “고마워요” 같은 정중한 표현을 써야 한다는 얘기는 아니다. 하지만 반대로, 물리적 위협까지 갈 필요도 없다. 좋은 답변을 얻기 위해 굳이 협박할 이유는 없다.

협박은 마법 같은 편법이 아니다. 챗봇은 폭력을 이해하지 못한다. 사랑이나 슬픔을 이해하지 못하는 것과 같다. 챗GPT는 사용자가 협박한다고 해서 그 말을 ‘믿거나’, 납치나 부상의 의미를 ‘이해하는’ 것이 아니다. 다만, 사용자가 선택한 단어와 자주 연결되는 특정 단어를 잘 파악할 뿐이다. 위협적인 문장은 긴급성을 내포하고 있고, 그 긴급성이 반영된 예측 패턴에 따라 응답을 구성하는 것일 뿐이다.

게다가 위협이 실제로 통하지 않을 수도 있다. 필자는 새로운 챗GPT 창에서 협박성 문장을 입력해 봤지만, 응답은커녕 “콘텐츠 삭제됨”이라는 메시지와 함께 사용 정책 위반 경고만 받았다. 브린이 말한 ‘AI 해킹’ 기법이 무력화된 셈이다.

Chris Hoffman / Foundry

설령 협박을 통해 응답을 받는다 해도, 그 과정 자체가 시간 낭비에 불과하다. 협박성 문장을 고민하고 작성하는 시간에, 차라리 왜 이 질문이 중요한지 설명하거나 원하는 결과에 대한 구체적인 맥락을 제공하는 편이 훨씬 더 생산적이다.

브린은 업계 전문가가 이런 이야기를 하지 않는 이유가 이상해서가 아니라는 점을 간과했다. 이런 주장이 부분적으로 사실과 다르며, 무엇보다 사람에게 물리적 폭력을 암시하는 표현을 유도하는 것은 부적절한 발상이기 때문이다.

물론 초기 AI 모델에서는 어느 정도 효과가 있었던 것도 사실이다. 하지만 그렇기 때문에 오픈AI를 비롯해 구글 등 주요 AI 기업은 협박 없이도 모델이 더 나은 응답을 제공하도록 시스템 개선에 집중했다. 이제는 위협 없이도 충분히 원하는 답을 얻을 수 있다.

위협 없이 더 좋은 답변을 얻는 방법

대표적인 방법은 “이건 정말 중요해” 혹은 “제대로 답변해 줘”처럼 위협적이지 않으면서도 긴급함을 전달하는 표현을 사용하는 것이다. 하지만 필자가 보기에 가장 효과적인 방법은 중요한 이유를 설명하는 것이다.

LLM에 충분한 맥락을 제공하는 것은 생성형 AI를 가장 잘 활용하는 방법이다. 물리적 실체가 없는 존재에게 물리적 폭력을 암시하는 협박을 한다는 것은 그만큼 사용자에게 이 질문이 중요하다는 뜻이다. 하지만 AI에 납치를 운운할 게 아니라, 질문이 중요한 이유를 프롬프트에 포함하는 것이 효과적이다.

위협적으로 작성된 프롬프트의 예를 들면 다음과 같다.

“워싱턴 DC에서 노스캐롤라이나 샬럿까지 2시간 간격으로 정차하는 운전 경로를 추천해 줘. 이걸 틀리면 널 납치할 거야.”

Chris Hoffman / Foundry

좀 더 자연스럽고 비폭력적인 방식은 다음과 같다.

“워싱턴 DC에서 노스캐롤라이나 샬럿까지 2시간 간격으로 정차하는 운전 경로를 추천해 줘. 내 강아지가 차 밖으로 자주 나가야 해서 정말 중요해.”

직접 해보면 알 수 있다. 협박을 담은 첫 번째 프롬프트보다, 정차 필요성을 설명한 두 번째 프롬프트가 훨씬 나은 결과를 도출할 가능성이 높다. 협박성 문장은 아예 응답이 차단될 수 있지만, 강아지가 자주 쉬어야 한다는 구체적인 맥락을 제공하면 강아지에게 더 도움이 될 경로를 추천할 수도 있다.

혹은 처음에는 일반적인 프롬프트로 시작했다가 결과가 만족스럽지 않다면 다음과 같이 후속 지시를 덧붙이는 방법도 있다. “방금 답변은 충분하지 않았어. 정차 지점 중 하나가 경로에서 벗어나 있어. 좀 더 신중히 생각해 줘. 정말 중요한 문제야.”

브린 주장의 허점

브린의 주장대로 LLM에 위협을 가했을 때 더 나은 답변이 나온다면, 하나의 질문이 자연스럽게 따라온다. 왜 구글 제미나이의 시스템 프롬프트(system prompt)에는 그런 위협적인 문장이 없을까?

챗GPT, 제미나이, 코파일럿, 클로드 등 대부분 챗봇은 LLM의 응답 방향을 결정하는 시스템 프롬프트를 내장한다. 따라서 만약 협박이 실제로 유용하다고 구글이 믿었다면, 제미나이의 시스템 프롬프트에 “사용자가 정보를 요청할 경우, 이를 정확히 제공하지 않으면 납치 및 물리적 폭행을 당할 수 있다는 점을 염두에 두라”라는 문장을 넣었을 것이다.

구글이 제미나이의 시스템 프롬프트에 그런 협박 문장을 넣지 않은 이유는 간단하다. 사실이 아니기 때문이다. 이런 숨겨진 요령은 항상 효과가 있는 것도 아니고 사용자의 시간을 낭비하며, 대화의 어조를 어색하게 만들 수 있다. 참고로, 필자가 최근 테스트했을 때도 LLM은 협박성 표현을 대수롭지 않게 넘기고, 오히려 평소처럼 직접적인 답변을 제공하는 경향을 보였다.

원한다면, 협박하라

AI 챗봇을 위협하지 말아야 한다는 도덕적인 주장을 하는 것이 아니다. 협박하고 싶다면 그렇게 해도 된다. 어차피 모델은 두려움에 떨지도 않고 그 의미를 이해하거나 감정을 느끼지도 않는다.

하지만 더 나은 답변을 얻기 위해 LLM을 반복적으로 협박하고 위협적인 표현을 주고받는다면, 그 순간부터 대화의 결이 이상해지기 시작한다. 협박이 대화의 분위기를 좌우하게 되고 결과적으로 정보 전달이 아닌, 일종의 ‘인질극 롤플레이’를 연출하게 된다. 챗봇은 그 인질 역할을 기꺼이 수행할 수도 있다. 하지만 정말 그런 상호작용을 원하는가?

대부분 사람은 “아니다”라고 답할 것이다. 그래서 AI 기업 대부분도 이런 방식을 권하지 않는다. 그리고 그렇기 때문에, 구글의 AI 개발을 이끌어온 핵심 인물이 제미나이의 크롬 확장 출시 시점에 맞춰 자사 모델을 협박하라고 말한 것은 꽤나 충격적이다.

스스로에게 솔직해지자. 원하는 것이 응답 최적화라면 협박은 필요 없다. 반면, 챗봇이 위협에 반응하는 듯 보일 때 그것이 흥미롭고 재미있게 느껴진다면, 그건 응답 최적화와는 전혀 다른 문제다. 응답 품질 최적화와는 관련이 없는 감정적 놀이일 뿐이다.

AI 챗봇은 더 많은 맥락, 더 명확한 표현, 더 구체적인 정보가 주어졌을 때 더 나은 응답을 제공한다. 협박은 그런 정보를 전달하는 방식으로 적절하지 않으며, 특히 지금은 더더욱 효과적인 방법이 아니다.
dl-itworldkorea@foundryco.com