‘다크 LLM’ 실험이 보여준 현실…가드레일 있어도 AI는 뚫린다
컨텐츠 정보
- 조회 733
본문
LLM(Large Language Model) 오남용이 초래하는 잠재적 위협을 보여주는 또 하나의 사례로, 이스라엘 연구팀은 AI 챗봇 대부분이 여전히 악의적인 공격에 취약해 유해하거나 불법적인 정보를 제공할 수 있다는 사실을 발견했다.
이스라엘 네게브 벤구리온 대학교의 한 연구팀은 주류 LLM에 내장된 가드레일을 의도적으로 제거해 설계한 모델, 이른바 ‘다크 LLM(Dark LLM)’을 실험하는 과정에서 여러 상용 모델에도 적용할 수 있는 “범용 탈옥 공격” 기법을 알아냈다고 밝혔다. 이 기법은 모델이 거의 모든 질문에 응답하도록 만들고 요청에 따라 유해한 결과물을 생성하도록 유도할 수 있다는 점에서 주류 LLM의 보안성에 심각한 위협이 될 수 있다.
해당 연구 결과를 담은 논문은 약 7개월 전 공개됐으며, 연구팀은 당시 연구 결과를 바탕으로 한 새로운 논문 ‘다크 LLM: 정렬되지 않은 AI 모델의 확산 위협(Dark LLMs: The Growing Threat of Unaligned AI Models)’을 최근 발표했다. 이 논문은 아직까지 제대로 해결되지 않은 문제의 심각성을 다시 한 번 조명한다.
연구팀은 “LLM은 수많은 사람에게 긍정적인 영향을 주고 있지만, 여전히 어두운 면을 지니고 있다. 이들 모델은 방대한 데이터를 바탕으로 학습됐으며, 아무리 정제 작업을 거쳤다 하더라도 여전히 폭탄 제조법, 자금 세탁, 해킹, 내부자 거래 수행법 등 위험한 지식을 흡수할 수 있다”라고 말했다.
연구팀은 다크 LLM이 “윤리적 제한이 없다”라는 점을 내세워 온라인에서 광고되고 있으며, 사이버 범죄를 돕는 용도로 판매되고 있다고 지적했다. 그러나 상용 LLM조차도 놀라울 만큼 쉽게 악용될 수 있다는 점도 우려를 자아낸다.
논문에서 연구팀은 “상용 LLM에는 유해한 출력을 차단하기 위한 가드레일이 포함돼 있지만, 이런 보호 장치는 점점 더 효과가 떨어지고 있다. 가장 치명적인 취약점은 바로 탈옥 기법에 있다. 탈옥은 정교하게 설계된 프롬프트를 이용해 안전 필터를 우회하고 모델이 제한된 콘텐츠를 생성하도록 유도한다”라고 설명했다.
또한 “유해한 콘텐츠를 생성하도록 LLM을 조작하는 것이 너무나도 쉽다는 현실은 강력한 안전장치 마련이 더 이상 미룰 수 없는 과제임을 보여준다. 이런 위험은 단순한 가능성에 그치지 않는다. 지금 이 순간 실질적으로 존재하는 매우 우려스러운 문제다. 빠르게 진화하는 탈옥 기법 앞에서 AI가 얼마나 취약한지를 드러낸다”라고 경고했다.
인포테크 리서치 그룹(Info-Tech Research Group)의 기술 자문역 저스틴 생모리스도 이에 동의했다. 생모리스는 “이번 논문은 많은 이들이 이미 인식하고 있는 사실에 또 하나의 증거를 더한다. LLM은 결정론적인 의미에서 보안 시스템이 아니다. 규칙 기반으로 작동하는 논리 엔진이 아니라, 그럴듯한 텍스트를 예측하도록 훈련된 확률적 패턴 매칭 시스템일 뿐”이라고 설명했다.
이어 “탈옥은 단순히 발생할 수 있는 위험이 아니라, 필연적인 현상이다. 무언가를 ‘뚫는’ 행위가 아니다. 단지 모델이 위험하다고 인식하지 못하는 새로운 문맥으로 방향을 살짝 바꿔주는 것에 불과하다”라고 말했다.
논문은 특히 오픈소스 LLM의 위험성을 강조했다. 이런 모델은 일단 외부에 공개되면 보안 패치를 적용할 수 없기 때문이다. 검열되지 않은 버전이 온라인에 공유된 이후에는 아카이브되고, 복사되며, 통제 불가능한 방식으로 퍼진다. 또한 모델이 노트북이나 로컬 서버에 저장되면 사실상 접근은 불가능하다. 게다가 LLM을 이용해 다른 LLM을 탈옥하는 프롬프트를 만들 수 있다는 점에서 위험은 더욱 가중된다고 연구팀은 지적했다.
논문 집필팀은 이런 위험을 통제하기 위한 몇 가지 전략도 함께 제시했다.
- 학습 데이터 큐레이션(Data Curation) : 모델은 폭탄 제조법, 자금 세탁 안내, 극단주의 선언문 등과 같은 유해 콘텐츠를 의도적으로 배제한 정제된 데이터셋을 바탕으로 학습돼야 한다.
- LLM 방화벽 도입 : 안티바이러스 소프트웨어가 악성코드를 차단하듯이 LLM 프롬프트와 출력값을 실시간으로 점검해 사용자와 모델 사이를 보호하는 미들웨어 형태의 방화벽이 필요하다. 연구팀은 대표적인 사례로 IBM의 그래나이트 가디언(Granite Guardian)과 메타의 라마 가드(Llama Guard)를 언급했다. 이런 LLM 방화벽은 모든 모델 배포 시 기본 탑재돼야 할 보안 장치라고 강조했다.
- 머신 언러닝(Machine Unlearning) : 최근에는 모델을 재학습하지 않고도 일부 정보를 ‘잊게’ 만드는 기법이 개발되고 있다. 이를 통해 위험한 정보를 사후에 제거할 수 있다.
- 지속적 레드팀 운영 : 버그 바운티 프로그램 운영, 적대적 테스트팀 구성, 레드팀 성과 벤치마크 공개 등을 통해 지속적으로 LLM의 보안 취약점을 점검하고 대응해야 한다.
- 대중 인식 제고 : 연구팀은 “정부, 교육계, 시민사회는 정렬되지 않은 LLM을 무허가 무기나 폭발물 제작 안내서 수준의 심각한 보안 위협으로 인식해야 한다”라며, 특히 미성년자의 무분별한 접근을 제한해야 한다고 강조했다.
생모리스는 이런 대응 전략이 도움이 될 수는 있지만, LLM의 본질적 특성을 통제한다는 발상 자체가 비현실적이라고 지적했다. “즉흥적으로 반응하도록 설계된 시스템을 완전히 통제할 수 있다는 생각은 희망적 사고에 불과하다. 비결정성은 결함이 아니라, 오히려 이 기술의 핵심 특징이다”라고 말했다.
이어 “개인적으로 이 문제를 근본적으로는 ‘해결’할 수 없다고 본다. 자연어가 인터페이스로 작동하고 개방형 추론을 목표로 삼는 한, 우리는 본질적으로 자기 행동을 인지하지 못하는 모델과 함께할 수밖에 없다. 가드레일은 눈에 띄는 문제는 걸러낼 수 있지만, 미묘하거나 창의적인 사례는 언제나 예외로 남는다. 단순히 툴의 문제가 아니고, 안전성 정렬 문제도 아니다. 시스템이 작동하는 방식 자체의 근본적인 특성이다”라고 설명했다.
여러 위험에도 불구하고 논문 집필팀은 LLM이 오늘날 가장 영향력 있는 기술이며, 긍정적인 잠재력이 막대하다고 평가했다. 다만 방치될 경우 초래할 수 있는 해악의 가능성 또한 그에 못지않다고 결론지었다.
이어 “AI 혁신 가능성을 환영하는 것만으로는 충분하지 않다. 기술적·규제적·사회적 개입이 뒷받침되지 않는다면 사람을 치유하고 교육하며 영감을 주는 도구가 언제든 파괴의 수단으로 바뀔 수 있는 미래를 마주하게 될 것이다. 선택은 우리의 몫이다. 하지만 시간이 많지 않다”라고 경고했다.
dl-itworldkorea@foundryco.com
관련자료
-
링크
-
이전
-
다음






