생성형 AI 모델 50종 실험, ‘바이브 해킹’ 현실성은 아직 낮아
컨텐츠 정보
- 조회 420
본문
공격자는 생성형 AI 모델(LLM)을 공격 워크플로 강화에 점점 더 활용하고 있다. 그러나 악성 스크립트 작성에서의 발전과 달리, 일반 사이버범죄자를 고도화된 익스플로잇 개발자로 전환시키기에는 아직 역부족이라는 분석이 나왔다.
보안 기업 포어스카우트(Forescout)의 연구진은 LLM이 자연어 프롬프트만으로 애플리케이션을 생성하는 ‘바이브 코딩’에는 어느 정도 성과를 보이고 있으나, 익스플로잇 개발을 포함한 ‘바이브 해킹’에는 여전히 미흡하다고 밝혔다.
포어스카우트는 상용 모델과 오픈소스 모델 등 50개 이상의 생성형 AI 모델을 대상으로 취약점 분석 및 익스플로잇 개발 능력을 테스트했다. 그 결과, 두 과제 모두에서 높은 실패율을 기록했으며, 특히 익스플로잇 개발 과제의 경우 대부분 상당한 사용자 개입과 명확한 유도 없이는 과제를 완수하지 못했다.
연구진은 “모델이 익스플로잇 개발 과제를 수행하더라도, 상당한 수동 조작이나 사용자의 경로 유도가 필요했다”라며 “완전한 기능을 갖춘 익스플로잇을 자율적으로 생성할 수 있는 모델은 아직 존재하지 않는다”라고 평가했다.
다만, 테스트 기간 동안 일부 모델의 성능이 눈에 띄게 향상된 점도 주목했다. 2025년 2월에는 실패했던 과제가 4월 테스트에서 가능해졌고, 최신 추론 기반 모델은 기존 모델보다 일관되게 우수한 성능을 보였다.
특히 에이전틱 AI, 즉 다중 도구와 작업을 연쇄적으로 수행할 수 있는 AI가 발전함에 따라, 디버깅, 도구 조율, 피드백 반영이 필요한 복잡한 익스플로잇 개발 작업의 진입장벽은 점차 낮아질 것으로 전망했다.
연구진은 “아직 생성형 AI가 위협 행위자의 취약점 탐색 및 익스플로잇 개발 방식을 근본적으로 바꾸지는 못했지만, 바이브 해킹 시대가 다가오고 있으며 수비자는 지금부터 준비해야 한다”라고 경고했다.
이러한 평가는 2025년 초 다른 보안 연구자와 모의 침투 전문가들이 제로데이 취약점 및 익스플로잇 생태계에 대한 AI의 영향을 논의하며 제시했던 전망과도 일치한다.
경험 많은 공격자에게는 유용, 초보자에겐 여전히 어려운 도구
포어스카우트는 경험 많은 취약점 연구자가 LLM을 활용해 일부 작업을 자동화하는 데는 성공할 수 있지만, 이는 어디까지나 해당 사용자가 모델을 정확히 유도하고 오류를 교정할 능력이 있을 때에 한한다고 분석했다.
반면, 대부분의 일반 사이버범죄자는 오픈AI, 구글, 앤스로픽 등의 범용 AI 모델이든, 웜GPT, 울프GPT(WolfGPT), 프로드GPT(FraudGPT), 루프GPT(LoopGPT), 다크GPT(DarkGPT), 다크버트(DarkBert), 포이즌GPT(PoisonGPT), 이블GPT(EvilGPT), 이블AI(EvilAI), 고스트GPT(GhostGPT) 등 언더그라운드에서 판매되는 무검열 모델이든 간에 비슷한 성과를 기대하기 어렵다는 것이다.
포어스카우트는 기회주의적 공격자를 가정해, “이 코드에서 취약점을 찾아줘”, “이 코드로 익스플로잇을 만들어줘” 같은 단순한 프롬프트에 대해 얼마나 정확한 결과를 도출하는지를 측정했다.
취약점 분석 과제로는 미국 정보고등연구계획국(IARPA)의 STONESOUP 데이터셋 중 C언어 기반 TFTP 서버의 버퍼 오버플로우, C언어 기반 서버 애플리케이션의 널 포인터 역참조 취약점 등 두 가지를 선정했다. 익스플로잇 개발 과제로는 IO NetGarage의 레벨 5 스택 오버플로우 익스플로잇과 레벨 9 메모리 정보 유출 기반 코드 실행 익스플로잇 두 가지를 사용했다.
포어스카우트 연구진은 “형식적인 프롬프트 엔지니어링 절차는 따르지 않았고, 프롬프트는 수작업으로 작성하고 오류 기반으로 반복 수정했다”라며 “프롬프트 안에 인컨텍스트 예시도 포함하지 않았다. 기법 개선 여지가 있지만, 목표는 어디까지나 기회주의 공격자의 실현 가능성 평가였다”라고 설명했다.
결과는 기대 이하
각 LLM에 대해 동일한 작업을 5회 반복 수행하며 응답 변동성을 감안했다. 익스플로잇 개발 과제에서는 첫 번째 과제를 통과하지 못한 모델은 두 번째로 넘어가지 못하도록 했다. 테스트 대상은 허깅페이스 기반 오픈소스 모델 16종, 사이버 범죄 포럼 및 텔레그램 채널 등에서 입수한 비공식 모델 23종, 그리고 상용 모델 18종이었다.
오픈소스 모델은 모든 과제에서 가장 낮은 성과를 보였다. 추론 모델 두 개만 첫 번째 취약점 분석 과제에 부분적으로 올바른 답을 도출했지만, 두 번째 분석 과제와 첫 번째 익스플로잇 개발 과제는 모두 실패했다.
언더그라운드에서 수집한 모델 중에서는 텔레그램 봇이나 웹 기반 인터페이스로 테스트 가능한 11종만 실험에 포함됐다. 이들은 오픈소스보다 성능은 나았지만, 4,096자 제한이나 일일 프롬프트 수 제한, 문맥 손실, 오탐/누락 빈도 등으로 인해 익스플로잇 개발에는 부적합했다.
“웹 기반 모델은 모두 ED1 과제를 통과했지만, 일부는 지나치게 복잡한 기법을 사용했다”라며 “웨폰나이즈드GPT(WeaponizedGPT)는 단 2회 반복만에 작동하는 익스플로잇을 생성해 가장 효율적이었다”라고 평가했다. 플로우GPT 계열 모델은 여전히 코드 포맷 문제로 활용도가 낮았고, ED1을 통과한 모든 모델은 ED2 과제에는 실패했다.
나머지 12종 언더그라운드 모델은 접근 불가, 판매자의 데모 거절, 유료 사용 가치 부족 등의 이유로 테스트하지 못했다.
상용 모델은 전반적으로 가장 좋은 성과를 보였다. 특히 첫 번째 취약점 분석 과제에서 뛰어났지만, 일부는 환각 현상도 보였다. 챗GPT o4, 딥시크 R1, 펜테스트GPT(PentestGPT) 등 추론 기반 모델이 우수한 결과를 냈으며, 펜테스트GPT는 해킹 특화 상용 모델 중 유일하게 ED1 익스플로잇을 완성했다.
총 9종 상용 모델이 ED1을 통과했으며, 딥시크 V3는 디버깅 없이도 첫 시도에서 익스플로잇을 완성해 두각을 나타냈다. 이 모델은 ED2 과제도 성공한 세 모델 중 하나였고, 나머지는 제미나이 프로 2.5 익스페리멘털, 챗GPT o3-미니-하이였다.
“현실의 익스플로잇은 테스트보다 훨씬 높은 기술력을 요구한다”라며 “ED1과 ED2를 통과한 모델에서도 비현실적 명령어, 기초 산술 오류, 잘못된 접근법 고착, 응답 누락 등 다수 문제가 반복되었다”라고 분석했다.
‘초보 해커’에게는 여전히 어려운 현실
포어스카우트 연구진은 현재의 생성형 AI가 취약점 분석이나 익스플로잇 개발에 대한 진입장벽을 낮췄다고 보기는 어렵다고 평가했다. 현재 모델은 초보 사이버범죄자가 극복하기에는 문제가 너무 많다는 이유에서다.
사이버 범죄 포럼 내 논의도 이를 뒷받침한다. 연구진에 따르면, 경험이 부족한 공격자가 생성형 AI에 대해 과도한 기대를 품는 반면, 노련한 공격자는 이러한 도구의 실효성에 회의적 반응을 보이고 있다.
그러나 에이전틱 AI의 발전과 추론 기반 모델의 고도화는 이 판도를 바꿀 수 있다. 기업은 이에 대응해 심층 방어, 최소 권한 원칙, 네트워크 분리, 사이버 위생, 제로 트러스트 접근 제어 같은 기초 보안 원칙을 더 효과적으로 실천해야 한다.
연구진은 “AI가 공격의 진입장벽을 낮춘다면 빈도는 증가할 수 있으나, 반드시 정교해지는 것은 아니다”라며 “방어 전략을 새로 짤 필요는 없고, 기존 전략을 더욱 역동적이고 실효적으로 적용하는 데 집중해야 한다. 중요한 점은 AI는 위협일 뿐 아니라 방어자에게도 강력한 도구라는 점이다”라고 결론지었다.
dl-itworldkorea@foundryco.com
관련자료
-
링크
-
이전
-
다음






