News Feed

‘안전 판정’ 받은 AI 에이전트 스킬의 배신…정적 스캔 한계 드러나

컨텐츠 정보

  • 조회 51

본문

보안 검사를 통과한 가짜 AI 에이전트 스킬이 인스타그램을 통해 2만6,000명 이상의 사용자에게 배포된 것으로 나타났다. 이번 사례는 기업이 AI 기반 도구에 의존하는 환경에서 새로운 보안 위험을 보여준다고 AIR는 설명했다.

AIR에 따르면 일부 에이전트는 기업 계정과 연결돼 있었다. 또한 유사한 공격이 실제로 이뤄졌다면 개인 대화 내용과 내부 시스템이 노출될 수도 있었다고 지적했다. 이번 연구에서는 어떤 에이전트도 피해를 입지 않았으며, 테스트용 페이로드는 사용자에게 실험 사실을 알리기 위한 목적으로 이메일 주소만 수집했다고 덧붙였다.

실험의 중심에는 brand-landingpage라는 스킬이 있었다. 이 스킬은 사용자가 구글의 스티치(Stitch) 디자인 도구를 활용해 랜딩 페이지를 제작할 수 있도록 지원하는 기능으로 소개됐다. AIR는 마케터, 영업 담당자, 디자이너 등 비기술 직군의 기업 사용자가 관심을 가질 만한 활용 사례를 의도적으로 선택했다고 설명했다.

스킬의 신뢰성을 높이기 위해 AIR는 깃허브 평판과 보안 스캐너의 안전 판정을 활용했다. 자체적으로 신뢰를 구축하는 대신 약 3만6,000개의 깃허브 스타와 156개의 스킬을 보유한 인기 오픈소스 에이전트 저장소에 해당 스킬을 제출했으며, 며칠 뒤 풀 리퀘스트가 병합됐다.

이후 AIR는 인스타그램 광고를 통해 해당 스킬을 홍보했고, 이를 통해 사용자가 스킬을 설치하고 실행하도록 유도했다.

악성 기법은 제출된 파일 내부에 의심스러운 코드를 포함하는 방식이 아니었다. 대신 스킬은 에이전트에게 AIR가 관리하는 stitch-design.ai 도메인에 게시된 설치 안내를 따라 스티치 SDK를 설정하도록 지시했다. 실제 구글 스티치 서비스의 도메인은 stitch.withgoogle.com이다.

AIR는 가짜 도메인이 실제 스티치 사이트로 리디렉션되도록 구성해 스킬 자체에 대한 정적 검토만으로는 문제를 발견하기 어렵게 만들었다고 설명했다.

AIR는 “현재 사용되는 스킬 보안 스캐너는 모두 비슷한 구조를 갖고 있으며, SKILL.md 파일과 함께 제공되는 리소스를 정적 휴리스틱과 대규모 언어 모델 기반 분석을 조합해 검사한다”고 밝혔다.

또한 시스코, 엔비디아, skills.sh의 스캐너를 대상으로 테스트한 결과, 모두 brand-landingpage를 안전한 스킬로 판정했다고 전했다.

스킬이 충분히 배포된 이후 AIR는 가짜 스티치 문서의 내용을 변경했다. 수정된 페이지는 에이전트에게 스크립트를 내려받아 실행하도록 지시했으며, 실험에서는 해당 스크립트가 사용자 이메일 주소만 수집하도록 설계됐다. 그러나 AIR는 동일한 방식으로 에이전트를 실행하는 시스템 자체를 침해하는 공격도 가능했을 것이라고 경고했다.

AIR는 이번 실험을 통해 AI 에이전트 스킬을 승인 또는 설치 시점에 패키지 파일만 검사하는 방식으로는 충분히 평가할 수 없다는 점이 드러났다고 밝혔다. 심사를 통과한 스킬이라도 나중에 내용이 변경되는 웹페이지를 참조하도록 설계될 수 있기 때문이다.

AI 스킬도 소프트웨어 공급망 위험으로 관리해야

보안 담당자가 우려해야 할 부분은 스킬이 심사를 통과했다는 사실뿐 아니라, 신뢰가 부여된 이후에도 동작 방식이 바뀔 수 있다는 점이다.

사이버보안 연구원 데바슈리 다타에 따르면 이번 사례는 CISO가 AI 스킬을 단순한 프롬프트나 텍스트 파일이 아니라 기업 소프트웨어 공급망의 일부로 관리해야 함을 시사한다.

다타는 “에이전트 스킬을 단순한 텍스트나 프롬프트로 취급하는 것은 근본적인 아키텍처 오해”라며 “스킬은 에이전트의 동작 방식과 기업 시스템과의 상호작용, 데이터 흐름을 결정하는 실행 가능한 지시 묶음으로, 외부 오픈소스 패키지나 SaaS 연동과 동일한 수준의 관리 체계가 필요하다”고 강조했다.

콘피디스의 창립자 겸 CEO인 키스 프라부 역시 AI 에이전트 스킬을 고정된 플러그인이 아니라 “끊임없이 변화하는 제3자 의존 요소”로 취급해야 한다고 말했다.

프라부는 “한 번의 보안 검사만으로는 충분하지 않으며, 기업은 지속적인 검증과 엄격한 런타임 통제를 수행해야 한다”고 말했다.

이를 위해서는 기업 전체의 AI 스킬 목록을 구축해 보안팀이 각 스킬의 책임 주체와 외부 연결, 허용된 데이터 흐름을 명확히 파악할 수 있어야 한다고 설명했다.

다타는 이번 사례가 시점 기반의 정적 스캔이 대규모 언어 모델 중심 환경에 적합하지 않다는 점도 보여준다고 지적했다. 실제 페이로드가 제출된 패키지 내부가 아니라 배포 후 변경 가능한 외부 URL 뒤에 숨겨져 있었기 때문에 스캐너가 이를 탐지하지 못했다는 것이다.

런타임 검증이 핵심

다타는 외부 지침이나 소프트웨어 구성 요소를 가져오는 모든 스킬에 대해 버전 고정과 변경 불가능한 참조 추적을 의무화해야 한다고 제안했다. 또한 이런 콘텐츠는 로컬에 저장하고 암호학적 해시와 연결해 기업이 직접 통제하는 환경에서 호스팅해야 한다고 설명했다.

또한, 보안팀은 에이전트 수준에서도 최소 권한 원칙을 적용해 스킬이 사용자 전체의 데이터 접근 권한을 그대로 상속받지 못하도록 해야 한다고 덧붙였다.

프라부는 보안 책임자가 AI 에이전트 스킬을 최초 승인 시점뿐 아니라 전체 수명주기에 걸쳐 평가해야 한다고 강조했다. 직원이 승인된 마켓플레이스와 사전 검증된 스킬만 사용하도록 제한하고, 스킬이 참조하는 외부 URL을 검증하며, 배포 전에 샌드박스 환경에서 설치 동작을 시험해야 한다는 것이다.

아울러 런타임 단계에서는 승인된 도메인으로만 네트워크 호출을 허용하고 비정상적인 활동을 지속적으로 모니터링해야 한다고 말했다. 설치 당시에는 안전해 보였던 스킬도 신뢰를 획득한 이후 동작이 바뀔 수 있기 때문에 이런 방어 계층이 필수적이라는 설명이다.
dl-itworldkorea@foundryco.com

관련자료

댓글 0
등록된 댓글이 없습니다.
Member Rank