마이크로소프트 레드팀 보고서 “AI 보안에 완벽이란 없어”

작성자 Keiminem쪽지보내기 자기소개 아이디로 검색 전체게시물
작성일 2025.01.20 09:56

조회 798

마이크로소프트의 보안 테스트 레드팀 그룹이 100개 이상의 생성형 AI 제품을 대상으로 안전하고 안전한 AI 시스템을 구축하는 작업에는 결코 끝이 없다는 결론을 내렸다.

지난 주 발표된 논문에서 마이크로소프트 애저 CTO 마크 루시노비치를 비롯한 여러 저자는 팀 작업을 설명하고 “실제 위험에 맞춰 레드 팀 활동을 조정”하기 위해 고안된 8가지 권장 사항을 제안했다.

수석 저자인 블레이크 불윙켈 마이크로소프트 AI 레드팀 연구원과 25명의 공동 저자는 논문에서“생성형 AI 시스템이 도입되는 부문이 늘어나면서 AI 레드팀은 AI 기술의 안전과 보안을 평가하는 핵심 관행으로 부상했다”라고 썼다.

연구진은 “AI 레드 팀의 핵심은 엔드투엔드 시스템에 대한 실제 공격을 에뮬레이션해 모델 수준의 안전 벤치마크를 뛰어넘는 것이다. 그러나 레드팀 운영 방식에 대한 많은 의문과 현재 AI 레드팀 활동의 효과에 대한 회의적인 시각이 존재한다”라고 기술했다.

이 논문은 2018년에 결성된 마이크로소프트 AI 레드팀(AIRT)이 주로 전통적인 보안 취약점과 고전적 머신러닝 모델에 대한 우회 공격을 식별하는 데 초점을 맞췄고 “이후 두 가지 주요 트렌드에 따라 마이크로소프트의 AI 레드팀 범위와 규모가 크게 확대됐다”라고 밝혔다.

첫 번째는 AI가 더욱 정교해졌다는 것이고, 두 번째는 최근 마이크로소프트의 AI 투자로 인해 레드팀 협업이 필요한 제품이 더 많이 개발됐다는 것이다. 양적 증가와 AI 레드팀 구성의 범위 확대로 인해 완전한 수동 테스트가 불가능해졌고, 자동화의 도움으로 운영을 확장해야만 했다.

AIRT는 “목표를 달성하기 위해 운영자가 레드팀 운영에 많이 활용하는 오픈소스 파이썬 프레임워크인 파이릿(PyRIT)을 개발했다. 파이릿으로 사람의 판단력과 창의력을 보강함으로써 영향력 있는 취약점을 더 빨리 식별하고 더 많은 위험 환경을 다룰” 수 있게 되었다.

불윙켈과 저자는 경험을 바탕으로 한 8가지 교훈을 공유하고 자세한 설명과 사례 연구를 통해 논문에 자세히 설명했다. 내용의 핵심을 정리해 보았다.

시스템이 무엇을 할 수 있고 어디에 적용되는지 이해하라

AI 레드팀 운영의 첫 번째 단계는 어떤 취약점을 목표로 삼을지 결정하는 것이다. 저자는 “공격 전략이 아닌 잠재적인 다운스트림 영향에서 시작하면 실제 위험과 관련된 유용한 결과를 도출할 가능성이 높아진다. 이러한 영향이 확인되면 레드팀은 역방향으로 작업해 공격자가 이를 달성하기 위해 취할 수 있는 다양한 경로를 개략적으로 파악할 수 있다”라고 제안했다.

AI 시스템을 무너뜨리기 위해 기울기를 계산할 필요는 없다

이 논문은 증명을 위해 적대적 머신러닝 연구와 실제 사이의 격차에 대한 연구를 예로 들었다. 연구에 따르면 “대부분의 적대적 머신러닝 연구는 정교한 공격을 개발하고 방어하는 데 초점을 맞추고 있지만, 실제 공격자는 목표를 달성하기 위해 훨씬 더 간단한 기술을 사용하는 경향이 있다”라고 한다. 저자는 그래디언트 기반 공격은 강력하지만 비실용적이거나 불필요한 경우가 많다고 말했다. 실제 공격자가 시도할 가능성이 높기 때문에 간단한 기법을 우선순위에 두고 시스템 수준의 공격을 조율하는 것이 좋다.

AI 레드팀은 안전 벤치마킹이 아니다

저자는 레드팀과 안전 벤치마킹이 서로 다르지만 “둘 다 유용하며 상호 보완적일 수도 있다”라고 기술했다. 특히 벤치마크를 사용하면 공통 데이터 세트에서 여러 모델의 성능을 쉽게 비교할 수 있다. AI 레드팀은 훨씬 더 많은 사람의 노력이 필요하지만 새로운 범주의 피해를 발견하고 상황에 맞는 위험을 조사할 수 있다. AI 시스템의 새로운 기능으로 인해 발생하는 새로운 피해는 완전히 이해되지 않을 수 있으므로 팀은 정의와 측정에 필요한 도구를 구축해야 한다.

자동화는 더 많은 위험 환경을 커버하는 데 도움이 될 수 있다

저자에 따르면 “AI 위험 환경의 복잡성으로 인해 취약점을 더 빠르게 식별하고, 정교한 공격을 자동으로 실행하며, 훨씬 더 큰 규모의 테스트를 수행할 수 있는 다양한 도구가 개발되고 있다”라고 한다. AI 레드팀 구성에서 자동화는 매우 중요한 역할을 하며, 이는 오픈 소스 프레임워크인 PyRIT의 개발로 이어졌다.

AI 레드팀 구성에서 인적 요소는 매우 중요하다

자동화도 중요하지만, 저자는 “파이릿 같은 자동화는 프롬프트를 생성하고 공격을 조율하며 응답을 채점함으로써 레드팀 운영을 지원할 수 있지만, 문화 및 주제에 대한 지식과 감성 지능을 위해서는 사람이 필요하다”라고 강조한다. 이들은 “이러한 도구는 유용하지만 인간을 배제하려는 의도로 사용해서는 안 된다”라고 지적했다.

책임감 있는 AI(RAI)의 피해는 만연하지만 측정하기 어렵다

논문의 결론은 RAI의 피해는 보안 취약성보다 더 모호하며, 이는 모두 “AI 시스템과 기존 소프트웨어 간의 근본적인 차이”와 관련이 있다는 것이다. 저자는 대다수 AI 안전 연구가 고의적으로 가드레일을 위반하는 악의적인 사용자에 초점을 맞추고 있지만, 실수로 유해한 콘텐츠를 생성하는 선의의 사용자도 그에 못지않거나 더 중요하다고 주장한다.

LLM은 기존의 보안 위험을 증폭시키고 새로운 보안 위험을 야기한다

여기서 조언은 생성형 AI 모델이 다양한 애플리케이션에 통합되면서 새로운 공격 벡터가 등장하고 보안 위험 환경이 변화하고 있다는 것이다. 저자는 “따라서 AI 레드팀은 기존(일반적으로 시스템 수준)과 새로운(일반적으로 모델 수준) 위험을 모두 고려할 것을 권장한다”라고 기술했다.

AI 시스템을 보호하는 작업은 결코 완전하지 않다

연구진은 기술 발전만으로 AI 안전을 보장하거나 ‘해결’할 수 있다는 생각은 비현실적이며 경제성, 고장 주기, 규제가 할 수 있는 역할을 간과하는 것이라고 설명했다. 논문은 “안전과 보안이 보장되지 않는 상황에서 가능한 한 깨지기 어려운 AI 시스템을 개발하는 방법이 필요하다”라고 지적했다. 한 가지 방법은 시스템이 광범위한 공격에 견딜 수 있을 때까지 여러 차례의 레드팀과 완화를 수행하는 브레이크 픽스 주기를 사용하는 것이다.

보고서의 저자는 AI 레드팀은 AI 시스템으로 인한 안전과 보안 위험을 식별하기 위한 초기 단계이며 빠르게 발전하고 있는 관행이라고 결론지었다. 그러나 “설득, 속임수, 복제와 같은 LLM의 위험한 기능을 어떻게 조사해야 할까? 비디오 생성 모델에서 어떤 새로운 위험을 조사해야 하며, 현재 최첨단보다 더 발전된 모델에서 어떤 기능이 나타날 수 있을까?” 같은 의문도 제기했다.

둘째, 레드팀이 다양한 언어적, 문화적 맥락에 맞춰 어떻게 관행을 조정할 수 있는지 물었다. 세 번째로 레드팀이 조사 결과를 더 쉽게 전달할 수 있도록 레드팀 운영 방식을 어떤 방식으로 표준화해야 하는지 질문했다.

논문은 또한 “전 세계 기업, 연구 기관, 정부가 AI 위험 평가를 수행하는 방법에 대해 고민하는 가운데 마이크로소프트에서 100개 이상의 생성형 AI 제품을 레드팀으로 진행한 경험을 바탕으로 실용적인 권장 사항을 제공한다. 다른 사람들이 이러한 교훈을 바탕으로 논문에서 강조한 미해결 문제를 해결해 나가기를 바란다”라고 끝을 맺었다.
dl-itworldkorea@foundryco.com