LLM을 학습한 추출 모델, 작아도 위험은 동일

작성자 Keiminem쪽지보내기 자기소개 아이디로 검색 전체게시물
작성일 2025.04.02 11:06

조회 670

대형 언어 모델(LLM)이 주류가 되면서 AI 기반 애플리케이션의 범위가 한층 더 확장되고, 그만큼복잡성도 늘었다. 물론 대가도 따른다. 많은 현실 시나리오에서 대형 언어 모델은 높은 비용과 지연 시간 때문에 실용성이 낮다.

모델 압축 입력은 AI 엔지니어가 매개변수가 높은 모델의 가장 유용한 측면을 훨씬 작은 모방 모델에 담기 위해 사용하는 기술이다. 더 큰 “교사” 모델의 행동을 복제하기 위해 더 작은 “학생” 모델을 훈련시킨다.

NCC 그룹의 기술 이사 데이비드 브라우클러는 “모델 추출로 엔지니어는 파라미터가 더 적은 모델에서 계산 공간을 줄이면서 고파라미터 모델의 운영 용량 상당 부분을 포착할 수 있”라고 말했다. 브라우클러에 따르면 모델 추출은 일반화된 교사 모델보다 목적이나 지식 영역에 제한이 있는 학생 모델에 가장 효과적이다.

추출을 통해 기업은 비용 절감, 더 빠른 추론, 더 나은 운영 효율성을 달성할 수 있지만, 추출된 모델은 원래 모델의 몇 가지 다른 위험을 그대로 물려받는다는 점에도 주의해야 한다.

교사 모델 부담을 떠맡은 학생 모델

추출된 모델은 훈련 데이터에 내재된 보안 위험을 포함해 원래 모델의 행동의 상당 부분을 그대로 물려받는다. 지적 재산권 도용, 개인 정보 유출, 모델 반전 공격 등의 위험을 그대로 떠안는 것이다.

브라우클러는 “일반적으로 모델 추출은 원래 더 큰 교사 모델이 소비한 훈련 데이터와 교사 모델의 유효한 결과(결과의 확률 분포 등) 예측을 사용한다. 결과적으로, 학생 모델이 훈련 세트의 민감한 데이터를 포함해 교사 모델과 동일한 행동을 많이 기억할 수 있는 기회가 생긴다”라고 설명했다.

교사 모델의 보안 취약점은 잠재 지식, 편견, 결함의 전달을 통해 학생에게까지 영향을 미친다. 즉, GPT-2의 학생 모델인 디스틸GPT-2는 2020년 GPT-2에서 언어 모델을 쿼리한 후 텍스트 시퀀스를 추출한 시연과 마찬가지로 데이터서 개인 식별 정보(PII)를 유출할 수 있는 능력이 있다는 의미다.

2020년 한 연구는 블랙박스 추출 기법을 통해 LLM 모델이 반전 공격에 취약할 가능성이 있음을 확인했다. 브라우클러에 따르면 모델이 작을수록 함수가 단순해지며, 모델 반전 같은 보안 공격에 더 취약한 경우가 많다.

지혜를 전달 받지만 취약성은 커져

학생 모델은 스스로 맥락을 이해하지 않고 교사 모델의 사전 학습된 결론에 크게 의존한다. 이러한 제한이 모델 환각으로 이어질 수 있는지에 대해서는 전문가 사이에서 많은 논란이 있다.

브라우클러는 훈련 방식에 관계없이 학생 모델의 효율성은 곧 교사 모델의 효율성과 관련이 있다고 생각한다. 즉, 교사 모델에서 환각이 없으면 학생 모델에도 없을 가능성이 높다는 의미다.

가트너의 애널리스트 아룬 찬드라세카란도 대부분 동의하면서, 학생 모델은 규모와 목적에 있어 새로운 환각을 보이는 문제점이 있다고 설명한다.

찬드라세카란은 “추출 자체로 바로 환각 비율이 높아지지는 않지만, 학생 모델이 작을 경우 교사 모델의 모든 뉘앙스를 포착하는 능력이 부족할 수 있고, 오류나 지나친 단순화가 더 많이 일어날 위험이 있다”라고 말했다.

모델이 환각을 일으키면 위협 행위자가 환각을 악용해 출력을 조작하는 적대적인 메시지를 생성할 수 있으며, 정보 캠페인이 잘못되거나 AI 기반 악용 공격이 발생할 수 있다.

악의적 행위자가 사용한 모델 환각 사례로는 2023년에 발견된 웜GTP가 있다. 웜GPT는 검증되지 않았고 편향 가능성이 있으며 적대적인 데이터로 의도적으로 훈련되어 법적 용어, 비즈니스 프로세스, 재정 정책에 대한 환각을 만들었고, 설득력 있지만 완전히 조작된 피싱 이메일과 사기 콘텐츠를 생성한다.

한층 간편해진 AI 공격

추출된 모델은 모델 추출 공격을 시도하는 적대자들의 장벽을 낮춰 준다. 공격자는 이러한 모델을 광범위하게 쿼리함으로써 의사 결정 경계를 추정하고, 기능적으로 유사한 모델을 재현할 수 있다. 그리고 이 모델은 보안 제약이 줄어든 경우가 많다.

찬드라세카란은 “일단 공격자가 모델을 추출하면, 잠재적으로 보안 조치나 원본 모델에 내장된 독점 지침을 우회하도록 모델을 수정할 수 있다”라고 말했다. 특정 입력을 무시하거나 공격자의 목표에 부합하는 출력을 생성하도록 모델의 동작을 변경하는 것이 포함된다.

그러나 브라우클러는 추출 모델을 이용한 모델 추출 공격의 주된 동인은 AI 모델의 독점적인 보안 가드레일을 우회하는 것이 아니라고 주장했다. 모델 추출은 일반적으로 독점적인 모델의 성능을 확보하려는 의도로 악용되며, 가드레일을 우회하려는 명시적인 목적으로 악용되는 경우는 드물다는 것이다. 브라우클러는 AI 가드레일을 우회하는 훨씬 덜 까다로운 기술이 있다고 말했다.

브라우클러는 추출을 위해 정제된 모델을 사용하는 대신, 모델 추출 공격이 모델 정제와 매우 유사하다는 점을 고려해 위협 행위자가 악성 모델을 더 선명한 버전으로 위장할 수 있다고 설명했다.

특히, 독점 모델이 확률 분포(소프트 라벨)를 제공할 때 위협 행위자가 정제 방법을 활용해 대상 모델의 기능적 행동을 복제할 수 있기 때문에 위험이 발생한다. 브라우클러는 출력 라벨만 사용해도 유사한 공격을 실행할 수 있지만, 확률 분포가 없으면 공격의 효과가 크게 감소한다고 덧붙였다.

요약하자면, 추출은 잠재적으로 추출 공격에서 소스 모델의 행동을 복제하는 데 사용되거나 보안 우회로 추출 후 추출 시도를 가능하게 함으로써 모델을 추출에 노출시킬 수 있다.

항상 보호되지는 않아

추출의 또 다른 단점은 해석 가능성이다. LLM은 보안 팀이 근본 원인 조사에서 광범위한 로그와 복잡한 의사 결정 경로를 분석할 수 있다는 이점이 있다. 그러나 정제된 모델은 이러한 세분성이 부족해 취약점을 진단하거나 보안 사고를 추적하기가 더 어렵다.

찬드라세카란은 “사고 대응의 맥락에서 학생 모델의 세부 로그와 매개 변수가 부족하면 근본 원인 분석을 수행하기가 어려울 수도 있다”라고 말했다. 보안 연구자는 보안 사고를 일으킨 정확한 조건이나 입력을 파악하거나 공격자가 취약점을 악용한 방법을 이해하는 것이 더 어려울 수 있다는 뜻이다.

불투명성이 생기면 방어 전략이 복잡해지고. 보안 팀이 내부 AI 감사 추적보다는 외부 모니터링 기술에 의존할 수밖에 없다.

AI의 저주와 싸워라

추출된 모델의 보안 위험도 급박하지만, 더 광범위한 위험은 모든 취약점의 주요 원인이 되는 AI 보안 자체의 초기 상태다.

크라우클러는 “AI 가드레일은 보안 경계가 아니라, 방어적 심층 통제의 수준이 낮은 상태”라고 지적했다. 또한 “여러 애플리케이션 환경에서 이미 관찰된 바와 같이, 시스템이 에이전트 중심적 맥락으로 이동함에 따라, AI 엔지니어링 업계는 가드레일에 의존하는 것이 중요 시스템에 깊고 영향력 있는 보안 취약점을 초래한다는 사실을 금세 알게 될 것”이라고 경고했다.

또한 개발자가AI 애플리케이션 아키텍처에 대한 사고 방식을 바꾸어야만, 신뢰 기반 액세스 제어를 염두에 둔 시스템 설계로 나아갈 수 있을 것이라고 조언했다.
dl-itworldkorea@foundryco.com