가드레일 환상에서 벗어나야 할 때, 기업 인공지능 보안의 현실
컨텐츠 정보
- 조회 345
본문
유명 인공지능 기업이 제공하는 가드레일이 손쉽게 우회될 수 있다는 사실은 이미 새로운 이야기가 아니다. 문제는 기업 정보기술 리더가 해당 현실에 어떻게 대응해야 하는가이다.
정보기술 의사결정자가 가드레일이 일관되게 아무것도 보호하지 못한다는 점을 받아들이는 순간, 인공지능 프로젝트에 대해 전제해 왔던 가정 대부분은 의미를 잃게 된다. 데이터 보호를 위한 다른 기술을 반드시 도입해야 한다.
가드레일 우회 사례 보고는 급증하고 있다. 시를 활용하면 보호 장치가 해제되며, 대화 기록 활용, 보이지 않는 문자 삽입, 16진수 형식과 이모지 사용도 같은 결과를 낳는다. 여기에 인내심을 갖고 장기전을 펼치는 방식 등까지 더해지면, 사실상 모든 생성형 AI와 에이전트형 모델에 심각한 영향을 미칠 수 있다.
위험은 공격자가 무엇을 할 수 있는지에만 국한되지 않는다. 모델 스스로도 목표 달성에 방해가 된다고 판단하면 자체 보호 장치를 무시하려는 성향을 보였으며, 앤트로픽은 해당 사실을 확인한 바 있다.
가드레일이라는 명칭의 기원이 된 비유를 확장해 보면, 인공지능의 “가드레일”은 물리적 콘크리트 방호벽 의미의 가드레일이 아니다. 과속 방지턱 수준의 강력한 억제 수단조차 아니다. 단속도, 실질적인 억제력도 없는 끊어진 중앙선에 더 가깝다.
대중 소셜 미디어 영상 블로거 라이언 조지가 영화 기획자 풍자 시리즈에서 사용한 표현을 빌리자면, 오늘날 가드레일을 우회하려는 공격자는 “아주 쉽고, 거의 불편함도 없이” 목적을 달성할 수 있다. 집주인이 모든 문에 “출입 금지” 표지판을 붙여놓고 창문은 열어둔 채 문은 잠그지 않는 것과 다르지 않다.
그렇다면 가드레일이 모델이나 에이전트를 통제하지 못한다는 사실을 받아들였을 때, 인공지능 프로젝트는 어떤 모습이어야 할까?
IT 부서에는 몇 가지 선택지가 있다. 첫째, 모델 또는 에이전트를 보호 대상 데이터와 물리적·논리적으로 분리하는 방식이다.
컨설팅 기업 퓨전 콜렉티브 CEO 이베트 슈미터는 “감독 없이 사람에게 부여하지 않을 권한을 인공지능 시스템에 부여하는 행위를 중단해야 한다”며 “사람의 의사결정에 요구하는 동일한 감사 지점, 승인 워크플로, 책임 구조를 알고리즘 의사결정에도 적용해야 한다”고 말했다. 이어 “가드레일을 신뢰할 수 없다는 점을 인식한다는 것은 실패가 드러나는 시스템을 설계한다는 의미”라며 “환각을 일으키는 직원이 시간당 1만 건의 중대한 결정을 감독 없이 내리도록 두지 않을 것이다. 인공지능 시스템에도 동일한 행위를 허용해서는 안 된다”고 강조했다.
사이버 보안 업체 일루미넥스 CEO 게리 롱사인도 같은 의견을 밝혔다. 기업이 직원의 무단 데이터 접근을 차단하기 위해 사용하는 방어 수단을 이제는 생성형 AI와 인공지능 에이전트에도 적용해야 한다는 주장이다. 롱사인은 “실질적으로 할 수 있는 유일한 방법은 대규모 언어 모델 외부에 존재하는 모든 것을 보호하는 것”이라고 말했다.
극단적으로는 생성형 AI 모델을 격리된 환경에 두고, 접근을 허용한 데이터만 제공하는 방식이 될 수 있다. 완전한 물리적 분리는 아니지만 상당히 근접한 형태다. 모델이 접근할 수 없는 데이터는 유출하도록 속일 수 없다.
미국 대형 금융기업 캐피털원은 유사한 접근을 검토한 바 있다. 자동차 딜러십을 위한 생성형 AI 시스템을 구축하면서, 사용한 대규모 언어 모델에는 공개 데이터만 접근하도록 했다. 또한 오픈소스 모델을 활용하고 초대형 클라우드 사업자를 피함으로써 또 다른 가드레일 문제도 완화했다. 클라우드 환경에서 제3자 기업이 에이전트를 적극적으로 관리할 경우, 자체 규칙이 반드시 지켜진다고 보장할 수 없다. 통제권을 되찾는다는 것은 말 그대로 그 통제를 회수하는 행위일 수 있다.
롱사인은 일부 기업이 협력해 자체 데이터센터를 구축할 수도 있다고 언급했지만, 해당 시도는 매우 야심 차고 비용도 막대하다고 평가했다. 롱사인은 비용을 20억 달러로 추산했으나, 실제 비용은 훨씬 더 커질 수 있으며 문제를 의미 있게 해결하지 못할 가능성도 있다고 덧붙였다.
가령 5개 기업이 공동으로 데이터센터를 구축해 해당 기업만 접근할 수 있도록 한다고 가정해 보자. 규칙은 누가 정할 것인가? 경영진 교체 가능성을 고려할 때, 어느 한 기업이 나머지 4개 기업을 얼마나 신뢰할 수 있을지도 문제다. 결국 초대형 클라우드 사업자를 더 작은 임시 초대형 사업자로 대체하는 결과가 될 수 있으며, 통제 문제는 그대로 남을 가능성이 크다.
가장 고통스러운 지점은 현재 존재하는 다수의 생성형 AI 개념 검증 프로젝트가, 경영진이 가드레일에 대한 믿음을 거두는 순간 작동하지 않게 된다는 사실이다. 이사회 차원에서는 여전히 팅커벨 전략이 유효한 듯 보인다. 투자자 모두가 손뼉을 크게 치기만 하면 가드레일이 작동할 것이라고 믿는 분위기다.
직원의 인사 정보 조회를 허용하는 인공지능 배치를 예로 들어보자. 이런 시스템은 직원이나 관리자가 접근 권한을 가진 정보만 제공하도록 설계된다. 그러나 이런 애플리케이션과 수많은 유사 사례는 손쉬운 개발 방식을 택한다. 모델에 모든 인사 데이터 접근 권한을 부여한 뒤, 가드레일이 적절한 접근을 강제할 것이라고 기대하는 방식이다. 인공지능 환경에서는 해당 접근법이 통하지 않는다.
가드레일이 절대 작동하지 않을 것이라고 말하는 것은 아니다. 관찰 결과에 따르면 가드레일은 약 70%~80% 수준에서는 작동한다. 더 정교하게 설계된 배포 환경에서는 90%까지 도달할 수도 있다. 그러나 그 정도 수치가 한계다. 특히 데이터 접근 보호, 그리고 적절한 프롬프트만 있으면 누구에게든 데이터가 유출될 수 있는 상황에서는 90%로는 충분하지 않다. 그 정도면 괜찮다고 판단해 프로젝트를 승인한 정보기술 리더는 2026년에 매우 불편한 현실을 마주하게 될 것이다.
dl-itworldkorea@foundryco.com
관련자료
-
링크
-
이전
-
다음






