AI라는 내부자 위협…권한 관리에 새로운 접근법이 필요하다

작성자 Keiminem쪽지보내기 자기소개 아이디로 검색 전체게시물
작성일 2025.07.15 11:51

조회 371

LLM은 단순한 챗봇에서 벗어나 이제는 사람을 대신해 행동하는 정교한 에이전틱 AI 시스템으로 빠르게 진화하고 있다. 기존 소프트웨어와 달리 AI 에이전트는 엄격하고 사전 정의된 명령만 따르지 않는다. 사용자의 의도를 해석해 자율적으로 결정을 내린다.

이런 유연성 덕분에 기업은 지원 티켓 처리부터 코드 리뷰까지 다양한 업무를 자동화할 수 있지만, 동시에 위험도 크게 늘어난다. AI 에이전트가 의도를 잘못 해석하거나 악의적인 입력을 통해 조작되면 접근해서는 안 될 데이터에 접근하거나 민감 정보를 외부로 노출할 수 있기 때문이다.

이런 위험을 완화하려면 AI 기반 애플리케이션에서 보안과 권한 부여를 적용하는 방식 자체를 재설계해야 한다. 현재의 권한 관리 체계는 사용자가 명확히 정의된 경로를 클릭하는 것을 전제로 만들어졌지, 실행 중에 즉흥적으로 행동하는 봇을 상정하지 않는다. 이제는 AI 에이전트가 수행하는 모든 벡터 검색, API 호출, 데이터베이스 쿼리에 동반할 수 있는 훨씬 더 정교한 접근법이 필요하다.

최근 주목받는 해법은 이미 듀오링고(Duolingo), 인터컴(Intercom), 페이저듀티(PagerDuty)에서 활용 중인 권한 관리 엔진 오소(Oso)다. AI 보안 문제의 유일한 해답은 아니지만, 점점 더 필수적인 구성 요소로 자리 잡고 있다.

경로 밖, 대본 밖 : 에이전틱 시스템의 새로운 위험

최근 이스라엘 보안 업체 에임 시큐리티(Aim Security) 연구팀은 겉보기에 평범한 이메일 안에 지침을 몰래 숨기는 실험을 진행했다. 메시지를 자동 요약하는 마이크로소프트 365 코파일럿은 이를 그대로 따랐고, 클릭 한 번 없이 내부 데이터를 유출했다. 이 실험이 던지는 메시지는 충격적이다. LLM에 광범위한 데이터 접근 권한을 허용하면, 인간의 판단 없이 기계 속도로 작동하는 완벽한 내부자 위협이 될 수 있다.

기존의 보안 통제 시스템은 이런 상황을 고려해 설계되지 않았다.

전통적으로 보안 관리는 사용자 인증 후, 해당 사용자가 어떤 행동이나 데이터에 접근할 수 있는지 점검하는 방식으로 이루어졌다. 이를 위해 오쓰(OAuth) 스코프나 역할 기반 접근 제어(role-based access control, RBAC)를 활용해 각 API 엔드포인트를 보호했다. 하지만 LLM 기반 시스템은 이런 방식을 무너뜨린다.

LLM 에이전트는 여전히 일반적인 API를 호출하지만, 실행 시점에 호출 순서, 파라미터, 데이터 범위를 스스로 결정한다. 이 조합을 사전에 알 수 없기 때문에 기존의 엔드포인트·스코프 기반 제어만으로는 생성되는 모든 요청의 적법성을 보장할 수 없다. 따라서 이제는 각 쿼리나 데이터 요청마다 함께 이동하며 에이전트가 요청을 생성하는 순간 평가되는 권한 관리 방식이 필요하다.

심지어 AI에 특화된 최신 프레임워크조차 이런 문제를 완전히 해결하지 못했다. 예를 들어 앤트로픽의 모델 컨텍스트 프로토콜(Model Context Protocol, MCP)은 AI 에이전트가 도구를 호출하는 방식을 표준화해, ‘에이전트’와 호출 가능한 도구를 깔끔하게 분리한다. 하지만 MCP는 도구 사용 허용 여부를 넓은 수준에서만 제어할 수 있다. 가령 delete_record라는 함수를 노출할 경우, MCP는 에이전트의 delete_record 호출 자체를 막을 수는 있지만 에이전트가 삭제할 수 있는 레코드는 제어하지 못한다.

오소의 그렉 사전트는 “이런 방식은 결국 기본적인 오쓰 수준에서 한 발짝도 더 나아가지 못한 셈”이라고 지적했다. 리소스 단위의 권한 관리(resource-level authorization)를 구현하려면, 접근 제어 로직이 데이터나 실행되는 행동 가까이에 존재해야 한다는 설명이다.

가드레일 접근법

이런 과제에 직면한 업계는 다양한 임시방편을 모색해왔다. 대표적인 방법은 AI의 입력과 출력에 가드레일을 추가하는 것이다. 본질적으로 입력값을 정제(sanitize)하고 출력값을 모니터링하려는 시도다. 이런 가드레일은 3가지 유형으로 나뉜다.

프롬프트 인젝션 필터 : 예를 들면 리버프(Rebuff), 프롬프트가드(PromptGuard)가 있다. 이 방식은 모델에 입력되기 전에 의심스러운 문자열이나 임베딩을 감지해 차단하려고 한다. 이미 알려진 탈옥 시도에는 어느 정도 효과적이지만, 프롬프트 기반 공격은 끝없이 진화한다. 영리한 공격자는 필터가 인식하지 못하는 새로운 형태의 탈옥 기법을 쉽게 끼워 넣을 수 있다.
출력 콘텐츠 필터 : 가드레일즈 AI(Guardrails AI), 니모 가드레일즈(NeMo Guardrails)와 같은 출력 콘텐츠 필터링은 LLM이 출력하려는 내용을 검사해 허용되지 않은 콘텐츠를 걸러내거나 거부한다. 출력 가드레일은 유해한 언어나 명백한 정책 위반을 막는 데는 효과적이지만, 데이터 유출에 대한 완벽한 방어막은 아니다. 애초에 모델이 특정 데이터를 보유하지 않았어야 한다면, 출력 단계에서 걸러내는 것만으로는 충분하지 않다.
제어된 도구 사용 및 샌드박싱 : 랭체인(LangChain)은 처음부터 AI 에이전트가 할 수 있는 일을 제한한다. 예를 들어, 신중히 선별된 일부 도구나 API만 접근할 수 있도록 하고, 이를 샌드박스 환경에서 실행하는 식이다. 합리적인 접근처럼 보이지만, 랭체인은 데이터 수준의 필터링까지는 다루지 않는다. 사용자별로 벡터 검색을 일일이 직접 구성해야 하며, 그 과정에서 놓치는 부분이 없기를 바라야 한다.

이런 접근법은 각각 유용하지만 충분하지 않다. 어느 것도 AI가 사용하는 데이터나 시도하는 작업이 해당 사용자와 맥락에서 적절히 승인됐는지를 보장하지 못한다. 다시 말해, AI는 여전히 스스로 규칙을 지킬 것이라 기대하는 일종의 명예 시스템(honor system)에 의존할 수 있다. 기업 데이터의 보안을 보장하기에 매우 위험한 보안 태세다.

여기서 등장하는 개념이 바로 ‘세분화된 권한 관리(fine-grained authorization)’다. 단순히 AI 주위에 가드만 둘러치는 방식으로는 부족하며, AI의 의사결정 루프 안에 권한 검증 절차를 촘촘히 엮어 넣어야 한다. 이상적인 해법은 AI가 데이터를 조회하거나 작업을 수행하려 할 때마다 자동으로 “누가 무엇을 볼 수 있는지”를 검증하고 적용하는 방식이다. 이것이 바로 오소의 접근법이다.

LLM에 세분화된 권한 관리 적용하기

이 접근법의 핵심은 간단하다. AI 에이전트도 일반 사용자와 동일한 권한 규칙을 적용받아야 한다는 것이다. 예를 들어 오소는 현재 엔터프라이즈 애플리케이션에서 흔히 사용되는 보안형 RAG(Retrieval-Augmented Generation) 워크플로우에 바로 적용할 수 있는 솔루션을 제공한다.

RAG 환경에서는 사용자가 질문을 입력하면, 시스템이 내부 데이터(문서, 기록 등)를 검색해 그 일부를 LLM에 컨텍스트로 전달해 더 정교한 답변을 생성한다. 이때 데이터 조각은 벡터 데이터베이스에 임베딩 형태로 저장되어 있을 수 있다. 오소는 최근 파이썬의 SQL알케미(SQLAlchemy) ORM과의 신규 연동을 통해 이런 검색 쿼리에 기존 권한 규칙을 자동으로 적용하도록 했다. 데이터 검색 단계에서부터 사용자별 접근 권한을 세밀히 통제할 수 있는 것이다.

실제 활용에서는 누가 무엇을 볼 수 있는지에 대한 권한 정책을 오소의 정책 언어 폴라(Polar)로 한 번 정의하면, 오소가 이후 수행되는 벡터 유사도 검색이나 데이터베이스 조회에서 현재 사용자에게 허용된 데이터 조각만 반환되도록 자동으로 필터링한다.

예를 들어 “매니저는 자신의 부서 티켓을 볼 수 있고, 생성자는 본인이 만든 티켓만 볼 수 있다”라는 폴라 규칙 하나만 작성하면, 오소는 해당 규칙에 맞게 SQL 쿼리나 벡터 검색을 자동으로 재작성해 LLM이 권한이 있는 데이터만 보게 한다. 노출이 없으면 유출도 없다. 이는 이상적으로 사람에게 적용하는 최소 권한 원칙(least-privilege doctrine)을 AI 에이전트에게까지 확장한 방식이다.

오소는 내부적으로 정책을 ORM 계층에서 쿼리 조각(query fragment)으로 컴파일해 적용하기 때문에 마이크로서비스 전반에서 일관적으로 권한을 관리할 수 있다. 규칙을 한 번만 업데이트하면 모든 AI 워크플로우에 자동으로 변경 사항이 반영된다. 단순하지만 강력한 AI 보안 접근법이다.

혁신과 보안의 균형 맞추기

AI는 놀라운 가능성을 약속하지만, 그만큼 엄청난 위험도 공존한다. 사용자와 기업은 AI의 꿈이 보안 악몽으로 바뀌지 않을 것이라는 신뢰를 가질 수 있어야 한다. 우리는 그동안 혁신에 몰두한 나머지 보안을 후순위로 밀어내곤 했다. 하지만 AI에서는 그런 실수를 되풀이할 수 없다. 한 번의 잘못이 초래할 대가는 상상 이상이다.

희소식도 있다. 점점 더 실용적인 해법이 등장하고 있다는 점이다. 오소의 AI 권한 관리 모델이 그런 해법 중 하나로, 최소 권한 원칙이라는 개념을 LLM 애플리케이션에서 실질적으로 구현한다. 권한 관리를 AI 시스템의 DNA에 내장함으로써 AI가 낯선 이에게 고객의 민감한 데이터를 아무렇지 않게 제공하는 최악의 상황을 사전에 막을 수 있다.

물론 오소만이 유일한 해답은 아니다. 퍼즐의 조각은 랭체인, 가드레일 라이브러리, LLM 보안 테스트 도구 등 더 넓은 생태계 전반에서 나오고 있다. 개발자는 총체적 관점으로 접근해야 한다. 프롬프트 위생을 관리하고, AI의 기능을 제한하며, 출력 결과를 모니터링하고, 데이터와 작업에 대한 엄격한 권한 관리를 적용해야 한다.

LLM의 에이전트 특성은 본질적으로 어느 정도의 예측 불가능성을 내포하지만, 다층적 방어 체계를 마련하면 그 위험을 허용할 수 있는 수준으로 낮출 수 있다.
dl-itworldkorea@foundryco.com