News Feed

기업용 RAG는 왜 실패하는가…엔터프라이즈 환경에서 RAG를 확장하는 법

컨텐츠 정보

  • 조회 444

본문

검색 증강 생성(Retrieval-augmented generation, RAG)은 생성형 AI를 기업 내부 지식에 연결하는 방식으로 빠르게 자리 잡으며 사실상 기업 환경의 기본 접근법으로 부상했다. RAG는 환각 현상을 줄이고 정확도를 높이는 동시에, 수십 년간 축적된 문서와 정책, 고객 지원 티켓, 조직의 암묵적 지식에 담긴 가치를 끌어낼 방법으로 주목받고 있다. 그러나 개념 검증 단계까지 도달하는 기업은 많아도 이를 실제 운영 환경에서 안정적으로 실행하는 사례는 극히 드물다.

이 간극은 모델 품질과는 관련이 없다. 근본적으로 시스템 아키텍처의 문제다. 많은 조직이 RAG를 LLM의 한 가지 기능처럼 취급하기 때문에 규모가 커질수록 RAG가 한계에 부딪힌다. 진짜 어려움은 프롬프트 설계나 모델 선택이 아니라 데이터 수집과 정제, 검색 최적화, 메타데이터 관리, 버저닝, 인덱싱, 성능 평가, 장기적인 거버넌스에 있다. 지식은 본질적으로 정돈돼 있지 않고 끊임없이 변화하며, 때로는 서로 모순되기도 한다. 아키텍처 차원의 엄격한 설계가 뒷받침되지 않으면 RAG는 쉽게 취약해지고 일관성을 잃으며, 운영 비용도 빠르게 증가한다.

대규모 RAG는 지식을 ‘살아 있는 시스템’으로 다뤄야 한다

시범 단계의 RAG 파이프라인은 겉보기에는 단순하다. 문서를 임베딩해 벡터 데이터베이스에 저장하고, 상위 k개의 결과를 검색해 LLM에 전달하면 된다. 그러나 이 구조는 실제 기업 환경의 복잡성을 마주하는 순간부터 한계를 드러낸다. 정책 문서의 새로운 버전이 지속적으로 추가되고, 오래된 문서가 수개월 동안 인덱스에 남아 있으며, 여러 저장소에 상충되는 데이터가 공존하는 상황이 벌어진다. 여기에 위키, PDF, 스프레드시트, API, 티켓 관리 시스템, 슬랙 스레드 등 다양한 채널에 지식이 흩어져 있는 현실까지 더해지면, 단순한 파이프라인으로는 이를 감당하기 어렵다.

RAG를 본격적으로 확장하는 단계에 들어서면, 데이터 수집과 정제 과정인 인제스천(ingestion)이 전체 시스템의 토대가 된다. 문서는 반드시 표준화된 형태로 정리되고, 불필요한 요소를 제거한 뒤 일관된 기준에 따라 적절한 크기로 분할돼야 한다. 또한 모든 문서는 버전 관리가 이뤄져야 하며, 출처와 최신성, 사용 목적, 신뢰 수준을 반영하는 메타데이터가 함께 부여돼야 한다. 이 계층에서 문제가 발생하면 대부분은 환각 현상으로 이어진다. 검색 계층이 모호하거나 오래된 지식을 반환할 경우, 모델은 그럴듯하지만 사실과 다른 답변을 생성하게 된다.

지식은 코드와 달리 자연스럽게 하나의 정합된 상태로 수렴하지 않는다. 시간이 지나면서 변화하고 분기되며, 불일치가 누적된다. RAG는 이런 지식의 표류 현상을 수면 위로 끌어올리고, 기업이 수십 년간 방치해 온 지식 아키텍처를 근본적으로 현대화하도록 압박하는 역할을 한다.

검색 최적화는 RAG의 성패를 가르는 핵심 요소

대부분은 문서를 임베딩한 뒤에는 검색이 자연스럽게 작동할 것이라고 가정한다. 그러나 RAG의 품질을 좌우하는 요소는 LLM보다 검색 품질에 훨씬 더 크게 의존한다. 벡터 저장소가 수백만 개의 임베딩으로 확장되면, 유사도 검색은 점점 잡음이 많아지고 정확도는 떨어지며 속도도 느려진다. 그 결과 주제는 비슷하지만 의미적으로는 무관한 문서 조각이 다수 검색되는 문제가 발생한다.

해결책은 임베딩을 더 늘리는 데 있지 않다. 더 정교한 검색 전략이 필요하다. 대규모 RAG 환경에서는 시멘틱 벡터에 키워드 검색, BM25, 메타데이터 필터링, 그래프 탐색, 도메인별 규칙을 결합한 하이브리드 검색이 필수적이다. 또한 기업은 자주 반복되는 질의에 대응하는 캐시 계층, 의미적 근거를 제공하는 중간 계층의 벡터 검색, 그리고 장기적이거나 드물게 활용되는 지식을 담는 콜드 스토리지나 레거시 데이터 세트를 포함하는 다층 아키텍처를 구축해야 한다.

검색 계층은 단순한 벡터 조회가 아니라 검색 엔진처럼 동작해야 한다. 질문의 성격과 사용자의 역할, 데이터의 민감도, 정확한 답변에 필요한 맥락을 고려해 검색 방식을 동적으로 선택할 수 있어야 한다. 바로 이 지점에서 많은 기업이 복잡성을 과소평가한다. 검색은 더 이상 부수적인 기능이 아니라, 데브옵스나 데이터 엔지니어링과 동등한 수준의 독립적인 엔지니어링 전문 영역으로 자리 잡는다.

추론, 근거 설정, 검증

아무리 완벽한 검색이 이뤄졌다고 해도, 그것만으로 정답이 보장되지는 않는다. LLM은 제공된 맥락을 무시하거나, 검색된 내용과 기존 학습 지식을 섞어 해석하거나, 누락된 정보를 임의로 보완하거나, 정책 문서를 그럴듯하지만 잘못 해석한 답변을 생성할 수 있다. 실제 운영 환경의 RAG에서는 명확한 근거 설정 지침과 표준화된 프롬프트 템플릿, 그리고 사용자에게 전달되기 전 생성된 답변을 점검하는 검증 계층이 반드시 필요하다.

프롬프트는 소프트웨어처럼 버전 관리되고 테스트해야 한다. 모든 답변에는 명확한 출처가 포함돼야 하며, 어떤 정보에 근거했는지 추적 가능해야 한다. 규제와 컴플라이언스 요구가 강한 분야에서는, 많은 조직이 답변을 그대로 제공하지 않고 2차 대규모 언어 모델이나 규칙 기반 엔진을 거치도록 설계한다. 이를 통해 사실 기반 여부를 검증하고, 환각 패턴을 탐지하며, 보안과 안전 정책을 강제한다.

근거 설정과 검증을 위한 구조가 없다면 검색은 모델 행동을 제약하는 요소가 아니라 선택적으로 참고되는 입력값에 불과해진다.

엔터프라이즈 규모 RAG를 위한 청사진

RAG를 성공적으로 운영하는 기업은 공통적으로 계층형 아키텍처에 기반을 둔다. 이 시스템은 어느 한 계층이 완벽해서 작동하는 것이 아니라, 각 계층이 복잡성을 분리하고 변화에 유연하게 대응할 수 있도록 하며, 전체 시스템을 관측 가능하게 만들기 때문에 안정적으로 동작한다.

아래는 핀테크, SaaS, 통신, 헬스케어, 글로벌 유통 등 다양한 산업에서 대규모로 RAG를 구축·운영하는 과정에서 정립된 참조 아키텍처다. 이 구조는 인제스천과 검색, 추론, 에이전트 기반 자동화가 어떻게 하나의 일관된 플랫폼 안에서 유기적으로 결합되는지를 보여준다.

이들 요소가 어떻게 유기적으로 맞물리는지를 이해하려면, RAG를 하나의 파이프라인이 아니라 수직적으로 통합된 스택으로 바라보는 것이 도움이 된다. 이 스택은 원시 지식에서 출발해 에이전트 기반 의사결정 단계로 이어지는 구조를 갖는다.

RAG stack

Foundry

이 계층형 모델은 단순한 아키텍처 다이어그램에 그치지 않는다. 각 계층이 수행해야 할 책임의 집합을 의미한다. 모든 계층은 독립적으로 관측할 수 있어야 하며, 거버넌스와 최적화 대상이 돼야 한다. 인제스천이 개선되면 검색 품질이 함께 향상되고, 검색이 성숙할수록 추론의 신뢰성도 높아진다. 추론이 안정화되면 에이전트 오케스트레이션은 자동화를 맡길 수 있을 만큼 충분히 안전한 단계에 도달한다.

대부분 기업은 이런 계층을 하나의 단일 파이프라인으로 압축하는 실수를 저지른다. 데모 환경에서는 효과적으로 보일 수 있지만, 실제 운영 환경의 요구사항과 복잡성을 감당하기에는 한계가 분명하다.

에이전틱 RAG는 적응형 AI 시스템으로 가는 다음 단계

기본 계층이 안정화되면 에이전트 기반 기능을 도입할 수 있다. 에이전트는 질의를 재구성하거나 추가적인 맥락을 요청하고 검색된 콘텐츠를 기존 제약 조건과 대조해 검증하며, 신뢰도가 낮을 경우 상위 단계로 이관하거나 API를 호출해 누락된 정보를 보완할 수 있다. 한 번만 검색하는 방식이 아니라, 인식하고, 검색하고, 추론하고, 행동하고, 검증하는 과정을 반복적으로 수행한다.

이 지점이 RAG 데모와 AI 네이티브 시스템을 가르는 결정적인 차이다. 정적인 검색 방식은 모호하거나 정보가 불완전한 상황에서 쉽게 한계에 부딪힌다. 반면 에이전트 기반 RAG 시스템은 상황에 따라 동적으로 대응할 수 있기 때문에 이런 제약을 극복할 수 있다.

에이전트로의 전환은 아키텍처의 중요성을 줄이는 것이 아니라 오히려 강화한다. 에이전트는 검색 품질과 근거 설정, 검증 구조에 의존한다. 이런 기반이 갖춰지지 않으면 에이전트는 오류를 수정하기는커녕 오히려 증폭시킨다.

엔터프라이즈 환경에서 RAG가 실패하는 지점

초기 기대감이 컸던 것과 달리 대부분 기업은 결국 비슷한 문제에 직면한다. 인덱스 규모가 커질수록 검색 지연 시간이 증가하고, 임베딩은 원본 문서와 점점 동기화가 어긋난다. 팀마다 서로 다른 기준으로 문서를 분할하면서 결과의 일관성은 크게 떨어진다. 스토리지 비용과 대규모 언어 모델의 토큰 비용은 빠르게 늘어나고, 정책이나 규제가 변경돼도 문서는 제때 다시 인제스천되지 않는다. 여기에 검색 과정에 대한 관찰 가능성이 부족한 경우가 대부분이어서 문제가 발생해도 원인을 파악하기 어렵고, 결국 팀은 시스템 자체를 신뢰하지 않게 된다.

이런 실패는 모두 플랫폼 관점의 부재로 귀결된다. RAG는 각 팀이 개별적으로 구현해 사용하는 기능이 아니다. 조직 전체가 공유하는 역량으로서, 일관성 있는 기준과 거버넌스, 그리고 명확한 책임 주체를 전제로 설계되고 운영돼야 한다.

확장 가능한 RAG 아키텍처 사례

한 글로벌 금융 서비스 기업은 고객 분쟁 해결 프로세스를 지원하기 위해 RAG를 도입했다. 그러나 초기 시스템은 여러 한계를 드러냈다. 검색 결과에는 최신이 아닌 정책 문서가 반환됐고, 업무가 몰리는 시간대에는 지연 시간이 급격히 늘어났다. 콜센터 상담사는 모델로부터 일관되지 않은 답변을 전달받았으며, 모델의 설명이 공식 문서와 어긋나는 사례가 발생하자 컴플라이언스 조직에서도 우려를 제기했다.

이에 따라 해당 기업은 계층형 모델을 기반으로 시스템을 전면 재설계했다. 시멘틱 기반 검색과 키워드 검색을 결합한 하이브리드 검색 전략을 도입하고, 엄격한 버전 관리와 메타데이터 정책을 적용했다. 팀 간 문서 분할 기준도 표준화했으며, 문서 간 내용이 충돌하는 사례를 드러내는 검색 관찰 가능성 대시보드를 구축했다. 여기에 초기 검색 결과가 불충분할 경우, 모호한 사용자 질의를 자동으로 재작성하고 추가 맥락을 요청하는 에이전트도 추가했다.

그 결과 검색 정확도는 3배 향상됐고 환각 발생률은 크게 낮아졌다. 분쟁 해결 담당 조직은 시스템에 대한 신뢰도가 눈에 띄게 높아졌다고 평가했다. 달라진 것은 모델이 아니라, 그 모델을 둘러싼 아키텍처였다.

핵심은 검색

흔히 RAG는 LLM을 현실 세계의 지식에 연결하는 영리한 기법으로 논의되지만, 실제 현장에서는 조직이 수십 년간 쌓아온 지식 부채를 정면으로 마주하게 만드는 대규모 아키텍처 프로젝트로 귀결된다. 이때 핵심 제약 요소는 생성이 아니라 검색이다. 문서 분할 방식과 메타데이터, 버전 관리는 임베딩이나 프롬프트만큼이나 중요하다. 에이전트 기반 오케스트레이션은 미래형 부가 기능이 아니라, 모호하고 다단계로 이어지는 질의를 처리하기 위한 핵심 수단이다. 여기에 거버넌스와 관찰 가능성이 뒷받침되지 않으면 기업은 핵심 업무 흐름에서 RAG 시스템을 신뢰할 수 없다.

RAG를 단순한 시제품이 아니라 지속 가능한 플랫폼으로 다루는 기업은 지식의 규모와 함께 확장되고 비즈니스 변화에 맞춰 진화하며, 투명성과 신뢰성, 측정 가능한 가치를 제공하는 AI 시스템을 구축할 수 있다. 반대로 RAG를 하나의 도구로만 인식하는 기업은 데모는 계속 내놓을 수 있을지 몰라도, 실제 제품 단계로는 나아가지 못한다.
dl-itworldkorea@foundryco.com

관련자료

댓글 0
등록된 댓글이 없습니다.