토큰 소비 최대 98% 절감…마이크로소프트, AI 에이전트 메모리 한계 넘는 ‘메모라’ 공개

작성자 Keiminem쪽지보내기 자기소개 아이디로 검색 전체게시물
작성일 2026.07.01 11:15

조회 36

AI 에이전트의 장기 기억 한계를 극복하기 위해, 마이크로소프트 리서치가 추상화와 큐 기반 검색을 결합한 메모리 시스템 메모라(Memora)를 개발했다.

AI 에이전트가 장기간에 걸쳐 대화, 선호도, 의사결정을 기억해야 한다는 요구가 커지면서, 마이크로소프트 리서치가 기존 방식보다 확장성과 신뢰성이 높은 장기 기억 시스템 메모라를 개발했다.

AI 에이전트는 개별 채팅 세션이 아닌 수주, 수개월에 걸쳐 맥락을 유지해야 한다는 기대를 점점 더 많이 받고 있다. 지식이 축적될수록 메모리가 파편화되고 중복 정보가 늘어나며 검색 속도가 느려지는 문제가 생긴다.

마이크로소프트에 따르면, 메모라는 AI가 기억하는 내용과 정보를 찾는 방식을 분리함으로써 이 문제를 해결한다. 마이크로소프트 리서치는 블로그 게시물에서, 메모라가 전체 맥락 정확도를 유지하거나 초과하면서도 맥락 토큰 사용량을 최대 98% 절감할 수 있다고 밝혔다.

현행 메모리 아키텍처의 한계

AI 어시스턴트와 자율 에이전트가 장기 배포 환경으로 진입하면서, 체계적인 메모리 시스템의 부재가 핵심 병목으로 떠올랐다. 현재의 대규모 언어 모델은 강력한 추론 능력을 갖추고 있지만, 여전히 모든 세션을 처음부터 시작한다.

긴 대화에서는 모델이 전체 기록을 반복적으로 다시 읽어야 하며, 새로운 정보는 원문 텍스트로 저장되거나 요약으로 압축되는 과정에서 중요한 세부 사항을 잃을 수 있다.

대안이 없는 것은 아니지만, 저마다 한계가 있다. 메모제로(Mem0)는 대화에서 원자적 사실을 추출하고, RAG(검색 증강 생성) 방식은 원문 텍스트 조각을 인덱싱해 나중에 불러오며, 젭(Zep)이나 그래프RAG 같은 그래프 기반 메모리 시스템은 엔티티 관계를 통해 구조를 부여한다. 그러나 이 방식들은 대부분 두 극단 중 하나에 해당한다.

RAG나 메모제로 같은 콘텐츠 파편화 시스템은 추출된 사실이나 텍스트 조각을 직접 임베딩한다. 세부 사항은 보존하지만, 항목이 고립적으로 존재해 서사적 일관성이 떨어진다.

압축 중심 추상화 시스템은 경험을 압축 요약으로 정리하지만, 메메모리를 유용하게 만드는 제약 조건, 예외 사례, 수치 세부 정보까지 걸러낸다.

그래프 기반 시스템은 콘텐츠 위에 구조를 추가하지만, 검색은 여전히 콘텐츠 자체에 의존하며 도메인을 넘어 적용하기 어려운 경직된 데이터 분류 체계를 전제로 한다.

메모리와 검색의 분리

메모라 아키텍처는 저장 내용과 검색 방식을 분리함으로써 이 문제를 해결한다고 밝혔다. 각 메모리 항목은 두 가지 구성 요소를 갖는다.

첫 번째는 주요 추상화로, 메모리의 핵심 내용을 담은 6~8단어 길이의 짧은 문구다. 두 번째는 메모리 값으로, 풍부한 실제 내용을 담는다. 두 요소의 분리 덕분에, 변화하는 주제에 대한 새로운 정보는 동일한 주요 추상화 아래 기존 메모리 항목에 병합되며, 부분적 중복의 연쇄로 파편화되지 않는다.

주요 추상화를 보완하는 큐 앵커는 각 메모리 값에서 추출한 짧고 문맥 인식적인 태그로, 동일한 메모리에 대한 대체 접근 경로를 제공한다. 블로그 게시물은 큐 앵커가 유연하고 유기적으로 생성되는 메타데이터로 기능한다고 설명했다.

메모라는 정책 기반 리트리버(policy-guided retriever)도 도입했다. 한 번의 검색으로 유사도 높은 항목만 추려 반환하는 기존 방식과 달리, 쿼리를 반복적으로 정제하고 큐 앵커를 통해 관련성은 있지만 직접적으로 유사하지 않은 메모리까지 탐색 범위를 넓히며, 충분한 결과를 확보하면 멈추는 방식이다.

그레이하운드 리서치 수석 애널리스트 산치트 비르 고기아는 현재 에이전트 메모리가 검색을 기억으로 착각하는 데 근본적인 결함이 있다고 진단했다. 벡터 스토어는 유사 텍스트를 찾는 데 탁월하지만, 엔터프라이즈 에이전트에는 그 이상이 필요하다는 것이다. 무엇이 변했는지, 무엇이 여전히 유효한지, 당면 과제에서 무엇을 절대 불러오지 말아야 하는지를 파악해야 한다는 것이 고기아의 진단이다.

고기아는 메모라가 그 지름길을 거부하기 때문에 주목할 만하다고 평가했다. 메모라는 메모리의 풍부한 세부 내용을 접근 경로와 분리해, 안정적인 추상화와 큐 앵커 집합을 인덱싱하면서 전체 내용을 그 아래에 온전히 보존하는 방식이라는 것이다. 그 결과 단순한 추측성 검색 대신 체계적 탐색으로 전환된다. 또 고기아는 시스템이 재쿼리하거나 검색 범위를 넓히거나 충분한 결과를 얻으면 멈추는 방식으로 작동한다고 덧붙였다.

메모라 벤치마크 성능

마이크로소프트는 두 가지 장기 맥락 벤치마크에서 메모라를 평가했다. 대화가 평균 600턴에 달하는 로코모(LoCoMo)와 11만 5,000토큰 맥락을 사용하는 롱맴이벌(LongMemEval)이다. 마이크로소프트에 따르면, 메모라는 로코모에서 LLM 판정 정확도 86.3%, 롱맴이벌에서 87.4%를 달성해 RAG, 메모제로, 네모리(Nemori), 젭, 랭맴(LangMem), 심지어 전체 맥락 추론 방식까지 모두 앞섰다.

또한 메모제로보다 대화당 메모리 항목 수를 절반 가까이 줄였으며(344개 대 651개), 전체 맥락 추론 대비 토큰 소비를 최대 98% 절감했다.

벤치마크 결과는 상당한 효율성 향상을 시사하지만, 토큰 소비 감소가 자동으로 인프라 비용 절감으로 이어진다고 가정해서는 안 된다.

고기아는 토큰 절감 수치를 액면 그대로 받아들이지 말라고 경고했다. 벤치마크 맥락 절감일 뿐, 기업 비용이 98% 줄어든다는 약속이 아니라는 것이다. 고기아는 “실제 비용에는 메모리 구축, 인덱싱, 스토리지, 거버넌스가 요구하는 감사 로깅까지 포함된다”라고 강조했다.

고기아는 메모라의 가장 강력한 검색 모드가 동시에 가장 느리다는 점도 지적했다. 정책 리트리버는 여러 모델 호출 단계를 거치며 쿼리당 약 5~6초가 소요되는 반면, 더 단순한 시맨틱 모드는 1초 미만이다.

프롬프트 토큰 절감분은 검색 지연과 추가 추론 비용으로 일부 상쇄된다. 메모리 부담 자체가 줄어드는 것이 아니라 그 성격이 달라지는 것이다. 더 긴 프롬프트에만 비용을 지불하는 대신, 기업은 이제 무엇을 쓰고 업데이트하고 잊을지, 그리고 이를 관장하는 인덱싱과 테스트를 관리해야 한다.

기업 도입 시 고려사항

메모라는 현재 마이크로소프트 리서치의 활성 프로젝트로, 마이크로소프트는 연구 코드를 깃허브에 공개해 개발자들이 아키텍처를 실험하고 자체 AI 애플리케이션에 적용할 수 있도록 했다.

그러나 이론적인 이식성을 상용 준비 상태와 혼동해서는 안 된다. 이 설계의 메모리 레이어는 원칙적으로 주요 공급업체의 어떤 모델 위에도 올릴 수 있지만, 고기아는 코드가 엔터프라이즈 통제 아래 완전히 검증·유지·지원되기 전까지 IT 리더는 메모라를 소프트웨어로 운영화하기보다 아키텍처로 연구하는 신중한 자세를 취하라고 권고했다.

기술 외에도, 기업은 AI 메모리가 안전하게 관리되고 감사 가능 상태로 유지되도록 거버넌스 및 컴플라이언스 정책을 마련해야 한다. 고기아는 기업이 메모리 쓰기 권한자, 읽기 권한자, 보존 기간, 그리고 감사자가 특정 메모리가 어떤 행동에 영향을 미쳤는지 재구성하는 방법을 결정해야 한다고 지적했다.

고기아는 “‘에이전트가 기억했다’는 설명은 유럽연합 AI 법의 추적 의무 하에서 규제 당국을 만족시키지 못하며, 인도 개인 디지털 데이터 보호법 아래 고객을 납득시키지도 못한다”라고 경고했다.
dl-itworldkorea@foundryco.com