AI에 ‘기억’이 중요한 이유
컨텐츠 정보
- 조회 519
본문
AI 시스템은 기억 상실증을 겪는다. 텍스트, 코드, 음악 등 다양한 콘텐츠를 생성하는 놀라운 능력을 지녔지만, 당면한 프롬프트에만 반응한다는 한계를 안고 있다. 챗GPT에게 지난주에 추천했던 레시피를 다시 물어보면, 혼란스러운 답변이 돌아오거나 아예 환각에 가까운 엉뚱한 정보를 제시할 수도 있다. 이는 LLM(Large Language Model)이 상태를 저장하지 않는 구조(stateless)라서 발생하는 현상이다. 모든 질의를 처음 보는 것처럼 처리하며, 이전 대화나 학습 내용, 개인화 정보는 반영하지 않는다.
하지만 이제 상황이 달라지고 있다. 주요 LLM 업체 모두가 AI에 기억을 부여하는 방식을 적극적으로 모색하고 있다. 이는 AI의 영향력을 근본적으로 바꿔놓을 수 있는 계기가 될 것으로 보인다. AI 개발자이자 필자의 전 동료였던 리치먼드 알라케는 “AI의 메모리 개념 자체는 완전히 새로운 것이 아니지만, 이를 현대 AI 에이전트에 적용하는 방식은 혁신적이다”라고 말했다. 진정한 개인화와 장기적 활용 가능성은 에이전트가 기억하고, 학습하며, 적응할 수 있는 능력에 달려 있기 때문이다. 즉, 진짜 지능이란 단순히 수십억 개의 단어를 뉴럴 네트워크로 계산하는 것이 아니라, 필요한 순간에 적절한 정보를 기억해 내는 능력에 있다.
기억은 AI에서 빠져 있던 마지막 퍼즐 조각으로 떠오르고 있다. 오늘날의 기억 없는 챗봇을 진정한 ‘적응형 동반자’로 바꿔줄 핵심 요소인 셈이다. 이제 남은 가장 큰 질문은, AI 시스템에 꼭 필요한 기억을 어떻게 부여할 것인지다. 그 해답은 의외로 화려하지 않다. 바로 데이터베이스다.
AI의 외부 기억을 구동하는 핵심, 데이터베이스
그렇다, 바로 데이터베이스다. 요즘 AI를 둘러싼 산업 담론에서 주목받는 상위 10대 키워드 목록에는 데이터베이스가 좀처럼 등장하지 않는다. MCP 서버! GAN(Generative Adversarial Networks)! RAG(Retrieval-Augmented Generation)은 2024년에나 유행이었고, 지금은 모두가 에이전틱 시스템에 몰두하고 있다. 물론 산티아고 발다라마는 “에이전트가 뭔지 아무도 진짜로 모른다”라고 말했다. 하지만 이렇게 빠르게 바뀌는 AI 트렌드의 화려한 겉모습 아래에는 데이터가 있다. 그리고 그 데이터를 담고 있는 곳이 바로 데이터베이스다.
전통적인 소프트웨어 세계에서 데이터베이스는 언제나 ‘진실의 원천(source of truth)’이자 장기적인 상태와 데이터를 저장하는 공간이었다. 생성형 AI 시대에 접어들면서 데이터베이스는 AI 스택의 ‘메모리 계층(memory layer)’이라는 새로운 역할을 맡게 됐다. 실제로 벡터 데이터베이스는 환각이나 지속적인 기억의 부재 같은 LLM의 주요 한계를 보완하는 기술로 자리 잡으며 생성형 AI 기술 스택의 핵심 구성 요소가 됐다. 즉, AI가 질의할 수 있는 형태로 지식을 데이터베이스에 저장함으로써, 이 모델에 내장된 지능을 보완할 수 있는 ‘외부의 두뇌’를 제공하는 셈이다.
알라케는 한 영상에서 AI의 기억을 구성하고 활용하는 방식을 다음과 같이 설명했다.
- 페르소나 메모리(Persona memory) : 에이전트의 정체성, 성격, 역할, 전문성, 소통 스타일 등 개인화된 특성 정보를 저장한다.
- 툴박스 메모리(Toolbox memory) : 도구 정의, 메타데이터, 파라미터 스키마, 임베딩 등을 포함해 에이전트의 기능 관련 정보를 담는다.
- 대화 메모리(Conversation memory) : 사용자와 에이전트 간 대화의 이력을 기록한다.
- 워크플로우 메모리(Workflow memory) : 복수 단계로 이뤄진 작업의 상태를 추적한다.
- 삽화적 메모리(Episodic memory) : 에이전트가 겪은 특정 사건이나 경험을 저장한다.
- 장기 기억(Long-term memory) : 지식 베이스로서 지속적으로 유지되는 배경 지식을 제공한다.
- 에이전트 레지스트리(Agent registry) : 에이전트가 상호작용하는 인간, 다른 에이전트, API 등과 관련된 사실과 정보를 저장하는 저장소다.
- 엔티티 메모리(Entity memory) : 에이전트가 상호작용 중인 다양한 개체(entity)와 관련된 사실과 데이터를 저장한다.
- 작업 기억(Working memory) : LLM의 컨텍스트 윈도우를 활용한 임시적이고 능동적인 처리 공간으로 사용된다.
메모리라는 이름이 붙은 구성 요소가 이렇게 많지만, 실제로 이를 구현하는 방법은 여전히 모색 중이다. 현시점에서 대부분 기업이 채택하는 대표적인 방식은 RAG다. RAG는 AI가 응답을 생성할 때, 외부 지식 베이스(데이터베이스)에서 관련 정보를 검색해 정답의 근거로 삼는 구조다. 즉, 모델이 훈련 중에 내재한 지식(종종 오래됐거나 일반적인 정보)에만 의존하지 않고 외부 저장소, 대개는 벡터 데이터베이스에서 최신이거나 구체적인 정보를 직접 검색해 반영하는 방식이다. 이 덕분에 AI는 훈련되지 않은 정보조차 “기억하는 것처럼” 활용할 수 있으며, 기업의 내부 문서나 특정 사용자의 이력 같은 데이터를 반영한 응답을 생성할 수 있다.
데이터베이스에서 가져온 정보를 프롬프트에 추가하면, AI 시스템은 시간 흐름에 따라 일관된 대화를 유지할 수 있고, 특정 도메인에 특화된 질문에도 정확하게 답할 수 있게 된다. 이는 곧 AI가 고정된 모델 파라미터를 넘어 상태(state)를 저장하고 장기 기억을 획득하는 방식이라 할 수 있다. 즉, 매번 처음부터 시작하지 않고 이전에 했던 대화를 기억하고, 훈련 시점 이후의 사실에도 접근할 수 있는 구조다. 결론적으로, 데이터베이스, 특히 벡터 스토어는 AI의 장기 기억 실현에 핵심 역할을 수행한다.
벡터, 그래프, 하이브리드 메모리
물론 모든 기억이 똑같이 만들어지는 것은 아니며, 모든 데이터베이스가 같은 방식으로 작동하는 것도 아니다. 현재 업계는 AI 메모리 역할을 할 수 있는 다양한 데이터베이스 기술을 실험 중이며, 각 방식마다 강점과 한계가 존재한다.
앞서 언급했듯 벡터 데이터베이스는 AI 메모리의 대표 주자로 꼽힌다. 이 방식은 단순한 키워드 일치가 아니라 의미 기반 유사도 검색(semantic similarity search)에 강점을 지니고 있어 텍스트 조각처럼 비정형 데이터를 다룰 때 특히 효과적이다. 사용자가 질문을 하면 의미적으로 가장 관련 있는 내용을 찾아주는 데 최적화되어 있다.
요즘 AI 업계에서 일반화된 흐름처럼, 한때는 위비에이트, 파인콘과 같은 전용 벡터 데이터베이스가 유행이었지만, 오래가진 않았다. 대신 몽고DB, 오라클 등 주요 데이터베이스 업체가 기존 데이터베이스에 벡터 검색 기능을 통합하기 시작했다. 2023년 AWS 역시 “향후 모든 데이터베이스 서비스에 벡터 기능을 추가하겠다”라고 발표했고, 현재는 대부분 서비스에 해당 기능이 포함돼 있다. 개발자는 AWS, 오라클, 몽고DB 등 주요 플랫폼에서 운영 데이터와 벡터 임베딩을 동일한 데이터베이스에 함께 저장하고 활용할 수 있다.
애플리케이션 데이터베이스와 AI 메모리 저장소의 경계가 점점 흐려지고 있다. 하지만 벡터 검색만으로 모든 메모리 문제를 해결할 수 없다. 순수한 의미 유사성만으로는 시간이나 관계 같은 맥락 정보를 놓칠 수 있다. 의미상 유사하지만 몇 달이 지난 정보라면 현재 맥락에서는 낡은 정보일 수 있다. 이런 맥락에서 그래프 데이터베이스 같은 다른 유형의 데이터 저장소가 필요하다.
지식 그래프(knowledge graph) 기법은 정보를 노드와 엣지 형태로 저장하며, 이는 곧 사실을 관계로 엮은 거미줄 형태의 구조다. (예 : 누가 어떤 회사의 CEO인지, 문서가 언제 생성됐는지 등) 이처럼 구조화된 기억 체계는 AI가 특정 사실이 언제 일어났는지, 또는 서로 어떤 관계에 있는지를 구분하는 데 유용하다. 예를 들어 “어제 나에게 추천한 식당이 어디였지?”라고 물었을 때, 그래프 기반 메모리는 단순한 의미 유사성이 아닌 ‘추천 날짜’라는 명시적 기준으로 결과를 걸러낸다. 그래프는 벡터 검색만으로는 구현하기 어려운 시간 인식 및 맥락 인식을 AI에 제공할 수 있는 구조다.
그래프 기반 메모리는 감사 추적 측면에서도 유리하다. AI가 어떤 사실을 왜 검색했는지 그 과정을 관계 구조를 통해 추적할 수 있어 디버깅이나 신뢰성 확보에도 도움이 된다. 젭(Zep) 같은 스타트업은 벡터와 그래프형 연결 구조를 결합한 하이브리드 방식을 시도하며, 양쪽의 장점을 동시에 확보하려는 접근을 실험 중이다.
단점도 있다. 그래프 기반 메모리는 사전 정의된 스키마와 구조화된 데이터를 유지해야 하기 때문에 구현이 복잡할 수 있고 비정형 텍스트의 뉘앙스까지 모두 반영하기는 어렵다. 그래서 여러 애플리케이션에서는 단순한 벡터 스토어나 벡터 기능이 강화된 문서형 데이터베이스(document database)가 사용 편의성과 효과성 사이의 균형점으로 받아들여지고 있다.
최근에는 기존의 키워드 기반 검색과 벡터 유사도 검색을 결합한 하이브리드 방식도 등장하고 있다. 이 방식은 먼저 날짜 범위, 사용자 ID, 태그 등 메타데이터를 기준으로 결과를 필터링한 뒤, 의미 기반 검색을 수행함으로써 AI가 기억하는 정보가 의미상 유사할 뿐 아니라 맥락적으로도 적절하도록 돕는다.
실제 AI 개발자는 다양한 기억 구조를 혼합한다. 최근의 상호작용을 위한 단기 메모리 버퍼, 장기적인 의미 기반 기억을 위한 벡터 데이터베이스, 그리고 명시적 사실이나 사용자 고유 데이터를 저장하는 관계형 또는 문서형 데이터베이스를 함께 활용하는 식이다. 여러 방식이 조합되면서, 빠르고 일시적인 기억(LLM의 컨텍스트 윈도우)과 지속적이고 검색 가능한 기억(데이터베이스)이 공존하는 일종의 기억 계층 구조(memory hierarchy)가 형성된다.
데이터베이스는 AI의 해마(hippocampus)처럼 작동하면서 필요한 순간에 불러올 수 있는 경험과 지식을 저장해 향후 더 나은 추론을 실현한다.
AI의 ‘기억 상실’을 끝내는 열쇠, 데이터베이스
신경망 구조나 모델 크기에 대한 화려한 논의가 이어지는 와중에도 기록과 트랜잭션의 기술인 데이터베이스는 조용히 AI의 가능성을 다시 쓰고 있다. 데이터베이스를 연결하는 것만으로도 AI는 작업 기억과 장기 기억을 갖추게 된다. 이제 AI는 상태를 유지하고 실시간으로 새로운 정보를 학습하며, 과거의 지식을 불러와 향후 의사결정에 활용할 수 있다. 이목을 끄는 화려한 기술은 아닐지라도 AI에 있어 결코 빠질 수 없는 필수 요소다.
물론 여전히 해결해야 할 과제도 많다. AI의 기억을 대규모로 관리하는 방법, 과잉 정보에 대응해 무엇을 저장하고 무엇을 잊을지 결정하는 전략, 오래된 정보보다 더 관련성 높은 사실을 우선시하는 필터링 방식, 그리고 잘못된 데이터가 AI의 지식을 오염시키는 기억 중독(memory poisoning) 문제를 막는 방안 등은 현재 많은 개발자가 집중하는 영역이다. 이런 문제는 결국 전통적인 데이터 관리 문제에 AI라는 새로운 옷을 입힌 형태이며, 해결책은 트랜잭션 처리, 인덱싱, 캐싱 등 데이터베이스 이론에서 출발해 더 정교한 컨텍스트 프루닝(context pruning)과 임베딩 모델 같은 최신 기법을 함께 도입하는 방식으로 진화할 것이다.
이제 AI 기술 스택은 모델, 데이터, 메모리가 함께 작동해야 한다는 통합된 방향으로 수렴 중이다. 이것이 의미하는 바는 분명하다. AI 어시스턴트가 지난 대화를 자연스럽게 이어가고 몇 주 전 사용자가 언급한 특징에 맞춰 답변을 조정할 때, 그 뒤에서는 바로 데이터베이스가 조용히, 그러나 핵심적인 기억 창고 역할을 수행하고 있다는 사실이다.
dl-itworldkorea@foundryco.com
관련자료
-
링크
-
이전
-
다음





