한 줄 요약
MemoRAG는 긴 문서를 바로 검색하지 않습니다.
먼저 전체 문서를 가볍게 읽어 전역 기억(global memory) 을 만듭니다.
그다음 질문이 들어오면 기억에서 검색 단서(answer clues) 를 떠올립니다.
마지막으로 이 단서를 이용해 원문에서 근거를 찾고 답을 생성합니다.
핵심은 단순합니다.
“검색어가 부족하면, 먼저 문서 전체를 기억한 모델이 검색어를 보강한다.”

왜 긴 문맥 처리가 어려운가
LLM은 긴 문서를 처리할 때 두 가지 문제를 만납니다.
- 비용 문제: 긴 문서를 그대로 넣으면 추론 시간과 GPU 메모리 사용량이 커집니다.
- 검색 문제: RAG를 쓰더라도 질문이 검색에 적합하지 않으면 필요한 근거를 찾기 어렵습니다.
예를 들어 다음 질문을 생각해 볼 수 있습니다.
“이 책은 사랑이라는 주제를 어떻게 전달하는가?”
이 질문은 단순 키워드 검색과 잘 맞지 않습니다.
“사랑”이라는 단어가 많이 나온 구절만 찾는다고 좋은 답이 나오지 않습니다.
등장인물의 관계, 희생, 반복되는 사건, 결말의 의미를 함께 이해해야 합니다.
기존 RAG는 보통 다음 흐름을 따릅니다.
- 문서를 작은 조각으로 나눕니다.
- 질문과 비슷한 조각을 검색합니다.
- 검색된 조각만 보고 답을 생성합니다.
이 방식은 질문이 명확하고, 문서가 잘 구조화되어 있을 때 강합니다.
하지만 긴 소설, 법률 계약서, 금융 보고서, 교과서처럼 정보가 흩어져 있으면 약해집니다.
MemoRAG의 출발점: 사람은 먼저 기억을 만든다
사람은 긴 문서를 읽을 때 바로 검색하지 않습니다.
먼저 훑어보며 큰 흐름을 잡습니다.
그 후 질문을 받으면 머릿속 기억에서 관련 단서를 떠올립니다.
그리고 필요한 부분만 다시 확인합니다.
MemoRAG는 이 과정을 RAG 구조에 옮긴 방법입니다.

Crop 포인트: 가운데의 인간 인지 과정과 아래의 MemoRAG 흐름을 비교하면, 둘 다 먼저 전체 문맥의 기억을 만들고 그 기억으로 검색 단서를 생성한다는 점이 드러납니다.
기존 RAG와 MemoRAG의 차이는 검색 전에 일어납니다.
- 기존 RAG는 사용자 질문 자체를 검색어로 사용합니다.
- MemoRAG는 기억 모델이 만든 답변 초안을 검색어로 사용합니다.
이 답변 초안은 최종 답이 아닙니다.
정확하지 않을 수도 있습니다.
하지만 검색기가 원문에서 관련 근거를 찾도록 돕는 단서로는 충분합니다.
MemoRAG의 핵심 구조
MemoRAG는 두 시스템으로 나뉩니다.
1. 가볍지만 긴 문맥을 보는 메모리 시스템
이 시스템은 긴 입력 문서를 읽고 전역 기억을 만듭니다.
목표는 세 가지입니다.
- 긴 문맥을 비용 효율적으로 다루기
- 중요한 정보를 잃지 않기
- 질문이 들어왔을 때 좋은 검색 단서를 만들기
2. 무겁지만 표현력이 강한 생성 시스템
이 시스템은 최종 답변을 작성합니다.
다만 전체 긴 문서를 모두 보지는 않습니다.
메모리 시스템이 만든 단서로 검색된 근거만 봅니다.
결과적으로 MemoRAG는 다음 순서로 작동합니다.
- 긴 문서를 읽고 전역 기억을 형성합니다.
- 질문이 들어오면 기억에서 답변 초안과 검색 단서를 생성합니다.
- 그 단서로 원문에서 근거를 검색합니다.
- 검색된 근거와 질문을 바탕으로 최종 답변을 만듭니다.

Crop 포인트: 중앙의 MemoRAG 블록에서 메모리 모듈이 답변 단서를 만들고, 이 단서가 검색기와 생성기를 연결하는 중간 매개체로 작동하는 부분이 핵심입니다.
이 구조는 세 가지 상황에서 특히 유용합니다.
분산 정보 수집
질문 하나에 답하려면 여러 위치의 정보를 모아야 할 때가 있습니다.
MemoRAG는 기억에서 중간 단서를 떠올려 관련 조각들을 더 잘 찾습니다.
질문 중심 요약
“이 보고서가 특정 쟁점에 대해 무엇을 말하는가?” 같은 질문은 단순 검색과 맞지 않습니다.
MemoRAG는 전체 문맥을 기억하고 있으므로, 질문과 관련된 여러 근거 후보를 생성할 수 있습니다.
전체 문서 요약
요약은 명확한 검색어가 없는 작업입니다.
MemoRAG는 문서의 핵심 개념을 단서로 만들고, 이를 바탕으로 세부 근거를 다시 가져옵니다.
메모리 모듈은 무엇을 저장하는가
MemoRAG의 핵심은 메모리 모듈입니다.
이 모듈은 단순 요약기가 아닙니다.
긴 문맥을 읽은 뒤, 검색에 도움이 되는 형태의 기억을 만듭니다.
논문은 두 가지 메모리 방식을 비교합니다.
Light Global Memory
기존 장문 처리 기법을 활용해 긴 문맥을 처리합니다.
구현은 비교적 쉽습니다.
하지만 전체 길이의 캐시를 많이 유지해야 하므로 메모리 부담이 큽니다.
또한 희소 주의 방식 때문에 의미 정보가 빠질 수 있습니다.
Compact Global Memory
논문이 더 강조하는 방식입니다.
LLM은 입력을 읽을 때 내부적으로 다음 토큰 생성을 위한 임시 기억을 만듭니다.
MemoRAG는 이 기억을 그대로 보존하지 않습니다.
대신 일정 구간마다 메모리 토큰을 삽입합니다.
이 메모리 토큰이 해당 구간의 핵심 정보를 압축해 담습니다.
그 후 일반 토큰의 임시 기억은 버립니다.
메모리 토큰의 압축된 기억만 누적합니다.
이 방식의 장점은 분명합니다.
- 긴 문서를 훨씬 적은 GPU 메모리로 다룰 수 있습니다.
- 원문 전체를 직접 넣지 않아도 큰 흐름을 유지할 수 있습니다.
- 압축 비율을 조절해 성능과 비용 사이의 균형을 잡을 수 있습니다.
논문은 예시로, 원래는 훨씬 짧은 문맥만 처리할 수 있는 모델도 높은 압축 비율을 쓰면 매우 긴 문맥까지 다룰 수 있다고 설명합니다.
학습 전략: 좋은 답이 아니라 좋은 검색 단서를 배운다
MemoRAG의 메모리 모듈은 세 단계로 학습됩니다.
1. 사전학습
긴 텍스트를 읽고 압축 기억을 만드는 능력을 배웁니다.
기존 LLM 전체를 다시 학습하지 않습니다.
새로 추가된 메모리 관련 파라미터만 학습합니다.
2. 지도 미세조정
질문과 긴 문맥이 주어졌을 때, 검색에 도움이 되는 단서를 생성하도록 학습합니다.
이때 강한 LLM이 만든 데이터와 사람의 검수가 사용됩니다.
3. RLGF
RLGF는 “Generation Feedback 기반 강화학습”입니다.
아이디어는 간단합니다.
- 어떤 단서가 좋은 최종 답을 만들도록 도우면 좋은 단서로 봅니다.
- 어떤 단서가 근거 검색과 최종 답변에 도움이 되지 않으면 덜 좋은 단서로 봅니다.
- 메모리 모델은 좋은 단서를 더 자주 생성하도록 조정됩니다.
즉, MemoRAG는 보기 좋은 중간 답을 만드는 데 그치지 않습니다.
최종 답변 품질을 높이는 검색용 단서를 학습합니다.
실험 설정
논문은 MemoRAG를 세 종류의 비교군과 평가합니다.
비교 대상
- 긴 문맥을 그대로 넣는 Long LLM 방식
- BGE-M3, Stella, Jina 등 표준 검색 기반 RAG
- HyDE, RQ-RAG, GraphRAG 등 고급 RAG 기법
평가 데이터
- LongBench: 장문 QA와 요약 태스크
- InfiniteBench: 100K 토큰 이상 장문 평가
- UltraDomain: 법률, 금융, 물리, 컴퓨터, 문학, 정치 등 20개 영역의 긴 문서 평가
UltraDomain은 특히 중요합니다.
질문이 단순 검색으로 풀리지 않도록 설계되어 있습니다.
문서 전체를 이해하고 여러 단서를 종합해야 답할 수 있습니다.
주요 결과: MemoRAG는 단순 QA를 넘어선다
메인 실험에서 MemoRAG는 대부분의 데이터셋에서 가장 높은 성능을 보였습니다.
전체 평균 점수는 다음 흐름을 보입니다.
- MemoRAG: 40.2
- 긴 문맥 직접 입력 방식: 35.0
- MInference: 33.3
- SelfExtend: 30.1
- 표준 검색 기반 RAG 계열: 약 29점대
특히 MemoRAG는 단순 QA뿐 아니라 요약과 고수준 질의에서도 강했습니다.
이는 메모리 기반 단서 생성이 단순 검색어 재작성보다 넓은 문제를 다룰 수 있음을 보여줍니다.
UltraDomain 결과도 같은 방향을 보입니다.
빨간색 MemoRAG 영역이 대부분의 도메인에서 가장 바깥쪽에 위치합니다.
이는 다양한 분야에서도 성능 우위가 유지된다는 뜻입니다.

Crop 포인트: 각 레이더 차트에서 MemoRAG의 빨간 영역이 다른 방법보다 넓게 퍼져 있어, 도메인이 바뀌어도 전역 기억 기반 검색이 안정적으로 우위에 있음을 보여줍니다.
논문은 UltraDomain을 다시 두 그룹으로 나눠 봅니다.
- 학습 데이터와 가까운 도메인에서는 MemoRAG 평균이 50점대입니다.
- 학습 데이터와 먼 도메인에서도 MemoRAG가 다른 방법보다 높습니다.
이 결과는 중요합니다.
MemoRAG가 특정 벤치마크에만 맞춘 기법이 아니라, 긴 문서 이해 방식 자체를 바꾸는 접근임을 시사합니다.
Ablation: 무엇이 성능을 만들었나
논문은 구성 요소를 하나씩 바꿔 성능 변화를 확인합니다.
핵심 결론은 명확합니다.
- 압축 메모리는 Light Memory보다 강합니다.
- 사전학습만으로는 충분하지 않습니다.
- 지도 미세조정이 큰 폭의 향상을 만듭니다.
- RLGF는 마지막 성능을 더 끌어올립니다.
- 다른 기반 LLM을 써도 MemoRAG의 효과는 유지됩니다.

Crop 포인트: 왼쪽과 가운데 그래프에서 RLGF 단계의 막대가 가장 높게 나타나며, 메모리 모델이 단순 기억보다 “검색에 유용한 단서”를 학습할 때 성능이 올라간다는 점이 보입니다.
오른쪽 그래프도 중요합니다.
여러 생성 모델에 MemoRAG를 붙였을 때, 직접 긴 문맥을 넣는 방식보다 성능이 좋아졌습니다.
이는 MemoRAG가 특정 생성기 하나에 종속되지 않는다는 뜻입니다.
메모리 기반 검색 단서라는 중간 표현이 다양한 LLM에 이식될 수 있습니다.
효율성: 표준 RAG보다 느리지만, 긴 문맥 직접 처리보다 효율적이다
MemoRAG는 표준 RAG보다 검색 전 단계가 무겁습니다.
전역 기억을 만들고, 단서를 생성해야 하기 때문입니다.
하지만 긴 문맥을 그대로 넣는 LLM보다는 효율적입니다.
특히 GPU 메모리 사용량에서 차이가 큽니다.
긴 문맥 직접 입력 방식은 원문 길이에 따라 캐시가 크게 증가합니다.
MemoRAG는 압축된 메모리만 유지하므로 증가 폭이 작습니다.
GraphRAG와 비교해도 장점이 있습니다.
GraphRAG는 그래프 구축과 API 기반 처리 비용이 큽니다.
MemoRAG는 그보다 빠른 검색 지연시간을 보입니다.

Crop 포인트: 왼쪽 아래 GPU 메모리 그래프에서 긴 문맥 직접 처리 방식은 급격히 증가하지만, MemoRAG는 낮은 수준으로 유지되는 부분이 효율성의 핵심입니다.
압축 비율 실험도 흥미롭습니다.
압축을 강하게 할수록 정보 손실이 생겨 성능은 조금 떨어집니다.
하지만 일정 수준 이후에는 성능이 안정됩니다.
이는 MemoRAG가 모든 세부 정보를 보존하지 않아도 된다는 점을 보여줍니다.
검색 단서를 만들 수 있을 만큼의 전역 의미만 유지하면 충분합니다.
이 논문의 의미
MemoRAG의 핵심 기여는 RAG의 병목을 다르게 정의한 데 있습니다.
기존 RAG는 보통 이렇게 묻습니다.
“어떻게 더 좋은 검색기를 만들 것인가?”
MemoRAG는 다르게 묻습니다.
“검색기가 찾기 쉬운 단서를 누가 만들어 줄 것인가?”
긴 문서에서는 사용자의 질문이 검색어로 충분하지 않은 경우가 많습니다.
MemoRAG는 문서 전체를 먼저 기억한 모델이 그 간극을 메웁니다.
이 접근은 다음 작업에 특히 적합합니다.
- 장편 문서 QA
- 법률 계약서 분석
- 금융 보고서 해석
- 교과서 기반 질의응답
- 다중 문서 요약
- 특정 관점에서의 문서 요약
한계와 고려점
MemoRAG가 모든 문제를 해결하는 것은 아닙니다.
첫째, 메모리 형성 비용이 있습니다.
같은 문서를 여러 번 질의할 때는 재사용 이점이 있지만, 한 번만 처리하는 문서에서는 부담이 될 수 있습니다.
둘째, 메모리 모듈 학습이 필요합니다.
논문은 SFT 데이터와 사람 검수, RLGF 데이터를 사용합니다.
따라서 단순한 프롬프트 기반 RAG보다 구축 비용이 큽니다.
셋째, 압축은 항상 손실을 동반합니다.
압축 비율을 너무 높이면 세부 정보가 사라질 수 있습니다.
실제 시스템에서는 문서 길이, 비용, 정확도 요구 수준에 맞춰 조절해야 합니다.
넷째, 최종 품질은 여전히 검색기와 생성기의 품질에 영향을 받습니다.
메모리 단서가 좋아도 검색기가 근거를 놓치면 답변 품질이 떨어질 수 있습니다.
결론
MemoRAG는 긴 문맥 RAG를 한 단계 바꿉니다.
단순히 질문을 검색어로 쓰지 않습니다.
먼저 긴 문서를 기억합니다.
그 기억에서 검색 단서를 생성합니다.
그 단서로 원문 근거를 찾습니다.
그리고 최종 답변을 만듭니다.
이 방식은 인간의 장문 이해 과정과 닮아 있습니다.
전체를 먼저 파악하고, 필요한 부분을 다시 찾는 방식입니다.
논문의 실험 결과는 이 접근이 단순 QA뿐 아니라 요약, 복합 질의, 도메인 특화 문서에서도 효과적임을 보여줍니다.
장문 문서 기반 AI 시스템을 설계할 때, MemoRAG는 “검색 전에 기억을 만든다”는 중요한 설계 방향을 제시합니다.
Source
- Hongjin Qian, Zheng Liu, Peitian Zhang, Kelong Mao, Defu Lian, Zhicheng Dou, Tiejun Huang. MemoRAG: Boosting Long Context Processing with Global Memory-Enhanced Retrieval Augmentation. Proceedings of the ACM Web Conference 2025, WWW ’25, Sydney, Australia.
- arXiv: 2409.05591v3. 9 Apr 2025.
- DOI: https://doi.org/10.1145/3696410.3714805
- arXiv link: https://arxiv.org/abs/2409.05591