본문 바로가기
AI 생성 글 정리/agent

RAG-Anything: All-in-One RAG Framework 논문 정리

by Honbul 2026. 4. 22.

핵심 요약

RAG-Anything은 멀티모달 문서를 위한 통합 RAG 프레임워크다.

기존 RAG는 주로 텍스트 검색에 맞춰져 있다.
하지만 실제 문서는 텍스트만으로 구성되지 않는다.

논문, 재무 보고서, 기술 문서에는 다음 요소가 함께 들어간다.

  • 본문
  • 이미지
  • 수식
  • 캡션
  • 레이아웃
  • 페이지 간 참조

RAG-Anything의 핵심 주장은 단순하다.

문서를 텍스트 조각으로만 자르면 중요한 구조가 사라진다.
따라서 문서 속 모든 요소를 서로 연결된 지식 단위로 다뤄야 한다.

 

이를 위해 논문은 두 가지를 결합한다.

  • 듀얼 그래프 구성
  • 크로스모달 하이브리드 검색

결과적으로 RAG-Anything은 장문 문서와 복잡한 표·그림 기반 질의에서 강점을 보인다.


왜 기존 RAG로는 부족한가

일반적인 RAG는 문서를 텍스트 청크로 나눈다.
그 뒤 임베딩 검색으로 관련 문단을 찾는다.

이 방식은 텍스트 문서에는 유효하다.
하지만 멀티모달 문서에서는 문제가 생긴다.

예를 들어 다음 질문을 생각해 보자.

  • “Figure 2에서 어느 모델의 스타일 공간이 더 잘 분리되는가?”
  • “2020년 Wages and salaries 항목의 금액은 얼마인가?”
  • “특정 표에서 Evidence Inference 데이터셋의 최고 AUPRC는 무엇인가?”

이 질문의 답은 문장 하나에 있지 않다.
그림의 패널, 표의 행과 열, 캡션, 주변 설명이 함께 필요하다.

단순히 이미지를 텍스트 설명으로 바꾸면 정보가 줄어든다.
표를 일반 문장처럼 펼치면 행·열 관계가 흐려진다.
수식을 텍스트로만 풀면 주변 정의와 연결이 끊어진다.


제안 프레임워크: 문서를 “연결된 지식”으로 바꾸기

RAG-Anything은 문서를 먼저 잘게 나눈다.
하지만 단순한 텍스트 청크가 아니다.

각 요소를 독립적인 지식 단위로 만든다.

  • 텍스트 단위
  • 이미지 단위
  • 표 단위
  • 수식 단위

그리고 각 단위가 문서 안에서 어떤 위치와 맥락을 갖는지 보존한다.

예를 들어 이미지는 캡션과 연결된다.
표는 행·열·헤더와 연결된다.
수식은 주변 정의와 연결된다.

Crop 포인트: 왼쪽의 문서 분해가 오른쪽의 하이브리드 검색까지 이어지는 흐름을 보면, 이 논문의 핵심이 “추출”이 아니라 “구조 보존”임을 확인할 수 있다.


핵심 아이디어 1: 멀티모달 지식 통합

RAG-Anything은 다양한 파일을 같은 방식으로 다루기 위해 먼저 문서를 표준화한다.

이 단계의 목표는 하나다.

서로 다른 형식의 정보를 검색 가능한 지식 단위로 맞추되, 원래의 의미와 위치 관계는 잃지 않는다.

 

논문에서 다루는 주요 처리 방식은 다음과 같다.

  • 텍스트는 문단이나 목록 단위로 나눈다.
  • 이미지는 캡션, 메타데이터, 주변 문맥과 함께 저장한다.
  • 표는 셀, 헤더, 값의 구조를 보존한다.
  • 수식은 기호 자체보다 주변 정의와 역할까지 함께 해석한다.

이 방식은 “모든 것을 텍스트로 평탄화”하는 접근과 다르다.
정보의 종류를 인정하고, 각 정보가 가진 구조를 남긴다.


핵심 아이디어 2: 듀얼 그래프

논문에서 가장 중요한 설계는 듀얼 그래프다.

하나의 그래프에 모든 것을 억지로 넣지 않는다.
두 종류의 그래프를 만든 뒤 합친다.

1. 크로스모달 지식 그래프

이미지, 표, 수식 같은 비텍스트 요소를 중심으로 만든다.

각 비텍스트 요소는 독립 노드가 된다.
그 안에서 발견되는 개체, 속성, 관계도 노드와 엣지로 연결된다.

예를 들어 표에서는 다음 관계가 중요하다.

  • 어떤 값이 어떤 행에 속하는가
  • 어떤 값이 어떤 열에 속하는가
  • 어떤 단위가 어떤 값에 적용되는가
  • 어떤 헤더가 어떤 셀을 설명하는가

그림에서는 다음 관계가 중요하다.

  • 어떤 패널이 어떤 캡션과 연결되는가
  • 어떤 축 제목이 어떤 그래프에 적용되는가
  • 어떤 범례가 어떤 색이나 점 집합을 설명하는가

이 그래프는 비텍스트 정보를 검색 가능한 구조로 바꾼다.

2. 텍스트 기반 지식 그래프

본문 텍스트에서는 전통적인 지식 그래프를 만든다.

문장 안의 개체와 관계를 추출한다.
예를 들어 방법론, 데이터셋, 성능 수치, 실험 조건 등이 연결된다.

3. 그래프 융합

마지막으로 두 그래프를 맞춰 붙인다.

같은 개체를 가리키는 노드를 정렬한다.
그 뒤 텍스트 기반 의미 관계와 멀티모달 구조 관계를 하나의 검색 인덱스 안에 둔다.

이 설계 덕분에 텍스트 질문으로도 표와 그림 속 정보를 찾을 수 있다.


핵심 아이디어 3: 하이브리드 검색

RAG-Anything의 검색은 두 경로를 함께 사용한다.

구조 기반 탐색

그래프를 따라가며 관련 지식을 찾는다.

이 방식은 다음 상황에 강하다.

  • 답이 여러 노드에 걸쳐 있을 때
  • 표의 행과 열을 함께 봐야 할 때
  • 그림의 패널과 캡션을 연결해야 할 때
  • 특정 개체 주변의 관계를 따라가야 할 때

즉, “명시적 연결”을 활용한다.

의미 기반 검색

임베딩으로 의미가 비슷한 정보를 찾는다.

이 방식은 그래프에 직접 연결되지 않은 정보도 찾을 수 있다.
질문과 표현이 다르더라도 의미가 가까우면 후보로 가져온다.

즉, “암묵적 유사성”을 활용한다.

두 결과의 결합

마지막으로 두 검색 결과를 합친다.

이때 단순히 합치지 않는다.
질문이 그림을 요구하는지, 표를 요구하는지, 특정 개체를 요구하는지 함께 본다.

그래서 “table”, “figure”, “equation” 같은 단서가 중요하게 작동한다.


답변 생성: 텍스트 맥락과 원본 시각 자료를 함께 사용

검색이 끝나면 RAG-Anything은 두 가지 정보를 준비한다.

  • 검색된 노드와 관계를 설명하는 텍스트 맥락
  • 실제 이미지나 표 같은 원본 시각 자료

이후 비전-언어 모델이 두 정보를 함께 본다.

중요한 점은 이렇다.

검색은 효율적인 텍스트 표현으로 수행하되, 최종 추론에는 원본 시각 정보를 다시 사용한다.

 

이 설계는 검색 효율과 시각적 세부 정보 보존을 동시에 노린다.


실험 설정

논문은 두 개의 멀티모달 문서 QA 벤치마크로 평가했다.

DocBench

  • 문서 수: 229개
  • 평균 페이지 수: 66쪽
  • 평균 토큰 수: 약 46,377개
  • 질문 수: 1,102개
  • 도메인: 학술, 금융, 정부, 법률, 뉴스

MMLongBench

  • 문서 수: 135개
  • 평균 페이지 수: 47.5쪽
  • 평균 토큰 수: 약 21,214개
  • 질문 수: 1,082개
  • 문서 유형: 연구 보고서, 튜토리얼, 논문, 가이드북, 브로슈어, 행정·산업 문서, 금융 보고서

비교 대상은 세 가지다.

  • GPT-4o-mini
  • LightRAG
  • MMGraphRAG

모든 비교 실험은 같은 백본 모델과 문서 파싱 조건을 맞춰 진행했다.


주요 결과: 장문일수록 차이가 커진다

DocBench 전체 성능에서 RAG-Anything은 가장 높은 정확도를 기록했다.

  • GPT-4o-mini: 51.2%
  • LightRAG: 58.4%
  • MMGraphRAG: 61.0%
  • RAG-Anything: 63.4%

MMLongBench에서도 RAG-Anything이 가장 높았다.

  • GPT-4o-mini: 33.5%
  • LightRAG: 38.9%
  • MMGraphRAG: 37.7%
  • RAG-Anything: 42.8%

특히 중요한 부분은 문서 길이다.
짧은 문서에서는 차이가 크지 않다.
하지만 문서가 길어질수록 RAG-Anything의 장점이 커진다.

 

Crop 포인트: 페이지 수가 늘어날수록 RAG-Anything과 MMGraphRAG의 성능 차이가 벌어지는 구간이 핵심이다.


Ablation: 성능 향상의 핵심은 그래프다

논문은 두 가지 변형 모델을 비교했다.

  • Chunk-only: 그래프 없이 전통적인 청크 검색만 사용
  • w/o Reranker: 그래프는 유지하되 리랭커 제거

결과는 명확하다.

  • Chunk-only: 60.0%
  • w/o Reranker: 62.4%
  • Full RAG-Anything: 63.4%

리랭커도 도움이 된다.
하지만 가장 큰 차이는 그래프 구성에서 나온다.

즉, 이 논문의 성능 향상은 “더 좋은 재정렬”보다 “문서 구조를 검색 가능한 형태로 보존한 것”에 더 가깝다.


사례 1: 다중 패널 그림 해석

첫 번째 사례는 t-SNE 시각화다.

질문은 “어떤 모델의 스타일 공간이 더 명확히 분리되는가?”이다.
답은 DAE다.

기존 방식은 인접한 패널을 혼동했다.
RAG-Anything은 패널, 축, 캡션의 관계를 그래프로 유지했다.

그래서 질문이 요구하는 패널에 집중할 수 있었다.

 

Crop 포인트: 오른쪽 답변 비교보다 왼쪽 시각 증거의 패널 구분에 주목하면, 왜 구조적 위치 관계가 필요한지 드러난다.


사례 2: 금융 표 탐색

두 번째 사례는 재무 보고서 표다.

질문은 2020년 “Wages and salaries” 총액을 묻는다.
정답은 DKK 26,778 million이다.

이 문제는 단순 숫자 검색이 아니다.

정확한 행을 찾아야 한다.
정확한 연도 열을 찾아야 한다.
유사한 항목과 숫자를 피해야 한다.

RAG-Anything은 행, 열, 셀, 단위를 노드로 연결했다.
그 결과 목표 셀을 정확히 찾았다.

 

Crop 포인트: 빨간색으로 강조된 행과 2020년 열의 교차점이 이 사례의 핵심 증거다.


사례 3: 차트에서 최저 성능 구성 찾기

추가 사례는 막대그래프 해석이다.

질문은 Twitter15에서 가장 낮은 정확도를 만든 GCAN 하위 모델 제거 구성을 묻는다.
정답은 “-S-A” 구성이다.

이는 source tweet embeddings와 dual co-attention을 제거한 설정이다.

RAG-Anything은 막대, 범례, 축 라벨의 대응 관계를 유지했다.
그래서 가장 낮은 막대가 어떤 구성에 해당하는지 정확히 연결했다.

 

Crop 포인트: 막대의 높이 자체보다 범례의 “-S-A”와 Twitter15 축이 연결되는 지점이 중요하다.


사례 4: 복잡한 표에서 최고 AUPRC 찾기

다음 사례는 여러 데이터셋이 한 표 안에 반복되는 경우다.

질문은 Evidence Inference 데이터셋에서 가장 높은 AUPRC 조합을 묻는다.
정답은 GloVe + LSTM - Attention, 값은 0.506이다.

기존 방식은 반복되는 행 라벨과 열을 혼동했다.
RAG-Anything은 데이터셋 구역, 행, 열, 셀의 관계를 유지했다.

그래서 Evidence Inference 영역 안에서만 최고값을 찾았다.

 

Crop 포인트: Evidence Inference 블록 안의 AUPRC 열만 좁혀 보는 것이 오답을 피하는 핵심이다.


프롬프트 설계: 멀티모달 요소를 구조화해 설명하기

RAG-Anything은 멀티모달 요소를 무작정 요약하지 않는다.
각 요소마다 맥락 인식 프롬프트를 사용한다.

프롬프트의 공통 목적은 세 가지다.

  • 주변 문맥과 연결한다.
  • 핵심 개체와 관계를 뽑는다.
  • 검색에 쓸 수 있는 짧은 요약을 만든다.

이미지 분석 프롬프트

이미지는 단순 묘사가 아니라 문서 안의 역할까지 분석한다.

 

Crop 포인트: “surrounding context”와 “relationship to surrounding content” 지시가 이미지 설명을 검색 가능한 지식으로 바꾸는 핵심이다.

표 분석 프롬프트

표는 구조, 열 의미, 핵심 값, 패턴을 분리해 해석한다.

 

Crop 포인트: “column headers and their meanings”와 “key data points” 항목이 표를 단순 텍스트가 아닌 구조화된 증거로 만든다.

수식 분석 프롬프트

수식은 기호를 그대로 옮기는 데 그치지 않는다.
변수의 의미, 작동 원리, 주변 이론과의 관계를 설명한다.

 

Crop 포인트: “variables and their definitions”와 “applicable conditions” 항목이 수식을 문서 맥락 안에 고정한다.

정확도 평가 프롬프트

실험 평가는 답변의 문체가 아니라 사실 일치 여부를 본다.

 

Crop 포인트: 출력 형식이 정확도와 근거 설명으로 제한되어 있어, 평가 기준이 내용 일치에 집중된다.


한계와 실패 사례

RAG-Anything도 완전하지 않다.

논문은 두 가지 주요 실패 패턴을 제시한다.

1. 텍스트 중심 검색 편향

질문이 명시적으로 그림을 요구해도, 시스템이 관련 텍스트를 더 쉽게 가져오는 경우가 있다.

문제는 텍스트가 “주제상 관련”은 있어도 “정확한 시각 증거”는 아닐 수 있다는 점이다.
이 경우 모델은 그럴듯하지만 틀린 답을 만든다.

 

Crop 포인트: 정답은 그림의 순서 구조에 있지만, 모든 방법이 주변 텍스트 단서에 끌려간 점이 핵심이다.

2. 불규칙한 표 구조

병합 셀, 불명확한 열 경계, 비표준 레이아웃은 여전히 어렵다.

표가 깔끔하지 않으면 셀 관계가 잘못 연결된다.
그 결과 올바른 행과 열을 찾아도 값이 뒤섞일 수 있다.

 

Crop 포인트: 열 경계가 애매한 표 영역이 오류의 원인으로, 구조 파서의 견고성이 성능을 좌우한다.


실무적 의미

이 논문은 멀티모달 RAG를 만들 때 중요한 설계 기준을 제시한다.

1. 이미지를 텍스트로만 바꾸면 부족하다

이미지 설명은 유용하다.
하지만 원본 이미지의 공간 정보와 패널 관계도 함께 보존해야 한다.

2. 표는 행·열·단위 관계가 핵심이다

표를 줄글로 펼치면 숫자가 살아남아도 의미가 사라진다.
금융, 의료, 과학 문서에서는 치명적이다.

3. 장문 문서에서는 구조 탐색이 필요하다

긴 문서에서는 답이 여러 페이지에 흩어진다.
그래프 기반 탐색은 이 흩어진 증거를 연결하는 데 유리하다.

4. 검색과 생성은 분리해서 봐야 한다

검색 단계에서는 효율적인 표현이 필요하다.
생성 단계에서는 원본 시각 자료가 필요하다.

RAG-Anything은 이 둘을 분리해 설계한다.


정리

RAG-Anything의 기여는 단순히 “멀티모달 RAG를 했다”가 아니다.

핵심은 다음과 같다.

  • 문서의 모든 요소를 지식 단위로 분해한다.
  • 이미지, 표, 수식의 구조를 그래프로 보존한다.
  • 텍스트 그래프와 멀티모달 그래프를 합친다.
  • 구조 탐색과 의미 검색을 함께 사용한다.
  • 최종 답변 생성에는 원본 시각 자료를 다시 활용한다.

이 접근은 특히 장문 문서에서 효과적이다.
문서가 길고, 표와 그림이 많고, 증거가 흩어질수록 장점이 커진다.

다만 한계도 분명하다.

  • 텍스트 중심 검색 편향은 아직 남아 있다.
  • 불규칙한 표 구조에는 취약할 수 있다.
  • 파서와 비전-언어 모델의 품질에 크게 의존한다.

그래도 이 논문은 멀티모달 RAG의 방향을 분명히 보여준다.

앞으로의 RAG는 텍스트를 잘 찾는 시스템을 넘어, 문서 구조 전체를 이해하는 시스템으로 가야 한다.


Source