본문 바로가기
AI 생성 글 정리/agent

O-Researcher 논문 정리

by Honbul 2026. 4. 28.

핵심 요약

O-Researcher는 오픈소스 LLM을 딥 리서치 모델로 훈련하는 프레임워크다.

딥 리서치는 단순 질의응답이 아니다.

질문을 쪼개고, 검색하고, 페이지를 읽고, 근거를 모으고, 긴 보고서로 합성하는 작업이다.

이 논문의 핵심 주장은 명확하다.

  • 좋은 답변만 모방하면 부족하다.
  • 좋은 리서치 과정을 데이터로 만들어야 한다.
  • 여러 에이전트가 만든 검색·검증·요약 궤적을 학습시키면 오픈소스 모델도 강해질 수 있다.

논문은 O-Researcher-RL이 DeepResearch Bench에서 48.48점을 기록했다고 보고한다.

이는 GPT-5 기준선의 46.77점, OpenAI O3 기준선의 43.71점보다 높다.

다만 모든 딥 리서치 에이전트를 압도한 것은 아니다.

WebWeaver와 OAgents-DR 같은 에이전트 프레임워크는 더 높은 점수를 보였다.

Crop 포인트: 왼쪽 막대는 O-Researcher-RL이 모델 단독 비교에서 강한 성능을 낸다는 점을, 오른쪽 막대는 전용 에이전트 프레임워크와의 격차가 아직 남아 있다는 점을 보여준다.


문제의식

폐쇄형 모델과 오픈소스 모델의 격차는 모델 크기만의 문제가 아니다.

논문은 핵심 병목을 고품질 훈련 데이터 접근성으로 본다.

기존 접근에는 한계가 있다.

  • 사람 주석은 비싸고 느리다.
  • 큰 폐쇄형 모델을 모방하면 교사 모델의 한계도 따라온다.
  • 최종 답변만 증류하면 검색, 계획, 검증 과정을 배우기 어렵다.

O-Researcher는 이 문제를 데이터 생성 방식으로 푼다.

질문 하나를 여러 하위 문제로 나누고, 각 에이전트가 독립적으로 조사한다.

이후 결과를 합쳐 최종 보고서를 만든다.


방법 1: 병렬 멀티 에이전트 리서치 궤적 생성

O-Researcher의 데이터 생성 과정은 연구팀의 분업과 비슷하다.

한 질문이 들어오면 먼저 플래너가 독립적인 하위 질문으로 쪼갠다.

그다음 여러 에이전트가 각 하위 질문을 맡는다.

각 에이전트는 다음 흐름을 반복한다.

  • 무엇을 알아봐야 하는지 생각한다.
  • 검색 계획을 세운다.
  • 웹 검색이나 페이지 크롤링을 수행한다.
  • 관찰 결과를 바탕으로 다음 행동을 정한다.
  • 하위 보고서를 작성한다.

마지막에는 요약 에이전트가 하위 보고서를 합쳐 최종 보고서를 만든다.

이때 최종 답변만 저장하지 않는다.

검색, 관찰, 중간 판단, 하위 답변까지 모두 훈련 데이터로 저장한다.

Crop 포인트: 위쪽 병렬 흐름은 하위 질문별로 검색 맥락을 분리해 깊이를 확보하는 구조를 보여주며, 아래쪽 순차 흐름은 O-Researcher가 이 과정을 하나의 학습 가능한 궤적으로 직렬화하는 방식을 보여준다.


방법 2: 고품질 데이터 필터링

논문은 먼저 5,000개 시드 질문을 만든다.

질문은 다음 출처에서 가져오거나 합성했다.

  • Zhihu-KOL
  • WideSearch
  • ELI5
  • LLM이 만든 부족 도메인 주제

이후 복잡하고 개방형인 질문을 중심으로 리서치 궤적을 생성한다.

최종적으로 3,500개 이상의 고품질 instruction-response 쌍을 얻었다.

품질 관리는 여러 단계로 진행된다.

1. 후보를 여러 개 만든다

각 질문마다 서로 다른 궤적 후보를 3개 생성한다.

이유는 간단하다.

한 번에 좋은 리서치 경로가 나올 가능성은 낮다.

여러 후보를 만든 뒤 가장 나은 경로를 고른다.

2. 규칙 기반으로 거른다

형식이 깨진 답변은 바로 제거한다.

논문이 사용한 주요 조건은 다음과 같다.

  • 필요한 태그와 도구 호출이 모두 있어야 한다.
  • 전체 길이는 64k 토큰 안에 있어야 한다.
  • 최소 10개 이상의 추론 단계가 있어야 한다.
  • 최소 5번 이상의 도구 사용이 있어야 한다.
  • 입력 질문과 출력 언어가 일관되어야 한다.

3. AI 심사자가 의미 품질을 본다

규칙을 통과한 궤적은 Qwen3 기반 LLM-as-a-Judge가 평가한다.

평가 대상은 형식이 아니다.

논리 일관성, 도구 사용의 적절성, 근거 기반성을 본다.

4. 사람이 최종 점검한다

상위 후보는 주제별로 사람이 샘플 검수한다.

낮은 품질로 판정되면 원래 질문을 다시 처리한다.

이 구조는 단순한 “데이터 대량 생성”이 아니다.

생성, 거절, 심사, 재생성을 결합한 데이터 공정이다.


방법 3: SFT 다음 RLAIF

훈련은 두 단계다.

첫 단계는 지도 미세조정이다.

모델은 생성된 리서치 궤적을 보고 딥 리서치 절차를 배운다.

두 번째 단계는 AI 피드백 기반 강화학습이다.

목표는 더 좋은 보고서, 더 적절한 도구 사용, 더 안정적인 형식 준수다.

보상은 세 축으로 구성된다.

  • 보고서 품질: 포괄성, 깊이, 지시 준수, 가독성
  • 도구 사용: 검색과 크롤링을 너무 적게도, 너무 과하게도 쓰지 않도록 유도
  • 형식 준수: 최종 답변 구조와 태그 닫힘 여부 확인

논문은 이 단계에서 난이도 조절도 사용한다.

SFT 모델이 너무 쉽게 잘 푸는 질문은 버린다.

반대로 거의 모두 실패하는 질문도 버린다.

학습 신호가 가장 큰 중간 난이도의 질문을 중심으로 강화학습을 진행한다.

Crop 포인트: 왼쪽은 SFT용 고품질 궤적을 만드는 과정이고, 오른쪽은 AI 심사자와 보상 규칙으로 보고서 품질과 근거 사용을 다시 조정하는 RL 과정을 보여준다.


실험 설정

논문은 두 벤치마크를 사용한다.

DeepResearch Bench

100개의 박사급 리서치 과제로 구성된다.

평가 도메인은 다음 네 가지다.

  • 과학·기술
  • 금융·비즈니스
  • 소프트웨어 엔지니어링
  • 기타 고난도 주제

평가는 두 축이다.

RACE는 보고서 품질을 본다.

  • 포괄성
  • 분석 깊이
  • 지시 준수
  • 가독성

FACT는 근거 품질을 본다.

  • 인용 정확도
  • 유효 인용 수

DeepResearchGym

검색 API와 다차원 평가 프로토콜을 갖춘 오픈소스 평가 환경이다.

관련성, 충실성, 보고서 품질을 함께 본다.


주요 결과

가장 중요한 비교는 Qwen-2.5-72B-Instruct와 O-Researcher의 차이다.

O-Researcher는 Qwen 계열 기반 모델에 딥 리서치 궤적 학습을 입힌 결과다.

항목 Qwen-2.5-72B-Instruct O-Researcher-SFT O-Researcher-RL
Overall 33.38 46.24 48.48
Comprehensiveness 30.27 44.41 47.32
Depth 23.41 46.84 49.54
Instruction Following 43.80 46.79 48.64
Readability 39.49 46.76 47.58
Citation Accuracy 44.27 29.13 31.99
Effective Citations 8.96 22.63 26.01

 

해석은 분명하다.

SFT는 모델을 훨씬 더 길고 깊은 리서치 보고서 생성기로 바꾼다.

특히 Depth가 크게 오른다.

유효 인용 수도 증가한다.

 

하지만 인용 정확도는 기본 모델보다 낮아진다.

보고서가 길어지고 근거가 많아지면서 노이즈도 늘어난 것으로 볼 수 있다.

RL 단계는 이 손실을 일부 회복한다.

O-Researcher-RL은 SFT보다 인용 정확도와 유효 인용 수를 모두 개선했다.


DeepResearchGym 결과

DeepResearchGym에서도 O-Researcher-72B는 강한 모습을 보인다.

모델 KPR Citation Precision Recall Clarity Insight
O-Researcher-32B 68.35 32.01 94.44 95.9 91.1
O-Researcher-72B 77.28 51.45 94.61 100.0 99.3

 

특히 Citation Precision이 51.45로 표 안에서 가장 높다.

이는 보고서가 근거와 더 잘 연결되었다는 뜻이다.

Clarity와 Insight도 거의 만점에 가깝다.

이 결과는 O-Researcher가 단순히 많은 정보를 모으는 모델이 아니라, 근거를 보고서 구조 안에 배치하는 능력도 학습했다는 점을 보여준다.


병렬 실행이 중요한 이유

논문은 GPT-5에 병렬 워크플로를 적용한 실험도 제시한다.

결과는 큼직하다.

실행 방식 Overall Comprehensiveness Insight Instruction Following Readability
순차 실행 42.92 40.59 38.58 48.05 46.88
병렬 실행 49.60 49.61 48.69 50.58 50.32

 

병렬 실행은 특히 포괄성과 깊이를 크게 올린다.

이유는 맥락 경쟁을 줄이기 때문이다.

긴 리서치 작업을 하나의 흐름에서 처리하면 중요한 근거가 중간에 희석된다.

반대로 하위 문제별로 검색 맥락을 분리하면 각 관점의 세부 근거를 더 잘 유지할 수 있다.

 

논문은 넷플릭스의 『백년의 고독』 영상화 사례를 예로 든다.

질문을 서사 구조, 제작 물류, 문화적 진정성으로 나누고 각 축에서 독립적으로 근거를 수집한다.

Crop 포인트: 가운데의 Think-Search-Observation 반복 구간은 각 하위 질문이 독립적으로 증거를 모은 뒤 오른쪽의 최종 보고서로 합쳐지는 핵심 흐름을 보여준다.


추론 단계 수와 문맥 길이

논문은 리서치 워크플로의 단계 수를 비교했다.

5단계보다 10단계가 전반적으로 더 좋았다.

20단계는 표 기준 최고 점수를 냈지만, 검색 문맥과 비용이 더 커진다.

저자들은 실용적 균형점으로 10단계를 선택한다.

 

문맥 길이도 중요하다.

32k 토큰보다 64k 토큰에서 성능 향상이 컸다.

하지만 64k에서 128k로 늘릴 때는 추가 이득이 제한적이었다.

즉, 무조건 긴 문맥만으로 해결되는 문제는 아니다.

핵심은 긴 문맥 안에 들어갈 좋은 리서치 절차다.


이 논문의 의미

O-Researcher의 기여는 새 모델 구조보다 훈련 공정에 가깝다.

핵심은 다음 세 가지다.

1. 리서치 과정을 데이터화했다

최종 답변이 아니라, 질문 분해와 검색 행동을 학습 데이터로 만들었다.

이는 딥 리서치 모델 훈련에서 중요한 방향이다.

2. 멀티 에이전트 생성과 단일 모델 학습을 연결했다

여러 에이전트가 비싸게 수행한 작업을 하나의 모델이 배우게 한다.

운영 시에는 복잡한 워크플로 의존도를 줄일 수 있다.

3. 보고서 품질과 인용 품질을 함께 최적화했다

RACE와 FACT를 모두 고려한다.

이 점은 단순한 장문 생성 모델과의 차이다.


한계와 주의점

논문 결과는 인상적이지만 몇 가지 주의가 필요하다.

1. 인용 정확도는 아직 낮다

O-Researcher-RL의 Citation Accuracy는 31.99다.

기본 Qwen 모델보다 낮다.

유효 인용 수는 늘었지만, 모든 인용이 충분히 정확해진 것은 아니다.

2. 평가자 의존성이 있다

데이터 필터링과 RL 보상에 LLM-as-a-Judge가 들어간다.

평가자 모델의 편향이나 취약점이 훈련 데이터에 반영될 수 있다.

3. “SOTA”의 범위를 구분해야 한다

O-Researcher-RL은 open-weights deep research model로 강하다.

하지만 DeepResearch Bench 전체 표에서는 WebWeaver와 OAgents-DR 같은 에이전트 시스템이 더 높은 점수를 보인다.

따라서 “모델 단독 성능”과 “에이전트 시스템 성능”을 분리해서 봐야 한다.

4. 재현성은 코드와 데이터 공개 범위에 달려 있다

논문은 오픈소스를 언급한다.

그러나 실제 재현 가능성은 코드, 데이터, 검색 환경, 평가 설정이 얼마나 공개되는지에 좌우된다.


결론

O-Researcher는 딥 리서치 모델을 훈련하는 실용적 레시피를 제시한다.

핵심은 모델을 단순히 더 크게 만드는 것이 아니다.

좋은 리서치 절차를 만들고, 그 절차를 궤적으로 저장하고, 모델이 그 과정을 모방한 뒤 AI 피드백으로 다듬게 하는 것이다.

이 접근은 오픈소스 모델이 폐쇄형 모델과의 격차를 줄이는 한 가지 경로를 보여준다.

특히 검색 기반 보고서 생성, 근거 중심 질의응답, 리서치 에이전트 증류에 직접적인 시사점이 있다.


Source