Deep Research Agents: Major Breakthrough or Incremental Progress for Medical AI? 정리

Wong et al., J Med Internet Res (2026) 핵심 정리

논문 한눈에 보기

논문명: Deep Research Agents: Major Breakthrough or Incremental Progress for Medical AI?
저자: Matthew Yu Heng Wong, Ariel Yuhan Ong, David A. Merle, Pearse A. Keane
저널 / 연도: Journal of Medical Internet Research, 2026
DOI: 10.2196/88195
논문 유형: Viewpoint
한 줄 결론: 저자들은 deep research agent를 의료 AI의 완전히 새로운 패러다임이라기보다, RAG·웹 검색·도구 사용·다단계 계획을 결합한 점진적 진화로 본다. 즉, “정보 수집과 정리를 빠르게 도와주는 강력한 보조도구”이지만, 의학적 판단을 대신하는 pseudoexpert로 취급해서는 안 된다는 입장이다. (원문 p.1, p.8-9)

핵심 메시지

이 논문은 deep research agent를 낙관적으로만 보지도, 비관적으로만 보지도 않는다.
“쓸모는 크다. 그러나 아직 믿고 맡길 수준은 아니다.”
의료에서의 올바른 포지셔닝은 대체(replace) 가 아니라 보조(assist) 다.

1. 이 논문이 던지는 질문

이 논문의 제목 자체가 질문이다.
Deep research agent는 의료 AI의 ‘major breakthrough’인가, 아니면 ‘incremental progress’인가?

저자들의 답은 분명하다.

브레이크스루처럼 보이는 측면은 있다.
최신 웹 정보에 접근하고, 다수의 문헌을 수집하고, 표와 보고서 형태로 구조화해 주기 때문이다.
그러나 근본 구조를 보면 기존 RAG 계열의 연장선에 있다.
즉, reasoning의 본질이 완전히 바뀌었다기보다 검색-계획-도구 사용을 orchestration하는 층이 강화된 것에 가깝다는 것이다. (원문 p.2, p.5, p.8-9)

이 지점이 블로그에서 가장 먼저 잡아야 할 핵심이다.

블로그용 포인트

혁신의 중심은 “새로운 지능” 보다는 “더 나은 연구 워크플로 자동화” 에 있다.
저자들은 deep research agent를 전문가 대체물이 아니라 연구 보조자로 규정한다.

2. Deep Research Agent란 무엇인가?

논문은 deep research agent를,
실시간 웹 검색, 외부 문서 검색, 도구 호출, 반복적 계획 수정, 인용 기반 보고서 생성을 수행하는 agentic LLM 시스템으로 설명한다. (원문 p.2)

일반적인 챗봇형 LLM과 비교하면 차이는 다음과 같다.

일반 챗봇형 LLM

한 번의 질문에 대해
모델 내부 지식과 제한된 컨텍스트로
상대적으로 짧은 답변을 생성

Deep research agent

질의를 다단계로 분해하고
자료를 반복적으로 검색·교차검증하고
필요하면 사용자에게 추가 명확화 질문을 던진 뒤
결과를 보고서·표·근거 정리 형태로 제시

이 차이를 가장 직관적으로 보여주는 것이 원문 Figure 1이다.

그림 1. Deep research agent의 기본 워크플로. 사용자 입력 → 명확화 → 반복적 도구 사용(reasoning) → 지식베이스/온라인 검색/외부 도구 활용 → 구조화된 산출물의 흐름을 보여준다. 저자들이 강조하는 핵심은 “새로운 마법 같은 추론”보다는, 이 전체 흐름을 조정하는 orchestration layer 의 강화다. 출처: Wong et al., 2026, Figure 1 (p.2), CC BY 4.0.

왜 이 그림이 중요한가?

이 그림은 deep research agent의 경쟁력이 “답 하나를 잘 쓰는 능력” 에 있지 않고,
질문을 다루는 프로세스 전체를 자동화하는 능력 에 있음을 보여준다.

즉, 의료 현장에서의 잠재력도 결국 다음 같은 흐름에 있다.

질문을 더 정확히 정의하고
관련 자료를 더 넓게 모으고
자료를 더 구조적으로 요약하고
사람이 최종 판단을 내리게 돕는 것

3. 왜 저자들은 ‘패러다임 전환’이 아니라고 보나?

이 논문에서 가장 중요한 비판적 판단은 다음 문장으로 요약된다.

deep research agent의 주요 혁신은 새로운 reasoning paradigm 이 아니라,
planning, retrieval, tool use를 묶어내는 orchestration 에 있다. (원문 p.5)

저자들이 그렇게 보는 이유는 크게 4가지다.

3-1. 구조적으로 기존 RAG와 연속선상에 있다

논문은 deep research agent를 “RAG를 확장한 형태”로 설명한다.
한 번만 검색하는 single-shot retrieval이 아니라, iterative retrieval + query refinement + synthesis 를 수행한다는 차이가 있지만,
기저 구조는 여전히 retrieval-augmented generation 의 계보 안에 있다. (원문 p.2-3, p.5)

3-2. 향상은 ‘지식의 질적 도약’보다 ‘작업 수행의 자율화’에 가깝다

좋아진 것은 다음과 같은 영역이다.

문헌을 더 많이 찾는 능력
근거를 표로 정리하는 능력
비교 보고서를 만드는 능력
최신 웹 정보에 접근하는 능력

하지만 이건 어디까지나 작업 효율과 범위의 확장이지,
의료적 추론을 완전히 신뢰 가능한 수준으로 재구성한 것은 아니라는 주장이다.

3-3. 핵심 한계가 그대로 남아 있다

논문은 기존 LLM/RAG의 한계가 여전히 남아 있다고 본다.

citation fidelity 문제
claim-source alignment 문제
불투명한 소스 랭킹
hallucination
bias
human overreliance

즉, 겉보기 산출물의 완성도는 높아졌지만, 신뢰성 문제는 해소되지 않았다는 것이다. (원문 p.5-8)

3-4. 실제 임상 검증이 아직 부족하다

논문은 현재 근거의 대부분이
perspective, proof-of-concept, 초기 벤치마크 수준이라고 지적한다.
실제 의료 워크플로에서 안정적으로 검증된 증거는 부족하다. (원문 p.8)

4. 논문이 기대하는 활용처

이 논문은 deep research agent의 잠재력을 무시하지 않는다. 오히려 활용처는 상당히 분명하다고 본다.

4-1. 문헌 리뷰와 증거 요약

논문이 가장 비중 있게 다루는 분야다.

잠재적 장점은 다음과 같다.

최신 연구를 빠르게 모을 수 있다
여러 논문을 한 번에 요약할 수 있다
초안 작성을 빠르게 시작할 수 있다
guideline comparison 같은 작업을 단축할 수 있다

저자들이 인용한 평가들에 따르면, 일부 deep research 시스템은
사람이 쓴 것처럼 보이는 매끈한 문헌 요약 초안을 짧은 시간 안에 만들어낼 수 있다. (원문 p.5)

다만 바로 여기서 논문은 가장 강한 경고도 동시에 제시한다.

OpenAI Deep Research는 비교 대상 중 가장 나은 초안을 만들었지만, 여전히 인용 정확성 검증이 필요했다. (원문 p.5)
피부과 문헌 리뷰 평가에서는 OpenAI Deep Research의 인용 중 약 95%가 식별 가능, 약 70%가 완전히 정확했지만, Gemini·Perplexity 계열은 가짜 저자명 또는 제목을 상당수 생성했다는 결과가 소개된다. (원문 p.5)
더 심각하게는, 인용은 맞아 보여도 그 인용이 실제 주장과 정확히 맞물리지 않는 claim-source mismatch 가 발견되었다. (원문 p.5)

즉, “보기 좋은 리뷰 초안”과 “신뢰 가능한 근거 합성”은 다르다는 점이 핵심이다.

5. Figure 2와 Figure 3가 보여주는 것: 잘 작동하는 순간은 어떻게 보이는가?

원문은 단순 이론 소개에서 멈추지 않고, 실제 deep research workflow가 어떻게 진행되는지 예시를 보여준다.

그림 2. Deep research agent가 바로 답을 시작하지 않고, 먼저 사용자의 의도를 명확히 하는 과정. 특정 암종 중심인지, pan-cancer인지, 어떤 면역치료를 보는지 등을 다시 묻는다. 출처: Wong et al., 2026, Figure 2 (p.4), CC BY 4.0.

이 장면은 deep research agent가 기존 챗봇보다 나은 이유를 잘 보여준다.
좋은 합성은 좋은 검색에서 나오고, 좋은 검색은 좋은 문제 정의에서 시작되기 때문이다.

논문이 강조하는 바는 간단하다.

질문이 모호하면 검색도 모호해진다
deep research agent는 그 모호성을 줄이기 위해 clarification step 을 넣는다
이게 단순 채팅이 아니라 research workflow 로 움직인다는 신호다

그다음 결과물의 예시가 Figure 3이다.

그림 3. deep research agent가 생성한 구조화된 evidence table 예시. 논문은 이 예시가 “성공 사례”임을 인정하면서도, 이런 매끈한 결과물이 언제나 동일한 품질을 보장하는 것은 아니라고 분명히 경고한다. 출처: Wong et al., 2026, Figure 3 (p.4), CC BY 4.0.

블로그에서 이 그림을 설명할 때 잡아야 할 포인트

agent는 그럴듯한 표를 만들 수 있다.
심지어 짧은 시간 안에 근거표 형식까지 만들어낼 수 있다.
그러나 표가 그럴듯하다고 해서 표 안의 claim이 모두 안전한 것은 아니다.

이게 이 논문의 가장 현실적인 시선이다.
표면 품질(surface reliability) 와 근거 충실성(source fidelity) 는 다르다.

6. 환자 교육과 Clinical Q&A에서는 어떤가?

논문은 deep research agent가 환자 설명 자료나 임상 질의응답에서도 강점을 보인다고 본다. (원문 p.6)

예를 들어, 인용된 연구들에서는 다음 경향이 나타났다.

deep research 모델은 더 포괄적이고 상세한 설명을 제공하는 경향이 있음
RAG를 통합한 모델들이 일반 챗봇보다 정보 품질 평가 지표에서 더 높은 점수를 받음
하지만 동시에 읽기 난이도(readability) 는 지나치게 높아지는 경우가 많음

즉, 임상의에게는 도움이 되지만 환자에게는 그대로 전달하기 어려울 수 있다는 뜻이다.

실무적 해석

deep research agent는 환자교육 자료를 직접 배포하는 엔진이라기보다,

임상의가 최신 정보를 빠르게 모으고
그 내용을 사람이 다시 환자 눈높이에 맞춰 다듬는
중간 단계 도구

로 보는 편이 더 맞다.

7. 의료 특화 agent와 벤치마크가 보여주는 현실

논문은 “deep research가 곧 의료 전문가 수준”이라는 환상을 경계한다.

특히 MedBrowseComp 벤치마크에서는,
OpenAI o3, Gemini 2.5 Pro, Perplexity 같은 leading proprietary deep research agent들이
복합적인 multihop biomedical question의 약 1/4 정도만 정답을 맞혔다고 정리한다. (원문 p.6-7)

또한 의료 특화 모델로 소개된

MedResearcher-R1 (32B): 27.5%
OpenAI o3 Deep Research: 25.5%
Gemini 2.5 Pro: 약 25%
IQVIA Med-R1 (8B): 더 작은 모델이지만 상위 범용 모델과 비슷한 수준

이라는 수치도 제시한다. (원문 p.6-7)

이 수치가 의미하는 것

이 숫자들은 두 가지를 동시에 보여준다.

긍정적 의미

의료 특화 agent는 확실히 가능성이 있다.
작은 모델도 도메인 최적화와 retrieval 설계가 좋으면 경쟁력이 생긴다.

경고의 의미

그래도 아직 정확도는 “믿고 맡길 수준”과는 거리가 멀다.
특히 reasoning hop이 길어질수록 성능 저하가 크다.
따라서 지금 단계에서 의료 deep research agent는 clinical assistant 라기보다 exploratory tool 로 보는 것이 맞다.

8. 논문이 가장 강하게 경고하는 한계

원문 Figure 4는 이 논문의 비판적 시각을 가장 잘 압축한다.

그림 4. deep research agent의 한계를 시스템 수준 한계와 인간·임상 측면 위험으로 나눠 정리한 도식. 출처: Wong et al., 2026, Figure 4 (p.7), CC BY 4.0.

이 그림을 바탕으로 블로그에서는 아래 5가지를 중심으로 정리하면 좋다.

8-1. Reliability and content integrity

가장 직접적인 위험이다.

존재하지 않는 논문을 만들거나
실제 논문을 잘못 인용하거나
맞는 논문을 붙였지만 핵심 주장과 안 맞는 경우가 생길 수 있다

특히 의료에서는 작은 왜곡도 위험하다.
진료 의사결정, 환자 안내, 리뷰 논문, guideline 해석에 들어가면 파급효과가 커지기 때문이다. (원문 p.5, p.7-9)

8-2. Transparency and interpretability

왜 어떤 소스를 우선했고, 어떤 근거를 버렸는지,
랭킹과 종합 과정이 충분히 투명하지 않다. (원문 p.5, p.8)

즉, 결과가 좋아 보여도
“왜 이 결론이 나왔는지 audit 가능한가?” 라는 질문에 아직 약하다.

8-3. Cognitive risk and automation bias

논문이 특히 강하게 말하는 부분이다.

저자들은 의료 교육과 연구에서 다음 위험을 지적한다.

automation bias: 시스템이 주는 답을 과신
deskilling: 원래 있던 비판적 읽기 능력이 약해짐
never-skilling: 애초에 필요한 능력을 제대로 배우지 못함
mis-skilling: AI의 오류를 반복적으로 받아들이면서 잘못된 방식으로 학습됨

즉, deep research agent가 편리할수록
오히려 사람이 근거를 읽고 판단하는 근육이 약해질 수 있다는 우려다. (원문 p.7-8)

8-4. Safety and misuse vulnerabilities

논문은 multistep research pipeline이 때때로 기존 챗봇보다 안전장치가 덜 예측 가능할 수 있다고 지적한다. (원문 p.8)

핵심 우려는 다음과 같다.

연구라는 형식을 빌려 위험한 정보를 더 깊게 수집할 수 있음
기존 short-form chat safety filter가 agentic pipeline에서는 다르게 작동할 수 있음

이 부분은 의료뿐 아니라 broader AI safety 문제와도 연결된다.

8-5. Bias, access, equity, and lack of real-world validation

논문은 deep research agent가 다음 편향을 강화할 수 있다고 본다.

영어권 / 서구권 공개 문헌 편중
paywall 밖의 open-access 자료 편중
구독형·고비용 서비스 중심으로 인한 접근성 격차
실제 임상 환경에서의 검증 부족

즉, 더 강력한 연구 보조도구가
오히려 정보 접근 격차와 연구 자원 격차를 확대할 수 있다는 경고다. (원문 p.5, p.8)

9. 그럼 의료 현장에서는 어떻게 써야 하나?

이 논문은 단순 경고에서 끝나지 않고, 비교적 실용적인 검증 프레임워크도 제안한다. (원문 p.8-9)

사용자(임상의) 수준의 3단계 검증

인용 출처 확인
PubMed, FDA, 주요 학회 guideline 등 신뢰 가능한 저장소에서 왔는지 확인
선별 감사(selective audit)
특히 임상적으로 중요한 주장부터 원문 논문 / 가이드라인과 대조
의미적 정합성 점검
출력이 질문 범위를 벗어나지 않았는지, 내부 모순은 없는지, 약한 근거를 과신하고 있지는 않은지 확인

이 제안은 실무적으로 매우 중요하다.

현실적인 사용 원칙

deep research agent는

문헌 검색 범위를 넓히고
초기 정리 시간을 줄이며
사람이 검토해야 할 search space를 좁히는 데 강하다.

반대로 다음 역할을 맡기면 위험하다.

최종 결론 확정
임상 판단 대행
근거 수준 판정 자동화
검증 없는 환자 안내문 자동 배포

10. 핵심 문장

문장 1

Deep research agent의 혁신은 “생각을 완전히 새로 하는 능력”보다 “연구 프로세스를 더 길고 체계적으로 굴리는 능력”에 있다.

문장 2

의료에서 deep research agent는 pseudoexpert가 아니라 research copilot로 보는 것이 정확하다.

문장 3

겉보기에 완성도 높은 요약과 표가 나와도, citation fidelity와 claim-source alignment는 여전히 별도 검증이 필요하다.

문장 4

지금의 deep research agent는 임상 결정을 대신하기보다, 사람이 더 빨리 읽고 더 넓게 탐색하도록 돕는 도구다.

문장 5

이 논문은 deep research를 부정하지 않는다. 다만 “강력한 보조도구”와 “신뢰 가능한 전문가 대체물”은 전혀 다르다고 선을 긋는다.

11. 최종 정리

이 논문은 deep research agent를 둘러싼 과열된 기대를 한 단계 식혀 준다.

저자들의 최종 메시지

가능성은 크다
활용 가치는 분명하다
하지만 의료에서는 검증 없는 자동화가 가장 위험하다

따라서 가장 좋은 정리는 다음과 같다.

Deep research agent는 의료 AI의 ‘대전환’이라기보다,
최신 정보 접근과 연구 워크플로 자동화를 크게 밀어 올린 ‘강력한 점진적 진화’다.

그리고 이 문장을 꼭 함께 붙이면 좋다.

가치는 검색과 정리의 가속에 있고, 책임은 여전히 인간의 검증과 판단에 있다.

Source: Wong MYH, Ong AY, Merle DA, Keane PA. Deep Research Agents: Major Breakthrough or Incremental Progress for Medical AI? J Med Internet Res. 2026;28:e88195. doi:10.2196/88195. Figure cropped from the original article, used under CC BY 4.0.

원문 정보

Wong MYH, Ong AY, Merle DA, Keane PA.
Deep Research Agents: Major Breakthrough or Incremental Progress for Medical AI?
Journal of Medical Internet Research. 2026;28:e88195.
doi: 10.2196/88195

'AI 생성 글 정리 > agent' 카테고리의 다른 글

MedGemma Technical Report 핵심 정리 (0)	2026.04.01
Toolformer 논문 핵심 정리 (0)	2026.04.01
Capabilities of Gemini Models in Medicine 논문 정리 (0)	2026.04.01
VOYAGER 논문 핵심 정리 (0)	2026.04.01
Can AI Conduct Autonomous Scientific Research? 정리 (0)	2026.04.01