희귀질환 진단은 “정보가 너무 적은 질환”을 “증상이 너무 복잡한 환자”에게서 찾아내는 문제입니다.
이 논문은 그 문제를 단일 AI 모델이 아니라 역할이 나뉜 에이전트 시스템으로 다룹니다.
핵심 결과는 명확합니다.
- DeepRare는 환자의 증상 설명, HPO 표현형, 유전체 검사 결과를 함께 처리합니다.
- 가능한 희귀질환을 순위로 제시합니다.
- 각 진단 후보에 대해 근거 문헌, 유사 사례, 지식베이스 링크를 붙입니다.
- 성능뿐 아니라 “왜 그렇게 판단했는가”를 추적 가능하게 만드는 데 초점을 둡니다.

한 줄 요약
DeepRare는 희귀질환 진단을 위한 LLM 기반 멀티 에이전트 시스템입니다.
기존 진단 도구가 후보 질환 목록만 내놓는 경우가 많았다면, DeepRare는 후보 질환과 함께 검증 가능한 추론 경로를 제공합니다.
이는 임상 현장에서 중요합니다.
의사는 AI의 답을 그대로 믿기보다, 그 답이 어떤 근거에서 나왔는지 확인해야 하기 때문입니다.

Crop 포인트: 하단 성능 비교에서 DeepRare가 기존 진단 도구, 일반 LLM, reasoning LLM, 다른 에이전트 시스템과 분리되어 가장 높은 성능 영역에 놓인 점을 보세요.
왜 희귀질환 진단은 어려운가
논문은 희귀질환 진단의 어려움을 네 가지로 정리합니다.
- 증상이 여러 장기와 전문과에 걸쳐 나타납니다.
- 개별 질환의 환자 수가 적어 학습 데이터가 부족합니다.
- 새로운 희귀 유전질환 지식이 계속 추가됩니다.
- 임상 적용에는 설명 가능성과 근거 추적성이 필요합니다.
여기서 중요한 점은 “희귀질환”이 단순히 작은 시장이 아니라는 것입니다.
논문에 따르면 전 세계적으로 3억 명 이상이 희귀질환의 영향을 받습니다.
알려진 희귀질환은 7,000개 이상이며, 상당수가 유전적 원인을 가집니다.
문제는 진단까지의 시간입니다.
환자는 여러 병원을 오가고, 오진을 겪고, 불필요한 검사나 처치를 받는 경우가 많습니다. 논문은 이 과정을 5년 이상 이어지는 “diagnostic odyssey”로 설명합니다.
DeepRare의 작동 방식
DeepRare는 크게 세 층으로 구성됩니다.
- 중앙 호스트
- LLM이 담당합니다.
- 메모리 뱅크를 갖고 있습니다.
- 전체 진단 흐름을 조율합니다.
- 전문 에이전트 서버
- 표현형 추출
- 질환명 표준화
- 지식 검색
- 유사 사례 검색
- 표현형 분석
- 유전체 분석을 나눠 맡습니다.
- 외부 의료 지식원
- 논문
- 임상 가이드라인
- 희귀질환 지식베이스
- 유사 환자 사례
- 유전 변이 데이터베이스를 활용합니다.
수식으로 표현된 부분의 핵심은 간단합니다.
DeepRare는 환자 정보를 받아, 표준화된 표현형과 유전 정보를 만들고, 관련 지식과 사례를 모은 뒤, 임시 진단 후보를 세웁니다. 그 다음 스스로 후보를 다시 검증합니다.
충분한 근거가 없으면 더 검색하고, 근거가 확인되면 최종 후보와 설명을 함께 출력합니다.
즉, 진단은 한 번에 끝나는 답변이 아닙니다.
검색, 분석, 가설 생성, 반박, 재검증을 반복하는 절차입니다.
평가 데이터: 쉬운 사례부터 실제 병원 기록까지
논문은 9개 데이터셋을 사용했습니다.
전체 규모는 6,401개 임상 사례입니다. 여기에 2,919개 희귀질환과 14개 의학 전문 영역이 포함됩니다.
데이터는 크게 세 부류입니다.
- 논문에서 추출된 비교적 정제된 사례
- 환자 또는 연구자가 업로드한 case report 기반 사례
- 실제 임상센터에서 수집된 병원 기록 기반 사례
이 구성이 중요합니다.
논문에서 잘 정리된 사례만 맞히는 시스템은 실제 병원에서 약할 수 있습니다.
DeepRare는 더 지저분하고 불완전한 실제 기록까지 포함해 평가되었습니다.

Crop 포인트: Xinhua와 Hunan 데이터셋이 실제 임상센터 기반이며 원시 유전체 데이터를 포함한다는 점을 보세요.
핵심 성능: HPO 기반 진단에서 큰 격차
논문은 주로 Recall@1, Recall@3, Recall@5를 사용합니다.
여기서 Recall@1은 정답 질환이 첫 번째 추천에 들어간 비율입니다.
Recall@3과 Recall@5는 정답 질환이 각각 상위 3개, 상위 5개 후보 안에 들어간 비율입니다.
HPO 기반 평가에서 DeepRare는 평균 Recall@1 57.18%를 기록했습니다.
다음으로 높은 방법보다 약 23.79포인트 앞섰습니다.
Recall@3에서도 65.25%로, 다음 방법보다 약 18.65포인트 높았습니다.
주목할 점은 비교 대상입니다.
DeepRare는 전통적인 희귀질환 진단 도구만 이긴 것이 아닙니다.
일반 LLM, reasoning LLM, 의료 특화 LLM, 다른 에이전트 시스템까지 비교했습니다.

Crop 포인트: 각 데이터셋의 막대그래프에서 DeepRare가 문헌 기반, case report 기반, 실제 임상 기반 평가 전반에서 반복적으로 앞서는지 확인하세요.
유전 정보가 들어오면 성능은 더 오른다
DeepRare는 증상 정보만 보지 않습니다.
전장 엑솜 시퀀싱으로 얻은 VCF 파일도 함께 분석할 수 있습니다.
이때 유전 변이 후보를 정리하고, 표현형과 유전자-질환 관계를 함께 해석합니다.
Xinhua Hospital 데이터셋에서는 HPO만 사용할 때 Recall@1이 39.9%였습니다.
HPO와 유전 정보를 함께 쓰면 69.1%까지 올라갔습니다.
Hunan Hospital 데이터셋에서도 HPO만 사용할 때 33.3%였고, 유전 정보를 함께 쓰면 63.6%가 되었습니다.
Exomiser와 비교해도 DeepRare가 높았습니다.
- Xinhua: DeepRare 69.1%, Exomiser 55.9%
- Hunan: DeepRare 63.6%, Exomiser 58.0%
이 결과는 단순히 LLM이 병명을 잘 찍었다는 의미가 아닙니다.
표현형 추론과 유전체 분석을 하나의 진단 흐름으로 묶은 효과가 나타난 것입니다.

Crop 포인트: 하단의 의사 비교와 유전 정보 통합 결과를 보면 DeepRare가 임상적 판단 보조와 다중 입력 통합에서 동시에 강점을 보입니다.
의사와 비교했을 때의 의미
논문은 Xinhua Hospital의 163개 임상 사례에서 DeepRare와 희귀질환 경험이 10년 이상인 의사 5명을 비교했습니다.
입력 조건은 동일했습니다.
양쪽 모두 외래 기록에서 추출한 HPO 표현형을 받았습니다.
의사는 검색 엔진과 참고 자료를 사용할 수 있었지만 AI 도구는 사용할 수 없었습니다.
결과는 다음과 같습니다.
- Recall@1: DeepRare 64.4%, 의사 평균 54.6%
- Recall@5: DeepRare 78.5%, 의사 평균 65.6%
이 결과는 DeepRare가 의사를 대체한다는 뜻으로 읽으면 안 됩니다.
더 적절한 해석은 다음입니다.
희귀질환처럼 경험과 지식 검색이 중요한 영역에서, 에이전트형 AI가 의사의 differential diagnosis 범위를 넓혀줄 수 있다.
추적 가능한 추론이 왜 중요한가
LLM을 의료에 적용할 때 가장 큰 문제 중 하나는 환각입니다.
그럴듯하지만 실제로는 틀린 근거를 만들 수 있습니다.
의료에서는 이것이 치명적입니다.
DeepRare는 최종 진단 후보마다 참고 문헌, 지식베이스, 유사 사례를 연결합니다.
그리고 잘못된 URL이나 근거 없는 참조를 줄이기 위한 검증 단계도 둡니다.
논문은 180개 사례를 대상으로 전문의 검증을 수행했습니다.
10명의 희귀질환 전문의가 DeepRare의 reference list를 평가했고, 평균 reference accuracy는 95.4%였습니다.

Crop 포인트: 상단의 reference list와 하단의 정확도 분포를 함께 보면, DeepRare의 강점이 단순 진단 정확도보다 근거 제시에 있음을 알 수 있습니다.
실패 사례가 말해주는 한계
DeepRare가 틀린 사례도 분석했습니다.
정답이 상위 5개 후보 안에 들지 못한 200개 사례를 세 명의 희귀질환 전문의가 검토했습니다.
가장 큰 실패 유형은 두 가지였습니다.
- Reasoning weighing error: 41.0%
- 논리 구조는 맞지만 특정 증상에 부여한 중요도가 잘못된 경우입니다.
- Phenotypic mimic diagnosis: 38.5%
- 증상이 비슷한 질환을 구분하지 못한 경우입니다.
반면 기본적인 사실 오류나 근거 연결 오류는 각각 2.5%로 낮았습니다.
이 결과는 흥미롭습니다.
DeepRare의 약점은 “의학 지식을 전혀 모르는 것”이 아닙니다.
더 큰 문제는 비슷한 표현형 사이에서 어떤 단서에 더 큰 가중치를 둘 것인가입니다.
이는 실제 의사에게도 어려운 지점입니다.
에이전트 구조 자체가 성능을 만든다
저자들은 DeepRare의 성능이 단순히 강한 LLM 하나를 쓴 결과인지 확인했습니다.
결론은 아니었습니다.
같은 LLM도 DeepRare의 에이전트 구조 안에 들어가면 성능이 크게 개선되었습니다.
예를 들어 GPT-4o 기반에서는 평균 Recall@1이 25.60%에서 54.67%로 올랐습니다.
DeepSeek-V3 기반에서는 26.18%에서 56.94%로 올랐습니다.
또한 유사 사례 검색, 웹 지식 검색, self-reflection은 서로 다른 상황에서 보완적으로 작동했습니다.
즉, 핵심은 모델 하나가 아닙니다.
여러 도구와 검색 경로를 조율하고, 결과를 다시 검증하는 workflow입니다.

Crop 포인트: 하단의 기본 LLM 대비 에이전트 시스템 성능 상승과 모듈별 기여를 보면, DeepRare의 성능이 구조적 설계에서 나온다는 점이 드러납니다.
임상적으로 어떻게 봐야 하나
DeepRare는 진단 자동화 시스템이라기보다 희귀질환 진단 copilot에 가깝습니다.
가장 유용한 지점은 다음입니다.
- 비전문 의사가 드문 질환을 의심해야 할 때
- 복잡한 표현형을 여러 전문과 관점에서 정리해야 할 때
- 유전 검사 결과와 증상 정보를 함께 해석해야 할 때
- 후보 질환마다 참고 문헌과 유사 사례를 빠르게 확인해야 할 때
특히 희귀질환은 개별 의사가 모든 질환을 경험하기 어렵습니다.
DeepRare는 이 공백을 “검색 가능한 의학 지식 + 유사 사례 + 추론 검증”으로 보완합니다.
논문의 한계
논문이 인정하는 한계도 있습니다.
첫째, 아직 모든 유용한 의료 데이터 소스가 통합된 것은 아닙니다.
둘째, 현재 지식 검색은 표현형 정보를 한 번에 묶어 처리합니다.
향후에는 증상별로 더 정교하게 검색하는 방식이 필요할 수 있습니다.
셋째, DeepRare는 주로 “희귀질환 가능성을 이미 고려하는 상황”에 맞춰져 있습니다.
일반 진료 현장에서 희귀질환을 처음 의심하게 만드는 screening 기능은 더 발전해야 합니다.
넷째, 환자와 상호작용하며 정보를 더 묻는 기능은 구현되어 있지만, 검증 데이터 부족으로 충분히 평가되지 않았습니다.
정리
DeepRare의 핵심 기여는 세 가지입니다.
- 희귀질환 진단을 LLM 하나의 답변 문제가 아니라 에이전트형 workflow 문제로 재구성했습니다.
- 표현형, 유전 정보, 문헌, 지식베이스, 유사 사례를 통합했습니다.
- 진단 후보와 함께 추적 가능한 근거를 제시해 임상 검증 가능성을 높였습니다.
가장 중요한 메시지는 이것입니다.
의료 AI의 다음 단계는 더 큰 모델만이 아니라, 더 검증 가능한 진단 절차입니다.
DeepRare는 그 방향을 희귀질환 진단이라는 고난도 문제에서 보여준 사례입니다.
Source
- Weike Zhao, Chaoyi Wu, Yanjie Fan, et al. “An agentic system for rare disease diagnosis with traceable reasoning.” Nature 651, 775–784 (2026). https://doi.org/10.1038/s41586-025-10097-9
- Source code: https://github.com/MAGIC-AI4Med/DeepRare
- Web application: https://deeprare.cn
- Figures are reproduced from the open-access article under the Creative Commons Attribution-NonCommercial-NoDerivatives 4.0 International License.