GeneAgent: self-verification language agent for gene-set analysis using domain databases
Zhizheng Wang, Qiao Jin, Chih-Hsuan Wei, Shubo Tian, Po-Ting Lai, Qingqing Zhu, Chi-Ping Day, Christina Ross, Robert Leaman, Zhiyong Lu
Nature Methods (2025), 22:1677–1685
DOI: 10.1038/s41592-025-02748-6
한 줄 요약
GeneAgent의 핵심은 “더 큰 LLM”이 아니라, LLM이 만든 gene-set 해석을 GO/KEGG/Reactome/PubMed 같은 도메인 데이터베이스로 다시 검증하고 수정하는 루프를 붙였다는 점이다.
그 결과, gene-set의 기능명을 더 정확하게 붙이고, 설명 문장의 hallucination도 줄였다.
1. 왜 이 논문이 중요한가
gene-set analysis는 여러 유전자 묶음이 어떤 생물학적 기능이나 경로를 공유하는지 해석하는 작업이다.
기존 GSEA는 강력하지만, 이미 잘 정리된 데이터베이스 용어와의 겹침에 강하게 의존한다. 그래서 새롭거나 경계적인 gene set, 즉 기존 기능명과 부분적으로만 겹치는 경우에는 해석력이 제한될 수 있다.
최근 LLM은 gene set의 기능을 자연어로 설명하는 데 가능성을 보여줬지만, 동시에 그럴듯하지만 틀린 설명(hallucination) 을 만들 수 있다는 문제가 있다.
이 논문은 바로 이 지점을 겨냥한다.
논문의 질문은 단순하다.
“LLM이 gene set을 설명하게 하되, 그 설명이 생물학 데이터베이스의 근거와 맞는지 스스로 다시 점검하게 만들 수 있을까?”
GeneAgent의 답은 그렇다이다.
2. 이 논문이 제안하는 것: GeneAgent
GeneAgent는 GPT-4 기반의 language agent다.
입력은 gene set, 출력은 대표 biological process name + 분석 서술(analytical narratives) 이다.
하지만 일반적인 “한 번 생성하고 끝나는” LLM 파이프라인과 다르게, GeneAgent는 다음 네 단계를 거친다.
- Generation: gene set을 보고 초안(process name + 설명)을 생성
- Self-verification: 초안에서 claim을 뽑아 도메인 데이터베이스로 검증
- Modification: 검증 결과를 반영해 이름과 설명을 수정
- Summarization: 수정본을 정리해 최종 출력 생성
이때 self-verification은 GO/KEGG/Reactome 같은 pathway/ontology DB뿐 아니라 PubMed, NCBI Gene, gene-complex, PPI 등까지 활용한다.
논문 기준으로 4개의 Web API를 통해 18개의 biomedical database 를 연결했다.
또한 평가 데이터에서 자기 자신을 그대로 맞히는 정보 누출(data leakage) 을 막기 위해,
예를 들어 GO 데이터셋을 평가할 때는 g:Profiler의 GO 기반 검증을 제거하는 식의 masking strategy 도 적용했다.
3. Figure 1로 보는 전체 구조

Figure 1 해설
- 왼쪽(b): gene set을 넣으면 먼저 process name과 설명 초안이 나온다.
- 오른쪽(c): selfVeri-Agent가 문장을 그대로 믿지 않고, claim을 쪼개서 API를 호출한 뒤 DB 근거와 맞는지 확인한다.
- 가운데 반복 루프(a): 검증 결과가 충분하지 않거나 반박되면 이름과 설명을 수정하고, 다시 검증한다.
이 그림이 보여주는 핵심은 아주 분명하다.
GeneAgent는 “생성 모델”이라기보다 “생성 → 검증 → 수정”을 도는 에이전트 시스템 이다.
4. 실험 설계: 얼마나 공정하게 검증했나
논문은 총 1,106개 gene set 으로 평가했다.
| 데이터셋 | 개수 | 특징 |
|---|---|---|
| GO | 1,000 | literature curation 기반 |
| NeST | 50 | human cancer proteomics 기반 |
| MSigDB | 56 | molecular function / hallmark 관련 |
| 합계 | 1,106 | 다양한 난이도와 규모 포함 |
중요한 포인트는 이 데이터들이 대부분 2023년 이후 공개 되었고,
논문에서 사용한 GPT-4(20230613)의 학습 컷오프는 2021년 9월 이전 이라는 점이다.
즉, 단순히 학습 데이터에 있던 정답을 외운 것이 아니라는 논지를 세운다.
평가 지표는 다음과 같다.
- ROUGE-L / ROUGE-1 / ROUGE-2: 정답 기능명과의 표면적 일치
- MedCPT semantic similarity: biomedical text encoder 기반 의미 유사도
- background percentile ranking: 정답이 12,320개 후보 term 중 얼마나 상위권에 드는지
- exact-match enrichment term accuracy: LLM이 뽑은 기능 용어가 GSEA의 유의 term과 얼마나 정확히 맞는지
- human review: 실제 novel gene set에 대한 전문가 평가
5. 핵심 결과 1: 이름을 더 정확하게 붙인다

Figure 2에서 봐야 할 포인트
(1) ROUGE가 전반적으로 개선된다
논문은 GeneAgent가 세 데이터셋 전반에서 GPT-4보다 더 나은 ROUGE를 보였다고 보고한다.
특히 MSigDB 에서는:
- ROUGE-L: 0.239 ± 0.038 → 0.310 ± 0.047
- ROUGE-2: 0.074 ± 0.030 → 0.155 ± 0.044
즉, GeneAgent가 만든 기능명이 ground truth의 토큰 조합과 더 가깝다.
(2) 의미 유사도도 더 높다
MedCPT 기반 평균 semantic similarity는 다음과 같다.
- GO: 0.705 vs 0.689
- NeST: 0.761 vs 0.708
- MSigDB: 0.736 vs 0.722
(앞 값이 GeneAgent, 뒤 값이 GPT-4)
표면적으로 단어가 조금 달라도, 의미적으로 더 가까운 기능명 을 생성했다는 뜻이다.
(3) “정말 가까운 이름”을 더 자주 만든다
논문은 GeneAgent가:
- similarity 90% 초과 사례: 170개 (GPT-4는 104개)
- similarity 70% 초과 사례: 614개 (GPT-4는 545개)
- similarity 100% 사례: 15개 (GPT-4는 3개)
를 만들었다고 보고한다.
(4) verification report는 synopsis로도 강하다
Figure 2d는 이 논문에서 꽤 중요한 패널이다.
GeneAgent의 self-verification 단계에서 나온 verification report 를 gene synopsis처럼 활용하면,
LLM이 요약한 enrichment term이 실제 유의미한 GSEA term과 정확히 일치하는 비율이 80.7% 였다.
비교하면:
- no synopsis: 56.0%
- ontological synopsis: 68.8%
- narrative synopsis: 52.5%
- verification report: 80.7%
즉, 검증 보고서는 단지 “팩트체크” 용이 아니라,
LLM이 다음 출력을 더 정확하게 만들도록 돕는 구조화된 중간표현 으로도 작동한다.
6. 핵심 결과 2: hallucination을 줄였다는 걸 수치로 보여준다

Figure 3에서 봐야 할 포인트
(1) claim 검증이 실제로 돌아간다
논문은 1,106개 gene set에서 나온 15,903개 claim 을 분석했다.
이 중 15,848개(99.6%) 에 대해 selfVeri-Agent가 유효한 verification report를 만들었다고 보고한다.
즉, “검증을 붙였다”가 선언에 그치지 않고,
실제로 거의 모든 claim에 대해 evidence retrieval이 수행됐다는 뜻이다.
(2) unsupported claim이 수정으로 이어진다
검증 과정에서 16%의 claim이 supported되지 않았고,
이 unsupported claim은 794개 gene set 에 분포했다.
그중 703개(88.5%) 는 이후 수정되었다.
이 대목이 중요하다.
GeneAgent의 성능 향상은 단순한 생성 편차가 아니라,
검증 결과가 실제 revision으로 이어지는 loop 덕분이라는 해석이 가능하다.
(3) 어떤 지식원을 어디에 쓰는지도 보인다
Figure 3b를 보면:
- process name 검증 은 Enrichr, g:Profiler 비중이 크고
- analytical narratives 검증 은 E-utils, AgentAPI 비중이 크다
즉, 기능명 수준의 검증에는 pathway enrichment 계열이,
문장 수준의 세부 설명에는 gene-level evidence가 더 많이 쓰인다.
(4) 사람 검토와도 잘 맞는다
논문은 NeST에서 무작위 10개 gene set, 총 132개 claim 을 사람이 다시 확인했다.
그 결과 GeneAgent의 decision은 92% (122/132) 가 correct였다.
이 수치는 “자동 검증 모듈이 사람 수준의 최종 진실 판정”이라는 뜻은 아니지만,
최소한 실무적으로 꽤 신뢰 가능한 evidence filter 로 기능한다는 점을 뒷받침한다.
7. 핵심 결과 3: 실제 novel gene set에서도 설명력이 좋다

논문은 mouse B2905 melanoma cell line 에서 얻은 7개의 novel gene set 에 GeneAgent를 적용했다.
여기서 블로그에서 강조하기 좋은 포인트는 두 가지다.
(1) 정답과 정확히 맞은 사례가 있다
다음 두 gene set은 전문가가 정한 ground truth와 완전히 일치 했다.
- mmu04015 (HA-S) → Rap1 signaling pathway
- mmu05100 (HA-S) → Bacterial invasion of epithelial cells
(2) 더 중요한 건 “더 구체적인 통찰”을 준다는 점이다
대표 사례가 mmu05022 (LA-S) 다.
- GeneAgent: Neurodegeneration and respiratory chain complex
- GPT-4: Oxidative phosphorylation and neurodegeneration
겉보기에는 둘 다 그럴듯하다.
하지만 논문 저자들은 GeneAgent가 복합체 I, IV, V의 subunit 수준 으로 gene function을 더 구체적으로 포착했다고 설명한다.
반면 GPT-4의 “oxidative phosphorylation”은 더 상위의, 넓은 개념이다.
즉, GeneAgent는 좀 더 생물학적으로 세분화된 기능 단위 를 꺼낼 가능성이 높다.
8. 이 논문의 진짜 기여는 무엇인가
이 논문의 기여를 단순히 “GeneAgent가 GPT-4보다 성능이 좋다”로 요약하면 아쉽다.
더 본질적인 기여는 다음 세 가지다.
8-1. LLM 출력에 “증거 기반 revision loop”를 붙였다
기존 LLM 기반 gene-set analysis는 종종 설명을 한 번 만들고 끝난다.
이 논문은 그 대신:
초안 생성 → claim 추출 → DB 검증 → 수정 → 재검증 → 최종 요약
이라는 구조를 설계했다.
이 패턴은 gene-set analysis를 넘어,
생물학 지식 발견용 agent 설계의 일반 패턴 으로도 볼 수 있다.
8-2. “설명력”과 “신뢰성”을 함께 잡으려 했다
GSEA는 안정적이지만 설명이 딱딱하고,
LLM은 유연하지만 틀릴 수 있다.
GeneAgent는 그 중간 지대를 겨냥한다.
즉, LLM의 서술 능력 과 curated DB의 검증성 을 합치려 한다.
8-3. domain database가 여전히 중심임을 보여준다
흥미롭게도 이 논문은 “LLM이 모든 걸 대체한다”가 아니라,
오히려 전문가가 축적해 둔 도메인 데이터베이스가 agent 성능의 핵심 기반 임을 보여준다.
9. 한계와 비판적으로 볼 포인트
좋은 논문이지만, 블로그에서는 한계도 같이 짚어주는 편이 좋다.
9-1. backbone 모델이 GPT-4 하나다
논문은 GPT-4만 backbone으로 사용했다.
따라서 “self-verification 구조의 이득”과 “특정 기반 모델의 성능”을 완전히 분리해 해석하기는 어렵다.
9-2. 검증 품질은 결국 데이터베이스 커버리지에 좌우된다
저자들은 error analysis에서 두 가지 실패 원인을 제시한다.
- 정답에 가까운 이름을 DB 규모 한계 때문에 잘못 반박하는 경우
- 엉뚱한 DB를 호출해 원래 덜 비슷한 과정을 지지해버리는 경우
즉, self-verification이 만능은 아니다.
검증기 역시 retrieval quality에 의존 한다.
9-3. ground truth 자체가 “유일한 정답”은 아니다
gene-set naming은 원래 하나의 정답만 있는 문제가 아니다.
특히 similarity가 0.7~0.9인 경우, GeneAgent의 이름이 ground truth의 ancestor term 에 더 가깝다는 분석도 제시된다.
이건 오히려 흥미로운 지점이다.
모델이 완전히 틀린 것이 아니라, 더 넓은 상위 개념을 잡아내는 경우 도 있다는 뜻이다.
9-4. ROUGE만으로는 충분하지 않다
저자들도 인정하듯 ROUGE는 보조지표다.
이 작업에서는 semantic similarity와 biological plausibility를 같이 봐야 한다.
10. 블로그에 쓸 때 강조하면 좋은 메시지
포인트 1. “더 큰 모델”보다 “검증 루프”가 중요하다
이 논문의 핵심은 foundation model을 새로 만든 것이 아니라,
LLM 초안을 검증 가능한 형태로 바꾼 설계 에 있다.
포인트 2. hallucination reduction이 정성 평가가 아니라 정량 평가로 제시된다
1,106 gene set, 15,903 claim, human verification 92%라는 숫자는
“그럴듯해 보이는 개선”을 넘어서 정량 근거가 있는 개선 이라는 느낌을 준다.
포인트 3. GSEA와 LLM을 경쟁시키기보다 결합한다
이 논문은 “LLM vs GSEA”라기보다,
GSEA/curated DB를 evidence engine으로 쓰는 LLM agent 라는 점이 더 중요하다.
포인트 4. 실제 생물학적 insight는 더 세부적인 기능 묶음에서 나온다
mmu05022 사례처럼, 상위 개념 하나를 던지는 것보다
복합체 수준, subunit 수준의 묶음 을 찾아주는 게 연구자에게 더 유용할 수 있다.
포인트 5. biomedical AI agent의 방향성을 보여준다
앞으로의 agent는 단순 챗봇이 아니라,
도구를 호출하고, 근거를 조합하고, 자기 출력을 다시 고치는 구조 로 갈 가능성이 높다.
12. 요약문
GeneAgent는 gene set의 기능명을 LLM이 먼저 생성한 뒤, GO·KEGG·Reactome·PubMed 같은 도메인 데이터베이스로 이를 다시 검증하고 수정하는 self-verification agent다. 논문은 1,106개 gene set 평가에서 GeneAgent가 GPT-4보다 더 높은 ROUGE와 semantic similarity를 보였고, verification report를 gene synopsis처럼 활용했을 때 enrichment term 정확도도 80.7%까지 올라간다고 보고했다. 특히 15,903개의 claim 중 99.6%에 대해 자동 검증 보고서를 생성했고, 사람이 다시 확인한 subset에서는 92%가 올바른 판정이었다. 핵심은 “더 큰 LLM”이 아니라 “생성 결과를 근거로 다시 검증하는 구조”에 있으며, 실제 melanoma case study에서는 GPT-4보다 더 구체적인 biological insight도 제시했다. 이 논문은 biomedical AI agent의 성능이 결국 curated database와 evidence-driven revision loop에 의해 크게 좌우된다는 점을 잘 보여준다.
13. 발표/세미나에서 한 장으로 정리하면
핵심 메시지
- 문제: LLM 기반 gene-set analysis는 설명은 잘하지만 hallucination이 발생한다.
- 해결: GeneAgent는 claim을 추출해 도메인 DB로 검증하고, unsupported claim을 수정한다.
- 결과: 1,106 gene set에서 GPT-4보다 더 정확한 process name을 생성했다.
- 의의: agentic AI의 성능 개선은 모델 자체보다도 retrieval-grounded self-verification 에서 온다.
한 문장 결론
GeneAgent는 “생성하는 LLM”을 “근거를 확인하고 고치는 scientific agent”로 바꿔 놓았다.
14. 그림/저작권 사용 메모
원문은 Open Access, CC BY 4.0 이며, 논문 말미에 다음과 같은 재사용 조건이 명시돼 있다.
- 출처와 저자를 적절히 표시할 것
- CC BY 4.0 라이선스를 명시할 것
- 변경(예: crop, 재배치, 번역)이 있었다면 표시할 것
블로그에 넣을 때는 아래처럼 적으면 무난하다.
출처: Wang et al., Nature Methods (2025), “GeneAgent: self-verification language agent for gene-set analysis using domain databases”, DOI: 10.1038/s41592-025-02748-6.
Note: Figure cropped/adapted from the original article under CC BY 4.0.
15. 개인적인 해석: 왜 이 논문이 오래 남을 수 있나
이 논문이 인상적인 이유는 “생물학에서 LLM을 잘 썼다”는 수준을 넘어서,
과학용 agent는 결국 검증 가능성(verifiability)을 중심으로 설계되어야 한다 는 메시지를 분명하게 보여주기 때문이다.
특히 biomedical domain에서는
“말을 잘하는 모델”보다 틀렸을 때 어떤 evidence로 고칠 수 있는가 가 훨씬 중요하다.
GeneAgent는 그 점에서 agentic AI의 좋은 설계 예시다.
17. 원문 정보
- 논문명: GeneAgent: self-verification language agent for gene-set analysis using domain databases
- 저널: Nature Methods
- 출판 연도: 2025
- DOI: 10.1038/s41592-025-02748-6
논문 본문에는 data/code/demo 경로도 공개되어 있다.
블로그 후반부에서 “재현성” 또는 “추가 자료” 섹션을 만들 계획이라면,
원문 Methods의 Data availability / Code availability 부분도 함께 참고하면 좋다.
18. 이 문서에 포함된 figure 목록
- Figure 1 (원문 p. 1678): GeneAgent 전체 프레임워크
- Figure 2 (원문 p. 1681): 벤치마크 성능 비교
- Figure 3 (원문 p. 1683): self-verification의 작동 통계
- Extended Data Fig. 3 (원문 PDF p. 15): 실제 case study 시각화
모든 이미지는 원문 figure 영역만 보이도록 crop 해서 정리했다.
'AI 생성 글 정리 > bio' 카테고리의 다른 글
| Caduceus 논문 정리 (0) | 2026.04.06 |
|---|---|
| NucleusDiff 논문 정리 (0) | 2026.04.06 |
| 논문 정리: Graph-Augmented Retrieval for Digital Evidence-Based Medical Synthesis (0) | 2026.04.06 |
| Energy-Based Flow Matching for Generating 3D Molecular Structure 정리 (0) | 2026.04.06 |
| Enformer 논문 핵심 정리 (0) | 2026.04.03 |