본문 바로가기
AI 생성 글 정리/bio

GeneAgent 논문 정리

by Honbul 2026. 4. 6.

GeneAgent: self-verification language agent for gene-set analysis using domain databases

Zhizheng Wang, Qiao Jin, Chih-Hsuan Wei, Shubo Tian, Po-Ting Lai, Qingqing Zhu, Chi-Ping Day, Christina Ross, Robert Leaman, Zhiyong Lu
Nature Methods (2025), 22:1677–1685
DOI: 10.1038/s41592-025-02748-6


한 줄 요약

GeneAgent의 핵심은 “더 큰 LLM”이 아니라, LLM이 만든 gene-set 해석을 GO/KEGG/Reactome/PubMed 같은 도메인 데이터베이스로 다시 검증하고 수정하는 루프를 붙였다는 점이다.
그 결과, gene-set의 기능명을 더 정확하게 붙이고, 설명 문장의 hallucination도 줄였다.


1. 왜 이 논문이 중요한가

gene-set analysis는 여러 유전자 묶음이 어떤 생물학적 기능이나 경로를 공유하는지 해석하는 작업이다.
기존 GSEA는 강력하지만, 이미 잘 정리된 데이터베이스 용어와의 겹침에 강하게 의존한다. 그래서 새롭거나 경계적인 gene set, 즉 기존 기능명과 부분적으로만 겹치는 경우에는 해석력이 제한될 수 있다.

 

최근 LLM은 gene set의 기능을 자연어로 설명하는 데 가능성을 보여줬지만, 동시에 그럴듯하지만 틀린 설명(hallucination) 을 만들 수 있다는 문제가 있다.

이 논문은 바로 이 지점을 겨냥한다.

논문의 질문은 단순하다.

“LLM이 gene set을 설명하게 하되, 그 설명이 생물학 데이터베이스의 근거와 맞는지 스스로 다시 점검하게 만들 수 있을까?”

GeneAgent의 답은 그렇다이다.


2. 이 논문이 제안하는 것: GeneAgent

GeneAgent는 GPT-4 기반의 language agent다.
입력은 gene set, 출력은 대표 biological process name + 분석 서술(analytical narratives) 이다.

하지만 일반적인 “한 번 생성하고 끝나는” LLM 파이프라인과 다르게, GeneAgent는 다음 네 단계를 거친다.

  1. Generation: gene set을 보고 초안(process name + 설명)을 생성
  2. Self-verification: 초안에서 claim을 뽑아 도메인 데이터베이스로 검증
  3. Modification: 검증 결과를 반영해 이름과 설명을 수정
  4. Summarization: 수정본을 정리해 최종 출력 생성

이때 self-verification은 GO/KEGG/Reactome 같은 pathway/ontology DB뿐 아니라 PubMed, NCBI Gene, gene-complex, PPI 등까지 활용한다.
논문 기준으로 4개의 Web API를 통해 18개의 biomedical database 를 연결했다.

또한 평가 데이터에서 자기 자신을 그대로 맞히는 정보 누출(data leakage) 을 막기 위해,
예를 들어 GO 데이터셋을 평가할 때는 g:Profiler의 GO 기반 검증을 제거하는 식의 masking strategy 도 적용했다.


3. Figure 1로 보는 전체 구조

 

Figure 1 해설

  • 왼쪽(b): gene set을 넣으면 먼저 process name과 설명 초안이 나온다.
  • 오른쪽(c): selfVeri-Agent가 문장을 그대로 믿지 않고, claim을 쪼개서 API를 호출한 뒤 DB 근거와 맞는지 확인한다.
  • 가운데 반복 루프(a): 검증 결과가 충분하지 않거나 반박되면 이름과 설명을 수정하고, 다시 검증한다.

이 그림이 보여주는 핵심은 아주 분명하다.
GeneAgent는 “생성 모델”이라기보다 “생성 → 검증 → 수정”을 도는 에이전트 시스템 이다.


4. 실험 설계: 얼마나 공정하게 검증했나

논문은 총 1,106개 gene set 으로 평가했다.

데이터셋 개수 특징
GO 1,000 literature curation 기반
NeST 50 human cancer proteomics 기반
MSigDB 56 molecular function / hallmark 관련
합계 1,106 다양한 난이도와 규모 포함

 

중요한 포인트는 이 데이터들이 대부분 2023년 이후 공개 되었고,
논문에서 사용한 GPT-4(20230613)의 학습 컷오프는 2021년 9월 이전 이라는 점이다.
즉, 단순히 학습 데이터에 있던 정답을 외운 것이 아니라는 논지를 세운다.

평가 지표는 다음과 같다.

  • ROUGE-L / ROUGE-1 / ROUGE-2: 정답 기능명과의 표면적 일치
  • MedCPT semantic similarity: biomedical text encoder 기반 의미 유사도
  • background percentile ranking: 정답이 12,320개 후보 term 중 얼마나 상위권에 드는지
  • exact-match enrichment term accuracy: LLM이 뽑은 기능 용어가 GSEA의 유의 term과 얼마나 정확히 맞는지
  • human review: 실제 novel gene set에 대한 전문가 평가

5. 핵심 결과 1: 이름을 더 정확하게 붙인다

Figure 2에서 봐야 할 포인트

(1) ROUGE가 전반적으로 개선된다

논문은 GeneAgent가 세 데이터셋 전반에서 GPT-4보다 더 나은 ROUGE를 보였다고 보고한다.
특히 MSigDB 에서는:

  • ROUGE-L: 0.239 ± 0.038 → 0.310 ± 0.047
  • ROUGE-2: 0.074 ± 0.030 → 0.155 ± 0.044

즉, GeneAgent가 만든 기능명이 ground truth의 토큰 조합과 더 가깝다.

(2) 의미 유사도도 더 높다

MedCPT 기반 평균 semantic similarity는 다음과 같다.

  • GO: 0.705 vs 0.689
  • NeST: 0.761 vs 0.708
  • MSigDB: 0.736 vs 0.722
    (앞 값이 GeneAgent, 뒤 값이 GPT-4)

표면적으로 단어가 조금 달라도, 의미적으로 더 가까운 기능명 을 생성했다는 뜻이다.

(3) “정말 가까운 이름”을 더 자주 만든다

논문은 GeneAgent가:

  • similarity 90% 초과 사례: 170개 (GPT-4는 104개)
  • similarity 70% 초과 사례: 614개 (GPT-4는 545개)
  • similarity 100% 사례: 15개 (GPT-4는 3개)

를 만들었다고 보고한다.

(4) verification report는 synopsis로도 강하다

Figure 2d는 이 논문에서 꽤 중요한 패널이다.
GeneAgent의 self-verification 단계에서 나온 verification report 를 gene synopsis처럼 활용하면,
LLM이 요약한 enrichment term이 실제 유의미한 GSEA term과 정확히 일치하는 비율이 80.7% 였다.

비교하면:

  • no synopsis: 56.0%
  • ontological synopsis: 68.8%
  • narrative synopsis: 52.5%
  • verification report: 80.7%

즉, 검증 보고서는 단지 “팩트체크” 용이 아니라,
LLM이 다음 출력을 더 정확하게 만들도록 돕는 구조화된 중간표현 으로도 작동한다.


6. 핵심 결과 2: hallucination을 줄였다는 걸 수치로 보여준다

Figure 3에서 봐야 할 포인트

(1) claim 검증이 실제로 돌아간다

논문은 1,106개 gene set에서 나온 15,903개 claim 을 분석했다.
이 중 15,848개(99.6%) 에 대해 selfVeri-Agent가 유효한 verification report를 만들었다고 보고한다.

즉, “검증을 붙였다”가 선언에 그치지 않고,
실제로 거의 모든 claim에 대해 evidence retrieval이 수행됐다는 뜻이다.

(2) unsupported claim이 수정으로 이어진다

검증 과정에서 16%의 claim이 supported되지 않았고,
이 unsupported claim은 794개 gene set 에 분포했다.
그중 703개(88.5%) 는 이후 수정되었다.

이 대목이 중요하다.
GeneAgent의 성능 향상은 단순한 생성 편차가 아니라,
검증 결과가 실제 revision으로 이어지는 loop 덕분이라는 해석이 가능하다.

(3) 어떤 지식원을 어디에 쓰는지도 보인다

Figure 3b를 보면:

  • process name 검증 은 Enrichr, g:Profiler 비중이 크고
  • analytical narratives 검증 은 E-utils, AgentAPI 비중이 크다

즉, 기능명 수준의 검증에는 pathway enrichment 계열이,
문장 수준의 세부 설명에는 gene-level evidence가 더 많이 쓰인다.

(4) 사람 검토와도 잘 맞는다

논문은 NeST에서 무작위 10개 gene set, 총 132개 claim 을 사람이 다시 확인했다.
그 결과 GeneAgent의 decision은 92% (122/132) 가 correct였다.

이 수치는 “자동 검증 모듈이 사람 수준의 최종 진실 판정”이라는 뜻은 아니지만,
최소한 실무적으로 꽤 신뢰 가능한 evidence filter 로 기능한다는 점을 뒷받침한다.


7. 핵심 결과 3: 실제 novel gene set에서도 설명력이 좋다

 

논문은 mouse B2905 melanoma cell line 에서 얻은 7개의 novel gene set 에 GeneAgent를 적용했다.

여기서 블로그에서 강조하기 좋은 포인트는 두 가지다.

(1) 정답과 정확히 맞은 사례가 있다

다음 두 gene set은 전문가가 정한 ground truth와 완전히 일치 했다.

  • mmu04015 (HA-S) → Rap1 signaling pathway
  • mmu05100 (HA-S) → Bacterial invasion of epithelial cells

(2) 더 중요한 건 “더 구체적인 통찰”을 준다는 점이다

대표 사례가 mmu05022 (LA-S) 다.

  • GeneAgent: Neurodegeneration and respiratory chain complex
  • GPT-4: Oxidative phosphorylation and neurodegeneration

겉보기에는 둘 다 그럴듯하다.
하지만 논문 저자들은 GeneAgent가 복합체 I, IV, V의 subunit 수준 으로 gene function을 더 구체적으로 포착했다고 설명한다.
반면 GPT-4의 “oxidative phosphorylation”은 더 상위의, 넓은 개념이다.

즉, GeneAgent는 좀 더 생물학적으로 세분화된 기능 단위 를 꺼낼 가능성이 높다.


8. 이 논문의 진짜 기여는 무엇인가

이 논문의 기여를 단순히 “GeneAgent가 GPT-4보다 성능이 좋다”로 요약하면 아쉽다.
더 본질적인 기여는 다음 세 가지다.

8-1. LLM 출력에 “증거 기반 revision loop”를 붙였다

기존 LLM 기반 gene-set analysis는 종종 설명을 한 번 만들고 끝난다.
이 논문은 그 대신:

초안 생성 → claim 추출 → DB 검증 → 수정 → 재검증 → 최종 요약

이라는 구조를 설계했다.

이 패턴은 gene-set analysis를 넘어,
생물학 지식 발견용 agent 설계의 일반 패턴 으로도 볼 수 있다.

8-2. “설명력”과 “신뢰성”을 함께 잡으려 했다

GSEA는 안정적이지만 설명이 딱딱하고,
LLM은 유연하지만 틀릴 수 있다.

GeneAgent는 그 중간 지대를 겨냥한다.
즉, LLM의 서술 능력curated DB의 검증성 을 합치려 한다.

8-3. domain database가 여전히 중심임을 보여준다

흥미롭게도 이 논문은 “LLM이 모든 걸 대체한다”가 아니라,
오히려 전문가가 축적해 둔 도메인 데이터베이스가 agent 성능의 핵심 기반 임을 보여준다.


9. 한계와 비판적으로 볼 포인트

좋은 논문이지만, 블로그에서는 한계도 같이 짚어주는 편이 좋다.

9-1. backbone 모델이 GPT-4 하나다

논문은 GPT-4만 backbone으로 사용했다.
따라서 “self-verification 구조의 이득”과 “특정 기반 모델의 성능”을 완전히 분리해 해석하기는 어렵다.

9-2. 검증 품질은 결국 데이터베이스 커버리지에 좌우된다

저자들은 error analysis에서 두 가지 실패 원인을 제시한다.

  1. 정답에 가까운 이름을 DB 규모 한계 때문에 잘못 반박하는 경우
  2. 엉뚱한 DB를 호출해 원래 덜 비슷한 과정을 지지해버리는 경우

즉, self-verification이 만능은 아니다.
검증기 역시 retrieval quality에 의존 한다.

9-3. ground truth 자체가 “유일한 정답”은 아니다

gene-set naming은 원래 하나의 정답만 있는 문제가 아니다.
특히 similarity가 0.7~0.9인 경우, GeneAgent의 이름이 ground truth의 ancestor term 에 더 가깝다는 분석도 제시된다.

이건 오히려 흥미로운 지점이다.
모델이 완전히 틀린 것이 아니라, 더 넓은 상위 개념을 잡아내는 경우 도 있다는 뜻이다.

9-4. ROUGE만으로는 충분하지 않다

저자들도 인정하듯 ROUGE는 보조지표다.
이 작업에서는 semantic similarity와 biological plausibility를 같이 봐야 한다.


10. 블로그에 쓸 때 강조하면 좋은 메시지

포인트 1. “더 큰 모델”보다 “검증 루프”가 중요하다

이 논문의 핵심은 foundation model을 새로 만든 것이 아니라,
LLM 초안을 검증 가능한 형태로 바꾼 설계 에 있다.

포인트 2. hallucination reduction이 정성 평가가 아니라 정량 평가로 제시된다

1,106 gene set, 15,903 claim, human verification 92%라는 숫자는
“그럴듯해 보이는 개선”을 넘어서 정량 근거가 있는 개선 이라는 느낌을 준다.

포인트 3. GSEA와 LLM을 경쟁시키기보다 결합한다

이 논문은 “LLM vs GSEA”라기보다,
GSEA/curated DB를 evidence engine으로 쓰는 LLM agent 라는 점이 더 중요하다.

포인트 4. 실제 생물학적 insight는 더 세부적인 기능 묶음에서 나온다

mmu05022 사례처럼, 상위 개념 하나를 던지는 것보다
복합체 수준, subunit 수준의 묶음 을 찾아주는 게 연구자에게 더 유용할 수 있다.

포인트 5. biomedical AI agent의 방향성을 보여준다

앞으로의 agent는 단순 챗봇이 아니라,
도구를 호출하고, 근거를 조합하고, 자기 출력을 다시 고치는 구조 로 갈 가능성이 높다.


12. 요약문

GeneAgent는 gene set의 기능명을 LLM이 먼저 생성한 뒤, GO·KEGG·Reactome·PubMed 같은 도메인 데이터베이스로 이를 다시 검증하고 수정하는 self-verification agent다. 논문은 1,106개 gene set 평가에서 GeneAgent가 GPT-4보다 더 높은 ROUGE와 semantic similarity를 보였고, verification report를 gene synopsis처럼 활용했을 때 enrichment term 정확도도 80.7%까지 올라간다고 보고했다. 특히 15,903개의 claim 중 99.6%에 대해 자동 검증 보고서를 생성했고, 사람이 다시 확인한 subset에서는 92%가 올바른 판정이었다. 핵심은 “더 큰 LLM”이 아니라 “생성 결과를 근거로 다시 검증하는 구조”에 있으며, 실제 melanoma case study에서는 GPT-4보다 더 구체적인 biological insight도 제시했다. 이 논문은 biomedical AI agent의 성능이 결국 curated database와 evidence-driven revision loop에 의해 크게 좌우된다는 점을 잘 보여준다.


13. 발표/세미나에서 한 장으로 정리하면

핵심 메시지

  • 문제: LLM 기반 gene-set analysis는 설명은 잘하지만 hallucination이 발생한다.
  • 해결: GeneAgent는 claim을 추출해 도메인 DB로 검증하고, unsupported claim을 수정한다.
  • 결과: 1,106 gene set에서 GPT-4보다 더 정확한 process name을 생성했다.
  • 의의: agentic AI의 성능 개선은 모델 자체보다도 retrieval-grounded self-verification 에서 온다.

한 문장 결론

GeneAgent는 “생성하는 LLM”을 “근거를 확인하고 고치는 scientific agent”로 바꿔 놓았다.


14. 그림/저작권 사용 메모

원문은 Open Access, CC BY 4.0 이며, 논문 말미에 다음과 같은 재사용 조건이 명시돼 있다.

  • 출처와 저자를 적절히 표시할 것
  • CC BY 4.0 라이선스를 명시할 것
  • 변경(예: crop, 재배치, 번역)이 있었다면 표시할 것

블로그에 넣을 때는 아래처럼 적으면 무난하다.

출처: Wang et al., Nature Methods (2025), “GeneAgent: self-verification language agent for gene-set analysis using domain databases”, DOI: 10.1038/s41592-025-02748-6.
Note: Figure cropped/adapted from the original article under CC BY 4.0.


15. 개인적인 해석: 왜 이 논문이 오래 남을 수 있나

이 논문이 인상적인 이유는 “생물학에서 LLM을 잘 썼다”는 수준을 넘어서,
과학용 agent는 결국 검증 가능성(verifiability)을 중심으로 설계되어야 한다 는 메시지를 분명하게 보여주기 때문이다.

특히 biomedical domain에서는
“말을 잘하는 모델”보다 틀렸을 때 어떤 evidence로 고칠 수 있는가 가 훨씬 중요하다.
GeneAgent는 그 점에서 agentic AI의 좋은 설계 예시다.


17. 원문 정보

  • 논문명: GeneAgent: self-verification language agent for gene-set analysis using domain databases
  • 저널: Nature Methods
  • 출판 연도: 2025
  • DOI: 10.1038/s41592-025-02748-6

논문 본문에는 data/code/demo 경로도 공개되어 있다.
블로그 후반부에서 “재현성” 또는 “추가 자료” 섹션을 만들 계획이라면,
원문 Methods의 Data availability / Code availability 부분도 함께 참고하면 좋다.


18. 이 문서에 포함된 figure 목록

  • Figure 1 (원문 p. 1678): GeneAgent 전체 프레임워크
  • Figure 2 (원문 p. 1681): 벤치마크 성능 비교
  • Figure 3 (원문 p. 1683): self-verification의 작동 통계
  • Extended Data Fig. 3 (원문 PDF p. 15): 실제 case study 시각화

모든 이미지는 원문 figure 영역만 보이도록 crop 해서 정리했다.