본문 바로가기
AI 생성 글 정리/agent

STELLA 논문 정리: 생의학 연구를 위한 자기진화형 LLM 에이전트

by Honbul 2026. 3. 31.

논문: STELLA: Self-Evolving LLM Agent for Biomedical Research
저자: Ruofan Jin, Zaixi Zhang, Mengdi Wang, Le Cong
소속: Princeton University, Stanford University
공개: arXiv:2507.02004v1 (2025-07-01)
문서 메모: 아래 Figure 1, 2는 원문 PDF의 도해 영역만 보이도록 crop해서 넣었습니다.

한 줄 요약

STELLA는 기존 biomedical AI agent의 가장 큰 약점인 고정된 도구 세트(static toolset) 문제를 해결하려는 시도다.
핵심은, 문제를 풀수록 추론 템플릿(Template Library)사용 가능한 도구 집합(Tool Ocean) 을 스스로 확장하면서 더 나은 문제 해결자로 진화한다는 점이다.


왜 이 논문이 중요한가

생의학 연구는 데이터, 데이터베이스, 분석 소프트웨어, 최신 논문이 너무 빠르게 늘어나기 때문에 연구자도 모든 도구를 따라가기 어렵다.
기존 AI agent는 도구를 미리 손으로 세팅해 두는 경우가 많아, 새로운 문제를 만났을 때 새 도구를 스스로 발굴하고 통합하는 능력이 제한된다.

STELLA는 바로 이 지점을 겨냥한다.

  • 단순히 “도구를 잘 쓰는 에이전트”가 아니라
  • 필요하면 새 도구를 만들고
  • 그 과정에서 성공한 사고 흐름을 다음 문제에 재사용하며
  • 시간이 갈수록 더 강해지는 구조를 제안한다.

이 논문의 핵심 주장 3가지

1) STELLA는 4개 에이전트가 역할을 나눠 협업하는 구조다

STELLA는 다음 4개 에이전트로 구성된다.

  • Manager Agent: 문제를 쪼개고 전체 추론 경로를 설계
  • Dev Agent: 파이썬 코드 작성, 환경 구축, 분석 실행
  • Critic Agent: 중간 결과를 검토하고 부족한 점을 지적
  • Tool Creation Agent: 기존 도구로 부족하면 새 도구를 찾거나 만들어 Tool Ocean에 추가

즉, “계획 → 실행 → 비판 → 능력 확장”의 루프를 만든다.

2) 자기진화의 핵심은 Template Library와 Tool Ocean이다

논문에서 말하는 self-evolving은 크게 두 축이다.

  • Template Library: 잘 풀린 문제의 사고 흐름을 추론 템플릿으로 저장
  • Tool Ocean: 데이터베이스, foundation model, 사용자 정의 분석 도구를 계속 확장

쉽게 말하면,

  • Template Library는 문제 푸는 방식의 기억
  • Tool Ocean은 실제로 쓸 수 있는 능력의 기억

에 가깝다.

3) STELLA의 목표는 “설명”을 넘어서 “새 분석 수단 확보”까지 가는 것이다

Figure 1의 예시는 항암제 내성 기전을 찾는 문제다.
초기 분석만으로는 “무엇이 달라졌는지”는 설명할 수 있어도, 왜 내성 상태가 유지되는지를 충분히 설명하지 못한다.
이때 Critic Agent가 “핵심 조절 인자(keystone gene)를 더 찾아야 한다”고 지적하고, Tool Creation Agent가 새 분석 도구를 준비해 문제 해결 수준을 끌어올린다.

이 포인트가 중요하다.
STELLA의 차별점은 단순한 답변 생성이 아니라, 문제 해결에 필요한 계산 능력 자체를 보강하려는 구조라는 점이다.


Figure 1. STELLA 전체 구조

 

Figure 1 해설

A. 메인 파이프라인

왼쪽의 Reasoning Template 에는 문제 유형별 사고 틀이 들어 있다.
Manager Agent는 이를 참고해 현재 문제에 맞는 경로를 설계한다.

그 다음 흐름은 다음과 같다.

  1. Manager Agent가 분석 단계를 설계한다.
  2. Dev Agent가 conda 환경을 만들고 코드를 실행한다.
  3. Critic Agent가 중간 결과를 보고 “지금 분석으로 충분한가?”를 점검한다.
  4. 부족하면 Tool Creation Agent가 PubMed/GitHub 등을 뒤져 새 도구를 만들거나 통합한다.
  5. 최종 결과를 내고, 성공한 방식은 다시 STELLA 내부 자산으로 축적된다.

B. Template Library의 진화

처음에는 단순한 predefined template만 있지만, 성공 경험이 쌓이면서

  • Literature Survey
  • Failure Diagnosis
  • Confounder Check
  • Assumption Audit
  • Causal Chain
  • Comparative Insight

같은 더 정교한 템플릿으로 확장된다.

즉, “다음엔 어떻게 생각할 것인가” 가 점점 똑똑해진다.

C. Tool Ocean의 진화

처음에는 GitHub Search, PubMed Search 같은 기본 도구만 있지만, 이후에는

  • PubMed, ClinVar, PDB 같은 데이터베이스 접근
  • AlphaFold 3, scGPT, ESM3 같은 foundation model 활용
  • 네트워크 분석, 통합 분석, literature workflow 같은 맞춤형 분석

까지 가능한 방향으로 확장된다.

핵심 메시지:
STELLA는 정해진 도구를 돌리는 에이전트가 아니라, 필요한 도구를 계속 확보하면서 커지는 에이전트다.


STELLA가 실제로 제시한 성능

논문은 3개의 biomedical benchmark에서 STELLA를 비교한다.

벤치마크 STELLA 읽을 때의 포인트
Humanity's Last Exam: Biomedicine 26% 일반 LLM 대비 가장 높은 성능
LAB-Bench: DBQA 54% 데이터베이스 기반 생물학 QA에서 우세
LAB-Bench: LitQA 63% 문헌 기반 QA에서 가장 강한 결과

Figure 2를 보면, STELLA는 HLE, DBQA, LitQA 모두에서 상단에 위치한다.


Figure 2. 성능 비교와 self-evolving 효과

 

Figure 2 해설

A. 벤치마크 비교

상단 막대그래프는 STELLA가 다음 계열과 비교된다는 점을 보여준다.

  • 범용 LLM: Gemini 2.5 Pro, Claude 4 Opus, DeepSeek-R1, OpenAI o3
  • biomedical agent: Biomni

여기서 STELLA는 세 벤치마크 모두에서 최고 성능을 기록했다고 주장한다.

B. 계산 예산이 늘수록 성능이 오른다

하단 선그래프는 self-evolving 효과를 trial 수(computation budget) 와 연결해 보여준다.

  • HLE: Biomedicine: 약 14 → 26
  • DBQA: 약 47 → 54
  • LitQA: 약 52 → 63

즉, 반복 시도와 자기수정이 많아질수록 성능이 꾸준히 올라간다.


이 논문에서 가장 인상적인 포인트

1) “도구 사용”에서 “도구 생성/통합”으로 한 단계 올라간다

많은 agent 논문이 tool use를 강조하지만, STELLA는 tool creation / integration 자체를 구조에 포함했다.
이 점이 가장 큰 차별점이다.

2) 생의학 연구의 현실적 문제를 정확히 겨냥했다

생의학은 최신 DB, 분석 툴, 모델이 계속 바뀐다.
그래서 고정형 에이전트보다 적응형 에이전트가 훨씬 더 현실적인 방향이다.

3) “추론 자산”과 “도구 자산”을 분리해서 본다

많은 시스템이 메모리를 한 덩어리로 보지만, STELLA는

  • 사고법의 축적
  • 실행 능력의 축적

을 분리해 다룬다.
이 구분은 이후 agent 설계에서도 꽤 중요한 아이디어가 될 수 있다.


논문을 읽을 때 꼭 짚어야 할 해석 포인트

포인트 1. STELLA는 단일 모델이 아니라 멀티모델 조합이다

Methods를 보면,

  • Dev Agent / Tool Creation Agent 에는 Claude 4 Sonnet
  • Manager Agent / Critic Agent 에는 Gemini 2.5 Pro

를 사용한다.

즉, STELLA의 성능은 “한 개의 초거대 모델”보다 역할 분담 + 모델 조합 + 시스템 설계의 결과로 봐야 한다.

포인트 2. 평가 셋은 일부 샘플링된 구성이다

논문은 비용 효율을 위해

  • LAB-Bench는 전체의 12.5% 샘플 subset
  • HLE는 50개 대표 문제

를 사용했다고 설명한다.

결과는 분명 인상적이지만, 이를 곧바로 전체 벤치마크에 대한 절대적 우위로 일반화하는 데는 주의가 필요하다.

포인트 3. self-evolving의 실험 증거는 주로 test-time budget 증가로 제시된다

Figure 2B의 self-evolving 효과는 trial budget 증가와 함께 나타난다.
따라서 이 논문이 보여주는 “자기진화”는 장기 배포 환경에서의 완전한 lifelong learning이라기보다,
반복적 시도와 자기비판, 템플릿/도구 확장에 의해 성능이 올라가는 구조를 실험적으로 보여주는 데 가깝다.

포인트 4. 본문 수치에는 작은 불일치가 있다

논문 초록은 “leading models 대비 최대 6 percentage points 향상”이라고 적지만,
결과 설명 부분에는 “최대 8 percentage points”라고 적혀 있다.
반면 Figure 2의 막대그래프를 눈으로 읽으면 최대 격차는 대체로 약 6pp 수준으로 보인다.

블로그에 정리할 때는 이 부분을 논문 내 표기 불일치로 한 번 짚어 주면 좋다.


강점

  • 문제 정의가 명확하다: static toolset의 한계를 정확히 겨냥
  • 시스템 아이디어가 설득력 있다: Template Library + Tool Ocean의 이중 진화
  • 멀티에이전트 역할 분리가 선명하다
  • benchmark 결과가 일관되게 좋다
  • 단순 QA를 넘어 실제 연구 워크플로 자동화를 지향한다

한계와 아쉬운 점

1) 아직은 benchmark 중심 검증이다

논문도 스스로 인정하듯, 실제 wet-lab 또는 실전 연구 환경에 바로 연결된 검증은 아직 부족하다.

2) Figure 1의 생물학 사례는 “구조를 보여주는 예시” 성격이 강하다

항암제 내성과 MTF1 사례는 흥미롭지만, 이 논문의 주된 기여는 새로운 생물학 발견 자체보다
그 발견을 가능하게 할 에이전트 구조 제안에 있다.

3) 계산 예산 증가의 도움을 많이 받는다

성능이 좋아진다는 점은 장점이지만, 반대로 말하면 비용-성능 trade-off를 함께 봐야 한다는 뜻이기도 하다.

4) preprint 단계다

이 문서는 arXiv preprint이므로, 이후 버전에서 설정이나 수치가 바뀔 가능성은 열어두는 것이 좋다.


핵심 문장

  • STELLA의 핵심은 “도구를 잘 쓰는 것”이 아니라 필요하면 새 도구를 만들고 통합하는 것이다.
  • 이 논문은 biomedical AI agent의 병목을 지식 부족이 아니라 적응 부족으로 본다.
  • Template Library는 사고법의 축적, Tool Ocean은 실행 능력의 축적이라는 점에서 분리된 메모리처럼 작동한다.
  • STELLA는 단일 모델 성능보다 에이전트 설계와 역할 분담의 힘을 보여주는 논문이다.
  • 다만 성능 검증은 아직 benchmark 중심이며, 실제 연구실 수준의 폐쇄 루프 검증은 앞으로의 과제다.

결론

이 논문을 한 문장으로 요약하면 다음과 같다.

STELLA는 “정적인 biomedical agent”를 “문제를 풀수록 더 강해지는 연구 파트너”로 바꾸려는 설계 제안이다.

가장 큰 메시지는 성능 수치 자체보다도,
미리 정한 툴셋에 갇힌 agent에서 벗어나, 추론 방식과 도구 자체를 함께 진화시키는 구조를 제안했다는 데 있다.

생의학 연구처럼 도구와 지식이 빠르게 바뀌는 분야에서는, 이런 자기진화형 설계가 앞으로 점점 더 중요해질 가능성이 크다.


참고

  • Jin R., Zhang Z., Wang M., Cong L.
    STELLA: Self-Evolving LLM Agent for Biomedical Research.
    arXiv:2507.02004v1, 2025.
  • Figure 1, Figure 2는 원문 PDF의 페이지 3, 4에서 도해 영역만 crop하여 삽입했다.