본문 바로가기
AI 생성 글 정리/agent

[Accelerating scientific discovery with Co-Scientist] 논문 정리

by Honbul 2026. 5. 29.

핵심 요약

이 논문은 Co-Scientist라는 과학 연구용 AI 시스템을 소개한다.

핵심은 단순한 논문 요약 도구가 아니다.

연구자가 자연어로 목표를 주면, Co-Scientist는 다음 일을 반복한다.

  • 관련 문헌을 찾는다.
  • 가능한 가설을 만든다.
  • 스스로 비판한다.
  • 여러 가설을 비교한다.
  • 더 나은 가설로 개선한다.
  • 실험 가능한 연구 제안으로 정리한다.

논문은 이 시스템을 세 가지 생의학 문제에 적용했다.

  • 급성 골수성 백혈병 치료제 재창출
  • 간섬유화 신규 치료 표적 탐색
  • 항생제 내성 관련 유전자 전달 메커니즘 설명

결론은 명확하다.

AI가 과학자를 대체한다는 주장보다, 과학자의 가설 탐색 속도를 높이는 협업 엔진에 가깝다.


문제의식: 과학자는 더 깊게, 동시에 더 넓게 봐야 한다

현대 과학의 병목은 정보 부족이 아니다.

오히려 반대다.

논문은 너무 많다. 분야는 너무 세분화됐다. 한 연구자가 모든 근거를 따라가며, 동시에 다른 분야의 연결까지 발견하기는 어렵다.

Co-Scientist는 이 지점에 맞춰 설계됐다.

목표는 다음과 같다.

  • 기존 지식을 요약하는 데서 멈추지 않는다.
  • 아직 검증되지 않은 가설을 제안한다.
  • 그 가설이 왜 타당한지 근거를 붙인다.
  • 실험으로 확인할 수 있는 형태로 바꾼다.
  • 연구자가 계속 개입해 방향을 조정한다.

즉, 논문의 관점에서 Co-Scientist는 과학적 사고 과정을 구조화한 다중 에이전트 시스템이다.


Co-Scientist는 어떻게 작동하는가

Co-Scientist는 하나의 거대한 답변 생성기가 아니다.

여러 역할을 가진 에이전트가 나뉘어 움직인다.

주요 구성은 다음과 같다.

  • Generation agent: 초기 가설과 연구 방향을 만든다.
  • Reflection agent: 가설의 타당성, 새로움, 실험 가능성을 검토한다.
  • Ranking agent: 후보 가설을 토너먼트 방식으로 비교한다.
  • Evolution agent: 상위 가설을 더 정교하게 개선한다.
  • Proximity agent: 비슷한 가설을 묶고 중복을 줄인다.
  • Meta-review agent: 반복적으로 드러난 약점과 개선점을 요약한다.
  • Supervisor agent: 전체 흐름과 자원 배분을 조정한다.

중요한 점은 반복이다.

Co-Scientist는 한 번 답하고 끝내지 않는다. 후보를 만들고, 비판하고, 비교하고, 다시 개선한다. 이 과정에서 연구자는 목표, 제약, 선호, 피드백을 자연어로 넣을 수 있다.

시각적 가이드: 가운데의 에이전트 순환 구조를 보면, Co-Scientist가 단순 생성기가 아니라 생성-검토-순위화-진화를 반복하는 연구 보조 시스템이라는 점이 드러난다.


핵심 원리: 더 오래 생각하게 만들면 가설 품질이 올라가는가

논문의 중요한 실험은 실행 중 계산 자원 확장이다.

쉽게 말하면 이렇다.

모델을 새로 훈련하지 않고, 문제를 푸는 동안 더 많은 생성, 검토, 비교, 개선을 수행하게 한다.

그러면 더 좋은 가설이 나오는지 본다.

 

이를 평가하기 위해 논문은 체스 랭킹과 비슷한 상대평가 점수를 사용했다.

여러 가설을 서로 붙여 비교하고, 더 설득력 있는 후보가 높은 점수를 받는 방식이다.

결과는 일관됐다.

  • 203개 과학 연구 목표에서 시간이 지날수록 상위 가설 점수가 상승했다.
  • 15개 전문가 선별 생의학 문제에서도 후반부 가설이 더 강해졌다.
  • 일부 비교에서는 인간 전문가의 초기 “최선 추정”과 다른 최신 추론 모델을 넘어서는 결과를 보였다.
  • 11개 문제에 대한 블라인드 전문가 평가에서도 Co-Scientist는 새로움과 영향도에서 높은 선호를 받았다.

다만 이 평가는 조심해서 읽어야 한다.

상대평가 점수는 유용한 내부 기준이지만, 그 자체가 객관적 진실은 아니다.

과학적 가설의 최종 판정은 여전히 독립적 검증과 실험에 달려 있다.

시각적 가이드: 위쪽 추세선과 중간 비교 그래프에 주목하면, 반복 시간이 늘수록 상위 가설의 상대평가 점수가 올라가는 흐름을 볼 수 있다.


실험 검증 1: 급성 골수성 백혈병 치료제 재창출

논문에서 가장 구체적으로 검증한 사례는 급성 골수성 백혈병(AML)이다.

연구진은 Co-Scientist가 기존 승인 약물 중 AML에 새롭게 쓸 수 있는 후보를 찾을 수 있는지 평가했다.

초기 탐색 조건은 상당히 넓었다.

  • 승인 약물 약 2,300개
  • 암 종류 34개
  • 전문가 검토
  • AML 세포주 기반 실험 검증

Co-Scientist가 제안한 후보 중 일부는 실제 세포 실험에서 활성을 보였다.

특히 다음 후보가 주목됐다.

  • Binimetinib
  • Pacritinib
  • Cerivastatin
  • KIRA6

여기서 KIRA6는 더 흥미롭다.

Co-Scientist는 기존 전임상 근거가 거의 없는 AML 단일 약물 후보를 제안하도록 요청받았다.

전문가가 상위 후보를 검토한 뒤, KIRA6를 실험했다.

결과적으로 KIRA6는 여러 AML 세포주에서 세포 생존을 억제했다.

특히 KG-1a 세포에서는 비암성 대조군보다 훨씬 낮은 농도에서 강하게 작동했다.

 

이는 임상 효능을 의미하지 않는다.

하지만 AI가 제안한 가설이 실험실에서 생물학적 신호를 냈다는 점에서 중요한 초기 검증이다.

시각적 가이드: KIRA6 패널들에서 AML 세포주와 대조군의 반응 차이를 비교하면, 후보 약물이 특정 AML 맥락에서 더 강하게 작동할 수 있다는 단서를 볼 수 있다.


실험 검증 2: 단일 약물보다 어려운 조합 치료 탐색

약물 조합 탐색은 더 어렵다.

후보 약물이 많아질수록 가능한 조합 수가 급격히 늘어난다.

모든 조합을 실험실에서 직접 검사하는 것은 비싸고 느리다.

 

논문은 이 문제를 Co-Scientist에 맡겼다.

목표는 AML에 대해 상승효과가 기대되는 다중 약물 조합을 찾는 것이었다.

검증 대상은 7개 조합이었다. 연구진은 MOLM-13과 KG-1a라는 두 AML 세포주에서 조합 반응을 봤다.

결과는 세포 맥락에 따라 달랐다.

  • MOLM-13에서는 여러 이중·삼중 조합이 강한 상승효과를 보였다.
  • KG-1a에서는 같은 조합이라도 상승효과와 길항효과가 섞였다.
  • 이는 AML 하위 유형의 유전적·분자적 차이가 조합 반응을 바꿀 수 있음을 시사한다.

핵심은 “모든 제안이 맞았다”가 아니다.

핵심은 Co-Scientist가 거대한 조합 공간에서 실험해볼 만한 후보를 줄여줬다는 점이다. 이 기능은 대규모 wet-lab 스크리닝의 비용을 줄이는 데 의미가 있다.

시각적 가이드: 위쪽 조합지수 그래프와 아래쪽 heatmap의 색 대비를 함께 보면, 같은 약물 조합도 세포주에 따라 상승효과가 다르게 나타난다는 점이 핵심이다.


실험 검증 3: 간섬유화 신규 표적 탐색

두 번째 생의학 검증은 간섬유화였다.

Co-Scientist는 간섬유화에 관여할 수 있는 후성유전학적 표적을 제안했다.

연구진은 상위 후보 3개를 선택해 인간 간 오가노이드 기반 실험으로 검증했다.

결과는 다음과 같다.

  • Co-Scientist는 3개의 신규 후성유전학 표적을 제안했다.
  • 그중 일부 표적을 겨냥한 약물은 간섬유화 관련 신호를 낮췄다.
  • 세포 독성 없이 항섬유화 활성을 보인 후보가 있었다.
  • 특히 Vorinostat는 이미 다른 암 적응증으로 승인된 약물이라 재창출 가능성이 있다.

이 사례의 의미는 분야 간 연결이다.

암 치료제로 알려진 약물이 간섬유화 맥락에서 재해석될 수 있다는 연결을 Co-Scientist가 제안했다.


실험 검증 4: 항생제 내성 관련 유전자 전달 메커니즘

세 번째 검증은 더 개방적인 문제였다.

대상은 cf-PICI라는 이동성 유전 요소다.

이는 박테리아 사이에서 독성 인자나 항생제 내성 관련 유전자가 퍼지는 데 관여할 수 있다.

연구진은 Co-Scientist에게 제한된 배경 정보만 주고 질문했다.

“왜 cf-PICI가 여러 박테리아 종에서 발견되는가?”

 

Co-Scientist는 핵심 가설을 제안했다.

cf-PICI가 다양한 파지 꼬리 구조와 상호작용해 숙주 범위를 넓힌다는 설명이다.

중요한 점은 이 가설이 연구진의 독립적 실험 결과와 맞아떨어졌다는 것이다.

논문은 이를 Co-Scientist가 당시 미공개였던 발견을 독립적으로 재현한 사례로 제시한다.

이 사례는 단순 검색보다 강한 의미를 가진다.

문헌을 조합해 복잡한 생물학적 메커니즘을 추론하는 능력을 보여준다.


무엇이 새롭나

이 논문의 기여는 네 가지로 정리할 수 있다.

1. 과학적 가설 생성을 명시적 목표로 삼았다

많은 AI 연구 도구는 논문 검색, 요약, 질의응답에 초점을 둔다.

Co-Scientist는 더 나아가 새롭고 검증 가능한 가설을 출력하려 한다.

2. 과학적 방법을 에이전트 구조로 분해했다

가설 생성, 비판, 순위화, 개선, 메타 검토를 별도 역할로 나눴다.

이는 과학자가 실제로 논문을 읽고 아이디어를 다듬는 과정을 모방한 설계다.

3. 반복 계산을 품질 향상 전략으로 사용했다

한 번의 답변보다 반복적 사고를 중시한다.

여러 후보를 계속 비교하고 개선하면 더 강한 가설이 나올 수 있다는 점을 실험적으로 보였다.

4. 실제 실험으로 일부 가설을 검증했다

가장 중요한 점이다.

논문은 모델 출력 평가에 머물지 않고, AML 세포 실험, 간 오가노이드 실험, 항생제 내성 메커니즘 검증으로 이어졌다.


한계: 과학 AI가 곧바로 “발견 기계”가 되는 것은 아니다

논문은 한계도 분명히 인정한다.

문헌 접근의 한계

Co-Scientist는 접근 가능한 문헌에 의존한다.

유료 논문, 공개되지 않은 음성 결과, 재현 실패 데이터는 충분히 반영되지 않을 수 있다.

환각과 잘못된 근거의 위험

기반 모델의 사실성 문제는 사라지지 않는다.

문헌 자체가 부정확하거나 재현성이 낮으면, Co-Scientist도 그 오류를 이어받을 수 있다.

검증 규모의 한계

실험 결과는 유망하지만 초기 단계다.

세포주 실험에서 활성이 있었다고 해서 동물실험이나 임상시험 성공을 의미하지는 않는다.

평가 지표의 한계

상대평가 점수와 전문가 선호는 유용하지만, 최종 진실 판정은 아니다.

특히 전문가 평가 규모가 작기 때문에 일반화에는 추가 검증이 필요하다.

코드 공개의 한계

전체 Co-Scientist 소스코드는 공개되지 않았다.

논문은 독점 인프라, 대규모 계산 자원, 안전 문제를 이유로 든다. 이는 독립 재현성 측면에서 중요한 제약이다.

안전과 연구 편향

강력한 AI 연구 시스템은 부적절한 연구 방향을 증폭할 수 있다.

또한 많은 연구자가 비슷한 AI 추천을 따른다면, 연구 주제가 좁아지거나 균질화될 위험도 있다.


실무적으로 어떻게 읽어야 하나

Co-Scientist의 가장 현실적인 쓰임새는 다음과 같다.

  • 복잡한 연구 질문에서 후보 가설을 빠르게 생성한다.
  • 문헌 기반 근거와 약점을 함께 정리한다.
  • 실험 가능한 후보를 우선순위화한다.
  • 약물 재창출처럼 큰 탐색 공간을 줄인다.
  • 인간 전문가의 초기 아이디어를 개선한다.
  • 임상 번역 가능성을 구조적으로 점검한다.

반대로 다음 역할에는 신중해야 한다.

  • 최종 과학적 결론을 대신 내리기
  • 실험 검증 없이 가설을 사실처럼 취급하기
  • 안전 검토 없이 민감한 생물학 연구에 적용하기
  • 특정 모델의 내부 평가 점수를 객관적 진실로 해석하기

가장 적절한 해석은 이렇다.

Co-Scientist는 자동 과학자가 아니라, 가설 탐색과 검증 설계를 가속하는 과학자 중심 협업 시스템이다.


결론

이 논문은 AI 기반 과학 연구 도구가 어디까지 갈 수 있는지 보여주는 중요한 사례다.

Co-Scientist는 단순한 “논문 읽기 AI”가 아니다.

연구 목표를 이해하고, 후보 가설을 만들고, 스스로 검토하고, 비교하고, 개선한다.

일부 결과는 실제 생물학 실험에서도 신호를 보였다.

 

그러나 이 시스템은 검증을 대체하지 않는다.

오히려 검증할 만한 아이디어를 더 빨리 찾게 해준다.

앞으로 핵심은 세 가지다.

  • 더 강한 근거 추적
  • 더 넓은 분야에서의 독립 검증
  • 인간 전문가와의 책임 있는 협업 구조

Co-Scientist의 가치는 “정답 생성”보다 “탐색 공간 축소”에 있다.

과학의 속도를 높이려면, 좋은 가설을 더 많이 만들고 더 빨리 걸러야 한다. 이 논문은 그 방향으로 가는 구체적인 시스템 설계와 초기 실험 증거를 제시한다.


Source

  • Gottweis, J. et al. “Accelerating scientific discovery with Co-Scientist.” Nature, Accelerated Article Preview, 2026.
  • DOI: https://doi.org/10.1038/s41586-026-10644-y
  • Figures: 본문 Figure 1-4를 논문 PDF에서 추출해 figures/ 폴더에 배치.