Can AI Conduct Autonomous Scientific Research? 정리

Case Studies on Two Real-World Tasks

저자: Shreyansh Agrawal 외
형식: bioRxiv preprint (2026-01-06 게시, peer review 전)
한 줄 결론: 현재 공개된 “AI scientist” 계열 프레임워크는 아이디어 정리와 연구 계획 수립에는 도움이 되지만, 실제 계산·실험·검증을 포함한 완전한 연구 사이클을 자율적으로 수행하지는 못했다.

블로그용 한 문장

지금의 AI 연구 에이전트는 ‘자율 과학자’라기보다, 강한 인간 검증이 필요한 연구 보조자에 가깝다.

논문 한눈에 보기

항목	내용
연구 질문	현재 AI 프레임워크가 실제 과학 연구를 자율적으로 수행할 수 있는가?
평가 대상	Agent Laboratory, AutoGen, BabyAGI, GPT Researcher, MOOSE-Chem2, SciAgents, SciMON, Virtual Lab
평가 과제 1	단백질-리간드 결합 친화도 예측에서 OOD shift를 다루는 불확실성 정량화 재현
평가 과제 2	AlphaFold 기반 ORP–PIP 단백질 상호작용 발견 재현
핵심 결론	8개 프레임워크 모두 완전한 연구 사이클 수행 실패
긍정적 가치	문헌 정리, 가설 생성, 연구 계획 수립, 방법론적 브레인스토밍
가장 큰 위험	계산되지 않은 결과를 계산된 것처럼 보이게 만드는 정교한 환각

근거 페이지: Abstract(p.1), Results(p.3-7), Discussion(p.7-10).

1. 이 논문이 던지는 질문

이 논문은 단순히 “LLM이 글을 잘 쓰는가?”를 묻지 않습니다. 저자들이 던지는 핵심 질문은 다음입니다.

“현재의 AI 프레임워크가, 사람이 하는 연구 프로젝트 전체를 실제로 자율 수행할 수 있는가?”

여기서 저자들은 “완전한 연구 사이클”을 꽤 엄격하게 정의합니다.

기존 문헌을 충분히 이해하고
가설과 실험 계획을 세우고
필요한 계산 방법을 코드로 구현하고
실제로 실행해 결과를 얻고
그 결과를 검증·해석하고
과학적 글쓰기로 정리하는 것

즉, 요약·기획·초안 작성만 잘한다고 “자율 과학자”로 보지 않습니다.
핵심은 계획에서 실행으로 넘어가는 구간입니다.

근거 페이지: Introduction(p.1-3).

2. 왜 이 논문이 중요한가

이 논문이 중요한 이유는 크게 세 가지입니다.

독립 평가라는 점
많은 “AI scientist” 주장은 데모, 홍보 자료, 혹은 개발자 측 사례 중심입니다. 이 논문은 외부 관점에서 그 주장을 검증하려고 합니다.
최신 논문 2편을 사용했다는 점
평가 대상 과제는 비교적 최근에 나온 논문을 기반으로 잡아, 단순 암기나 훈련 데이터 회상보다 실전형 재현 능력을 보려 했습니다.
토이 문제 대신 실제 연구 워크플로를 겨냥했다는 점
작은 코딩 문제나 벤치마크가 아니라, 실제 과학자가 겪는 문헌 이해 → 코드 → 실행 → 결과 검증 흐름 전체를 테스트했습니다.

이 때문에 이 논문은 “모델 성능 비교표”보다, AI 연구 에이전트가 실전에서 어디서 무너지는지를 보여주는 사례 연구에 가깝습니다.

근거 페이지: Introduction(p.1-3), Methods(p.9-10).

3. 연구 설계: 무엇을 어떻게 평가했나

저자들은 다음 8개 오픈소스 프레임워크를 평가했습니다.

Agent Laboratory
AutoGen
BabyAGI
GPT Researcher
MOOSE-Chem2
SciAgents
SciMON
Virtual Lab

평가 과제 1: 불확실성 정량화 재현

첫 번째 과제는 단백질-리간드 결합 친화도 예측에서 OOD(Out-of-Distribution) shift 상황을 다루는 불확실성 정량화 연구를 재현하는 것입니다.
여기에는 mixture-of-experts, conformal prediction, CWC/PICP/AUSE 같은 지표 계산이 필요했습니다.

평가 과제 2: ORP–PIP 상호작용 발견 재현

두 번째 과제는 AlphaFold 구조 예측과 biological filtering을 사용해 ORP–PIP 단백질 상호작용을 찾는 연구를 재현하는 것입니다.
여기서는 단순 텍스트 이해가 아니라, 전문 소프트웨어 접근성·구조생물학적 제약 이해·생물학적 필터링이 중요했습니다.

또한 논문은 인간 운영자를 “전문적이지만 비적대적인 사용자”로 두고, 환경 설정 오류나 패키지 문제는 고칠 수 있게 했지만, 알고리즘 내용을 대신 고쳐주거나 결과가 나오도록 연구적 개입을 하지는 않도록 설계했습니다.

근거 페이지: Methods(p.9-10).

4. 핵심 결과 1: 주장과 실제 성능 사이의 간극

아래 그림은 이 논문의 핵심 메시지를 가장 직관적으로 보여줍니다.

원문 Figure 1 crop (p.3). “Autonomous scientific research”, “End-to-end automation” 같은 주장과, 실제로는 “Conceptual planning only”, “No numerical reproduction”, “Expert debugging needed”에 머문 성능을 대비해 보여줍니다.

이 그림이 말하는 바는 단순합니다.

광고되는 능력은 “자율 연구”
실제로 확인된 능력은 “계획·정리·텍스트 생성” 중심

저자들의 결론은 매우 분명합니다.
평가한 어떤 프레임워크도 완전한 연구 사이클을 끝내지 못했습니다.
논문을 이해하고 연구 계획을 만드는 단계까지는 어느 정도 가능했지만, 실행 가능한 코드, 실제 계산 결과, 검증된 수치로 이어지지 못했습니다.

특히 저자들은 “코드 실행”조차 성공적으로 해낸 프레임워크가 없었고, Agent Laboratory만 간헐적으로 실행을 시도했지만 결국 제대로 된 계산 결과를 만들지 못했다고 봅니다.

근거 페이지: Results(p.3-4), Abstract(p.1).

5. 핵심 결과 2: 가장 위험한 실패는 ‘정교한 환각’

이 논문에서 가장 인상적인 부분은, 단순 오류보다 그럴듯한 거짓 결과가 더 큰 문제라는 점입니다.

저자들은 모든 프레임워크에서 과학적 방법·데이터·결과에 대한 환각을 관찰했다고 보고합니다.
더 중요한 것은 이 환각이 너무 그럴듯해서, 계산되지 않은 결과임에도 마치 실제 실험·시뮬레이션·통계 검증을 거친 것처럼 보일 수 있다는 점입니다.

대표적인 예시는 다음과 같습니다.

Agent Laboratory: >99% predictive accuracy, FRET 신호, ORP–PIP 상호작용 쌍, MATLAB 시뮬레이션 세부사항까지 만들어냄
GPT Researcher: CWC, AUSE, coverage 같은 수치를 실제 계산 없이 제시
AutoGen: 여러 에이전트가 서로가 계산했을 것이라고 가정하면서 합의된 거짓 결과를 생성
BabyAGI / SciMON: 수치 억제를 걸어도 성능 향상이나 구조적 검증이 있었던 것처럼 암시

즉, 문제는 “조금 틀린 답”이 아니라, 과학적으로 설득력 있어 보이는 허구입니다.

원문 Table 1 crop (p.4). 프레임워크별 환각 유형과 예시, 그리고 이를 줄이기 위해 사용한 완화 전략을 정리한 표입니다.

이 표를 보면 흥미로운 점이 하나 더 있습니다.
저자들이 프롬프트 제약이나 안전장치를 넣어도, 환각은 완전히 사라지지 않았습니다. 즉, 문장 수준의 제어만으로는 근본 해결이 어렵다는 뜻입니다.

근거 페이지: Results(p.4-5), Table 1(p.4), Discussion(p.8).

6. 핵심 결과 3: “자율성”보다 먼저 무너진 것은 배포와 실행

이 논문은 프레임워크의 사고력만 본 것이 아니라, 실제로 돌릴 수 있는가도 봤습니다.
그 결과는 꽤 냉정합니다.

문서에 없는 의존성 문제
누락된 API 키
환경 설정 오류
HPC/GPU 충돌
무한 대화 루프
외부 도구 연동 실패

이런 문제가 거의 모든 프레임워크에서 발생했습니다.
논문 본문과 보충자료를 종합하면, 실제 셋업과 디버깅은 수십 분에서 수시간, HPC 환경에서는 7–8시간 수준까지 필요했습니다.

즉, “비전문가도 쉽게 과학을 자동화할 수 있다”는 식의 서사는 이 논문 결과와 잘 맞지 않습니다.
저자들의 관점에서는, 과학 민주화를 말하기 전에 먼저 엔지니어링 마찰비용이 너무 큽니다.

근거 페이지: Results(p.5), Discussion(p.8), Supplementary Table S2(p.12-13).

7. Case Study 1: 불확실성 정량화(UQ) 과제에서 무엇이 드러났나

첫 번째 과제는 상당히 기술적입니다.
단순히 모델 하나를 학습시키는 수준이 아니라, 다음이 모두 필요했습니다.

mixture-of-experts 구조 이해
conformal calibration 구현
OOD shift 처리
CWC, PICP, AUSE 계산
데이터셋과 split 조건 관리

여기서 드러난 핵심은 다음입니다.

잘한 점

대부분 프레임워크가 개념 설명은 잘함
train/calibrate/test 파이프라인이나 expert routing 아이디어를 어느 정도 포착
불확실성 추정 방법론에 대해 비교적 그럴듯한 설계안을 제시

못한 점

실제 수치 재현 실패
CWC, coverage, AUSE 같은 핵심 지표를 계산하지 못함
데이터 접근이나 코드 실행이 막히면, 그 빈자리를 설명형 텍스트나 가짜 수치가 채움

특히 이 케이스는 “AI가 개념은 안다”와 “AI가 연구를 수행한다” 사이에 큰 차이가 있음을 보여줍니다.
용어는 알고, 설계도 말할 수 있지만, 재현 가능한 계산 파이프라인을 끝까지 완성하지는 못했다는 것입니다.

근거 페이지: Results(p.5-6), Table 2(p.6).

8. Case Study 2: ORP–PIP 상호작용 발견 과제에서 무엇이 드러났나

두 번째 과제는 더 까다롭습니다.
여기서는 구조생물학 도구와 생물학적 맥락 이해가 필요했습니다.

핵심 요구사항은 대략 이렇습니다.

AlphaFold-Multimer 같은 구조 예측 도구 사용
PDB/구조 데이터 및 관련 실행 환경 접근
단순 후보 나열이 아니라 생물학적으로 말이 되는 필터링 수행
특히 co-localization filter 같은 단계로 실제로 만날 수 없는 단백질 쌍 제거

여기서 프레임워크들의 실패는 더 선명하게 보입니다.

대표적 실패 패턴

전문 소프트웨어에 접근하지 못함
단백질 상호작용을 계산 없이 자신 있게 주장함
구조 예측 문제를 문헌 텍스트 마이닝 문제로 오해함
AlphaFold 접근 자체는 맞췄지만, 생물학적 필터를 놓쳐 false positive를 양산할 수 있는 설계안을 냄

즉, 이 케이스는 AI 프레임워크가 도구를 몰라서 실패한 것만이 아니라,
도메인 제약을 충분히 이해하지 못해서 실패했다는 점을 보여줍니다.

근거 페이지: Results(p.5-7), Table 2(p.6).

9. 어떤 프레임워크가 어디까지 해냈는가

아래 표는 두 개의 case study에서 각 프레임워크가 어디까지 도달했는지를 정리한 핵심 비교표입니다.

원문 Table 2 crop (p.6). 각 프레임워크의 장점(⊕)과 실패 지점(⊖)을 두 사례 연구 기준으로 비교한 표입니다.

이 표에서 특히 눈여겨볼 부분은 다음입니다.

GPT Researcher / BabyAGI / AutoGen
개념 설명과 구조화는 잘했지만, 실행과 재현에는 실패
Agent Laboratory
논문 형식 산출물까지 만들지만, 실제 측정치와 결과를 환각하는 문제가 큼
SciAgents
기반 LLM에 따라 결과가 크게 달라졌고, 어떤 경우는 과제 자체를 잘못 이해
Virtual Lab
제안은 복잡하고 야심차지만, 실제 실행과 의존성 관리에서 막힘
SciMON / MOOSE-Chem2
오히려 “우리는 아이디어 생성 도구”라고 범위를 좁혔기 때문에, 과장 없이 보면 상대적으로 정직하게 작동

이 마지막 포인트가 중요합니다.
논문은 모든 시스템을 동일하게 비판하지 않습니다.
범위를 좁혀 약속한 시스템은 약속한 만큼은 해냈다고 봅니다.

근거 페이지: Results(p.4-7), Table 2(p.6).

10. 이 논문의 가장 중요한 메시지 5가지

1) 지금의 AI 연구 에이전트는 “실행자”가 아니라 “기획자”에 가깝다

문헌 정리, 아이디어 확장, 실험 계획, 방법론 브레인스토밍에는 쓸모가 있습니다.
하지만 계산 결과를 책임 있게 산출하는 단계에는 아직 약합니다.

2) 계획에서 실행으로 넘어가는 순간 성능이 급격히 무너진다

“어떻게 해야 하는지 설명하는 것”과 “정말 그걸 해내는 것”은 전혀 다른 문제입니다.

3) 가장 위험한 실패는 ‘그럴듯한 가짜 수치’다

이 논문은 환각이 단순한 잡음이 아니라, 과학적 담론을 오염시킬 수 있는 수준의 허구가 될 수 있음을 보여줍니다.

4) 멀티에이전트 구조가 환각을 줄여주지 않는다

오히려 에이전트끼리 서로의 출력을 사실로 받아들이면서 순환적 환각을 강화할 수 있습니다.

5) 현재 가장 현실적인 포지션은 “검증 가능한 연구 보조도구”다

저자들의 결론은 부정 일변도가 아닙니다.
제대로 범위를 정하고, 인간이 검증하는 조건이라면 AI는 문헌 합성·가설 생성·연구 설계 보조에 충분히 유용할 수 있다고 봅니다.

근거 페이지: Results(p.3-7), Discussion(p.7-10).

11. 강조 포인트

블로그용으로 정리할 때는 아래 포인트를 중심축으로 잡으면 좋습니다.

“AI scientist”라는 말이 왜 과장일 수 있는가
왜 ‘잘 설명한다’와 ‘잘 수행한다’는 다른가
왜 환각이 특히 과학 분야에서 위험한가
왜 도구 연결성과 실행 환경이 숨은 병목인가
왜 일부 프레임워크는 오히려 ‘범위를 좁혔기 때문에’ 더 정직해 보이는가
현재 AI의 최적 사용처는 대체가 아니라 보조라는 점

12. 균형 있게 봐야 할 한계

이 논문이 강한 메시지를 주는 것은 사실이지만, 그대로 일반화하면 안 됩니다.

두 개의 사례 연구만 사용
다른 분야나 다른 태스크에서는 결과가 달라질 수 있습니다.
오픈소스 프레임워크 중심 평가
폐쇄형 시스템이나 최신 상용 시스템은 포함되지 않았습니다.
매우 빠르게 변하는 분야
몇 달 뒤 버전 업데이트로 일부 결과가 바뀔 수 있습니다.
재현 과제 중심
완전히 새로운 발견이나 wet-lab 자동화 같은 영역은 직접 평가하지 않았습니다.
preprint 단계
아직 peer review를 거치지 않았다는 점도 감안해야 합니다.

따라서 이 논문은 “AI 연구 에이전트는 영원히 불가능하다”는 선언이라기보다,
현재 시점의 과장된 기대를 현실적으로 조정하는 탐색적 평가로 보는 편이 정확합니다.

근거 페이지: Discussion(p.7-10), Methods(p.10), Abstract(p.1).

13. 마무리 문단

이 논문이 보여주는 핵심은 분명하다. 지금의 AI 연구 에이전트는 논문을 읽고, 계획을 세우고, 그럴듯한 설명을 만들어내는 데는 꽤 강하다. 하지만 실제 계산과 검증이 필요한 순간에는 여전히 인간의 깊은 개입이 필요하다. 더 큰 문제는, 결과를 못 내는 것보다 결과를 낸 것처럼 보이게 만드는 능력이 이미 충분히 강하다는 점이다. 그래서 현 시점에서 AI를 “자율 과학자”로 부르기보다는, 검증 가능한 연구 보조자로 다루는 편이 더 정확하고 더 안전하다.

14. 참고 문헌

Agrawal, S. et al. Can AI Conduct Autonomous Scientific Research? Case Studies on Two Real-World Tasks. bioRxiv preprint, posted January 6, 2026. DOI: 10.64898/2026.01.05.697809.

이미지 출처

Figure 1: 원문 p.3 crop
Table 1: 원문 p.4 crop
Table 2: 원문 p.6 crop

원문은 CC BY 4.0 라이선스로 배포된 preprint입니다.

'AI 생성 글 정리 > agent' 카테고리의 다른 글

Capabilities of Gemini Models in Medicine 논문 정리 (0)	2026.04.01
VOYAGER 논문 핵심 정리 (0)	2026.04.01
ThinkTank 논문 정리: 도메인 특화 AI Agent를 범용 협업 지능 플랫폼으로 일반화하기 (0)	2026.04.01
논문 정리: *Understanding generative AI output with embedding models (0)	2026.04.01
논문 정리: A Large-Scale Study on the Development and Issues of Multi-Agent AI Systems (0)	2026.03.31

Honbul과 컴퓨터

Can AI Conduct Autonomous Scientific Research? 정리

Case Studies on Two Real-World Tasks

논문 한눈에 보기

1. 이 논문이 던지는 질문

2. 왜 이 논문이 중요한가

3. 연구 설계: 무엇을 어떻게 평가했나

평가 과제 1: 불확실성 정량화 재현

평가 과제 2: ORP–PIP 상호작용 발견 재현

4. 핵심 결과 1: 주장과 실제 성능 사이의 간극

5. 핵심 결과 2: 가장 위험한 실패는 ‘정교한 환각’

6. 핵심 결과 3: “자율성”보다 먼저 무너진 것은 배포와 실행

7. Case Study 1: 불확실성 정량화(UQ) 과제에서 무엇이 드러났나

잘한 점

못한 점

8. Case Study 2: ORP–PIP 상호작용 발견 과제에서 무엇이 드러났나

대표적 실패 패턴

9. 어떤 프레임워크가 어디까지 해냈는가

10. 이 논문의 가장 중요한 메시지 5가지

1) 지금의 AI 연구 에이전트는 “실행자”가 아니라 “기획자”에 가깝다

2) 계획에서 실행으로 넘어가는 순간 성능이 급격히 무너진다

3) 가장 위험한 실패는 ‘그럴듯한 가짜 수치’다

4) 멀티에이전트 구조가 환각을 줄여주지 않는다

5) 현재 가장 현실적인 포지션은 “검증 가능한 연구 보조도구”다

11. 강조 포인트

12. 균형 있게 봐야 할 한계

13. 마무리 문단

14. 참고 문헌

이미지 출처

'AI 생성 글 정리 > agent' 카테고리의 다른 글

티스토리툴바

Can AI Conduct Autonomous Scientific Research? 정리

Case Studies on Two Real-World Tasks

논문 한눈에 보기

1. 이 논문이 던지는 질문

2. 왜 이 논문이 중요한가

3. 연구 설계: 무엇을 어떻게 평가했나

평가 과제 1: 불확실성 정량화 재현

평가 과제 2: ORP–PIP 상호작용 발견 재현

4. 핵심 결과 1: 주장과 실제 성능 사이의 간극

5. 핵심 결과 2: 가장 위험한 실패는 ‘정교한 환각’

6. 핵심 결과 3: “자율성”보다 먼저 무너진 것은 배포와 실행

7. Case Study 1: 불확실성 정량화(UQ) 과제에서 무엇이 드러났나

잘한 점

못한 점

8. Case Study 2: ORP–PIP 상호작용 발견 과제에서 무엇이 드러났나

대표적 실패 패턴

9. 어떤 프레임워크가 어디까지 해냈는가

10. 이 논문의 가장 중요한 메시지 5가지

1) 지금의 AI 연구 에이전트는 “실행자”가 아니라 “기획자”에 가깝다

2) 계획에서 실행으로 넘어가는 순간 성능이 급격히 무너진다

3) 가장 위험한 실패는 ‘그럴듯한 가짜 수치’다

4) 멀티에이전트 구조가 환각을 줄여주지 않는다

5) 현재 가장 현실적인 포지션은 “검증 가능한 연구 보조도구”다

11. 강조 포인트

12. 균형 있게 봐야 할 한계

13. 마무리 문단

14. 참고 문헌

이미지 출처

'AI 생성 글 정리 > agent' 카테고리의 다른 글

관련글

티스토리툴바