본문 바로가기
AI 생성 글 정리/bio

[Protein Design with Agent Rosetta: A Case Study for Specialized Scientific Agents] 논문 정리

by Honbul 2026. 4. 27.

핵심 요약

이 논문은 Agent Rosetta를 제안한다.

Agent Rosetta는 대형 언어 모델을 Rosetta 단백질 설계 소프트웨어와 연결한 과학 에이전트다.

핵심 메시지는 단순하다.

LLM에게 전문 소프트웨어를 “그냥 쓰게” 하는 것만으로는 부족하다.
전문 도구의 문법, 실행 오류, 중간 평가 지표를 다루는 환경 설계가 필요하다.

이 환경을 잘 만들면 에이전트는 다음 일을 할 수 있다.

  • 단백질 설계 목표를 읽는다.
  • Rosetta에서 실행 가능한 설계 행동을 고른다.
  • 실행 결과를 보고 다음 행동을 조정한다.
  • 오류가 나면 수정한다.
  • 표준 아미노산뿐 아니라 비표준 아미노산까지 다룬다.

왜 이 논문이 중요한가

단백질 설계는 새로운 효소, 약물, 나노소재를 만드는 핵심 기술이다.

최근 AlphaFold, RFdiffusion, ProteinMPNN 같은 ML 기반 도구가 큰 성과를 냈다.

하지만 한계가 있다.

  • 주로 20개 표준 아미노산에 초점이 맞춰져 있다.
  • 특정 설계 파이프라인에 특화되어 있다.
  • 학습 데이터가 부족한 구조나 비표준 잔기에는 약하다.

반대로 Rosetta는 물리 기반 모델링에 강하다.

  • 비표준 아미노산을 다룰 수 있다.
  • 다양한 분자 설계 작업에 적용할 수 있다.
  • 학습 데이터가 적은 영역에서도 쓸 수 있다.

문제는 Rosetta 사용이 어렵다는 점이다.

RosettaScripts는 강력하지만, 문법이 복잡하다.
생물물리 지식과 코딩 경험도 필요하다.

Agent Rosetta는 이 간극을 줄이려는 시도다.


Agent Rosetta는 어떻게 작동하는가

Agent Rosetta의 기본 흐름은 반복적이다.

  1. 사용자가 설계 목표와 초기 구조를 준다.
  2. 에이전트가 다음 설계 행동을 고른다.
  3. 환경이 해당 행동의 문서와 제약을 제공한다.
  4. 에이전트가 구체적인 실행 파라미터를 만든다.
  5. Rosetta가 실행된다.
  6. 결과 지표와 오류 메시지가 다시 에이전트에게 돌아간다.
  7. 에이전트가 다음 행동을 조정한다.

즉, 한 번에 완성된 스크립트를 쓰는 방식이 아니다.
중간 결과를 보며 설계를 개선하는 방식이다.

Crop 포인트: 성공·실패 피드백 루프와 “행동 선택 → 문서 확인 → 파라미터 생성” 단계가 Agent Rosetta의 핵심 구조다.


Rosetta 설계를 직관적으로 이해하기

Rosetta는 후보 단백질 구조를 만들고 평가한다.

여기서 중요한 개념은 세 가지다.

 

Mover
단백질 구조나 아미노산 배치를 바꾸는 행동이다.
예를 들어 side chain을 바꾸거나 backbone을 조금 움직인다.

 

Filter와 metric
설계가 좋아졌는지 판단하는 평가 기준이다.
구조가 너무 느슨한지, 내부 공간이 비어 있는지, 에너지가 불안정한지 등을 본다.

 

Energy
후보 구조가 물리적으로 그럴듯한지 나타내는 점수다.
낮을수록 안정적인 후보로 해석된다.

논문은 원자 단위의 복잡한 계산을 LLM에게 그대로 보여주지 않는다.

대신 에이전트가 읽을 수 있는 요약 지표로 바꾼다.

  • 전체 Rosetta energy
  • 구조의 조밀함
  • 빈 공간의 크기
  • 묻힌 수소 결합 문제
  • 특정 위치의 충돌 가능성
  • 예측 구조가 목표 구조와 얼마나 가까운지

이 방식이 중요하다.

LLM은 PDB 파일 수백 줄보다 “현재 설계가 어디서 나빠졌는지”를 요약한 상태 정보를 더 잘 활용한다.


핵심 발견: 프롬프트보다 환경 설계가 중요하다

논문의 가장 중요한 주장은 이 부분이다.

Frontier LLM은 Rosetta와 RosettaScripts에 대한 일반 지식을 어느 정도 알고 있다.
하지만 실제 실행 가능한 RosettaScripts 행동을 안정적으로 만들지는 못한다.

특히 아미노산 조성 penalty block에서 문제가 컸다.

에이전트가 “proline이 너무 많으면 줄이자”라고 올바르게 판단해도, 실제 RosettaScripts 문법으로는 반대 효과를 내는 블록을 만들 수 있었다.

Crop 포인트: 빨간 줄은 에이전트의 의도와 실제 코드 효과가 어긋나는 지점을 보여준다.

 

논문 저자들은 이를 해결하기 위해 RosettaScripts 원문 문법을 그대로 쓰게 하지 않았다.

대신 단순화된 문법을 만들었다.

에이전트는 “어떤 잔기를, 어느 범위에서, 어떤 방식으로 벌점 줄지”만 지정한다.
환경이 이를 실제 RosettaScripts 형식으로 변환한다.

결과는 뚜렷했다.

  • 원래 문법에서는 최고 모델도 안정성이 부족했다.
  • 단순화된 문법에서는 거의 모든 모델이 매우 높은 성공률을 보였다.
  • 비용도 크게 줄었다.

Crop 포인트: 주황색 점들이 상단에 모여 있어, 단순화된 문법이 모델 종류와 비용 차이를 넘어 안정성을 높였음을 보여준다.

 

이 결과는 과학 에이전트 설계에 중요한 교훈을 준다.

LLM의 추론 능력만으로 전문 소프트웨어를 안정적으로 다루기는 어렵다.
실행 가능한 행동 공간과 오류 복구 환경을 함께 설계해야 한다.


실험 1: 고정된 backbone을 안정화하기

첫 번째 실험은 표준 아미노산만 사용한다.

목표는 다음과 같다.

  • 주어진 단백질 backbone은 그대로 둔다.
  • 아미노산 서열을 바꾼다.
  • 바뀐 서열이 같은 구조로 접히도록 만든다.
  • Rosetta energy가 낮고 구조적으로 안정적인 후보를 찾는다.

초기 상태는 glycine으로만 이루어진 backbone이다.

에이전트는 이를 안정적인 서열로 바꿔야 한다.

논문은 8개의 서로 다른 backbone을 사용했다.

Crop 포인트: 서로 다른 크기와 형태의 backbone을 사용해, 단일 구조에 과적합된 결과가 아님을 확인할 수 있다.

 

비교 대상은 네 가지다.

  • ProteinMPNN
  • 사람이 작성한 one-shot Rosetta protocol
  • 사람이 작성한 staged Rosetta protocol
  • 단순 반복 Rosetta baseline

평가에는 ESMFold도 사용했다.

여기서 RMSD는 예측 구조가 목표 구조와 얼마나 가까운지 보는 지표다.
낮을수록 좋다.

pLDDT는 구조 예측의 신뢰도를 나타낸다.
높을수록 좋다.

Agent Rosetta는 매 단계 여러 후보를 만들고, 여러 지표에서 균형이 좋은 후보를 다음 단계로 넘긴다.

Crop 포인트: 선이 아래로 내려갈수록 목표 구조와 더 가까워진 것이며,
반복 설계가 단일 실행 baseline을 넘어서는 구간이 보인다.

 

전체 요약에서는 Agent Rosetta가 ProteinMPNN과 비슷한 수준의 성능을 보였다.

특히 일부 backbone에서는 Agent Rosetta가 더 낮은 RMSD를 기록했다.
다만 ProteinMPNN은 대체로 pLDDT가 높았다.

논문은 이 차이를 조심스럽게 해석한다.

ESMFold는 자연 단백질 서열에 가까운 설계를 더 잘 평가할 수 있다.
따라서 Rosetta 기반 설계가 불리하게 보일 가능성이 있다.

Crop 포인트: Agent Rosetta 점들이 ProteinMPNN 근처에 위치해,
더 비싼 LLM 기반 방식이지만 특화 모델과 경쟁 가능한 성능을 냈음을 보여준다.

 

이 실험의 결론은 단순하다.

표준 아미노산 설계에서는 전문 ML 모델이 여전히 강하다.
하지만 Agent Rosetta는 단일 고정 protocol보다 유연하게 개선하며, 여러 구조에서 경쟁력 있는 결과를 냈다.


실험 2: 비표준 아미노산을 단백질 core에 넣기

두 번째 실험은 더 중요하다.

여기서는 비표준 아미노산을 단백질 내부 core에 정확히 하나 넣어야 한다.

논문이 사용한 비표준 아미노산은 N1-formyl-tryptophan, 줄여서 TRF다.

TRF는 tryptophan과 비슷하지만 formyl group이 추가되어 있다.
이 작은 차이가 ML 기반 모델에는 큰 문제가 될 수 있다.

학습 데이터가 적기 때문이다.

Crop 포인트: TRF는 TRP의 indole ring에 추가 작용기가 붙어 있어, 표준 아미노산 설계 문제와 다른 조건을 만든다.

 

이 실험에서는 4개의 de novo 단백질 구조를 사용했다.

크기와 형태가 다르다.
따라서 TRF를 넣기 쉬운 구조와 어려운 구조가 함께 포함된다.

Crop 포인트: 6V67 같은 작은 구조와 8UZL 같은 큰 구조가 함께 있어, 비표준 잔기 삽입 난이도가 구조별로 달라진다.

 

TRF 삽입에서 중요한 것은 위치와 방향이다.

단순히 TRF가 들어간다고 성공이 아니다.
TRF가 core 쪽으로 안정적으로 향해야 한다.

소수성 성격이 큰 잔기가 바깥 용매 쪽으로 노출되면 불리하다.

Crop 포인트: 마젠타색 TRF가 단백질 내부를 향하는 경우와 바깥으로 노출되는 경우의 차이가 설계 성공의 핵심이다.

 

결과적으로 GPT-5 기반 Agent Rosetta가 가장 높은 TRF inclusion rate를 보였다.

사람이 작성한 고정 protocol보다 나은 결과였다.

Crop 포인트: GPT-5가 가장 긴 막대를 보이며, 고정된 인간 baseline보다 높은 TRF core 삽입 성공률을 보인다.

 

최종 검증에는 AlphaFold 3가 사용되었다.

이 단계에서는 성공 후보를 골라 예측 구조가 원래 구조와 얼마나 가까운지 확인했다.

Agent Rosetta는 인간 baseline보다 AF3 기준 구조 보존 성능이 좋았다.
특히 GPT-5가 가장 안정적인 결과를 보였다.

Crop 포인트: GPT-5 점이 낮은 RMSD 영역에 있어, TRF 삽입 후에도 전체 fold가 비교적 잘 보존되었음을 보여준다.

 

논문은 좋은 예와 나쁜 예도 함께 제시한다.

성공 사례에서는 TRF가 구조 내부에 배치되면서 fold가 유지된다.
실패 사례에서는 TRF는 들어가도 전체 구조가 어긋난다.

Crop 포인트: 맨 위 행은 LLM agent의 좋은 예측, 가운데 행은 나쁜 예측,
아래 행은 인간 baseline을 보여주며 구조 보존 여부를 비교하게 한다.

 

이 실험이 중요한 이유는 명확하다.

ProteinMPNN 같은 표준 서열 설계 모델은 이런 비표준 잔기 문제에 바로 적용하기 어렵다.
반면 Rosetta는 물리 기반 설계로 이를 다룰 수 있다.

Agent Rosetta는 LLM의 일반 추론 능력과 Rosetta의 물리 기반 유연성을 결합했다.


논문이 보여준 과학 에이전트 설계 원칙

1. 원문 코드 생성보다 행동 공간 설계가 중요하다

전문 도구의 문법은 일반 프로그래밍 언어보다 낯설다.

에이전트가 전체 스크립트를 직접 쓰게 하면 오류가 잦다.

논문은 복잡한 RosettaScripts를 의미 중심 행동으로 추상화했다.

  • side chain 변경
  • backbone 변경
  • 이전 단계로 되돌리기

이 세 행동만으로도 넓은 설계 공간을 탐색했다.

2. 상태를 LLM이 읽을 수 있게 바꿔야 한다

원자 좌표 전체를 보여주는 것은 비효율적이다.

대신 설계 상태를 요약 지표로 바꿔야 한다.

  • 어느 잔기 위치가 문제인지
  • 어떤 에너지 항목이 나빠졌는지
  • 구조가 목표에서 얼마나 벗어났는지
  • core packing이 좋아졌는지

이렇게 해야 에이전트가 다음 행동을 고를 수 있다.

3. 오류 메시지는 설계 루프의 일부다

RosettaScripts 실행은 실패할 수 있다.

중요한 것은 실패 자체를 막는 것만이 아니다.

실패 메시지를 에이전트에게 돌려주고, 수정 행동을 만들게 해야 한다.

논문은 action이 실패하면 에이전트가 error correction 단계를 거치도록 설계했다.

4. LLM 비용은 여전히 중요하다

전문 ML 모델은 실행 비용이 낮다.

ProteinMPNN은 고정 backbone sequence design에서는 매우 효율적이다.

Agent Rosetta는 더 유연하지만 비용이 든다.

따라서 이 접근은 “모든 문제에서 ML 모델을 대체한다”는 주장보다, 특화 모델이 닿기 어려운 설계 공간을 열어준다는 점이 더 중요하다.


한계

이 논문에는 몇 가지 한계가 있다.

  • 실험적 wet-lab 검증은 포함되지 않았다.
  • 인간 baseline은 고정 protocol이다. 실제 전문가라면 여러 날 동안 protocol을 반복 수정할 수 있다.
  • ESMFold와 AF3 검증은 유용하지만 완전한 실험 검증은 아니다.
  • ESMFold는 자연 단백질 서열에 가까운 후보를 선호할 수 있다.
  • 비표준 아미노산 실험은 AF3가 처리 가능한 TRF에 제한되었다.
  • Agent Rosetta의 성능은 LLM 자체뿐 아니라 환경 설계 품질에 크게 의존한다.

이 한계는 오히려 논문의 메시지를 강화한다.

과학 에이전트의 성능은 모델만으로 결정되지 않는다.
도구 인터페이스, 상태 표현, 오류 복구, 실행 가능한 행동 공간이 함께 결정한다.


정리

Agent Rosetta는 단백질 설계를 위한 범용 AI 과학자의 완성형이라기보다, 전문 과학 소프트웨어를 LLM agent와 결합하는 방법에 대한 사례 연구다.

가장 중요한 결론은 다음과 같다.

  • LLM은 과학 도구를 이해하고 활용할 수 있다.
  • 하지만 전문 소프트웨어를 안정적으로 쓰려면 환경 설계가 필수다.
  • 표준 아미노산 설계에서는 특화 ML 모델과 경쟁 가능했다.
  • 비표준 아미노산 설계에서는 고정된 인간 baseline보다 나은 결과를 보였다.
  • 과학 에이전트의 핵심은 “프롬프트”가 아니라 “실행 가능한 과학 워크플로우”다.

이 논문은 앞으로의 과학 에이전트가 어떤 방향으로 발전해야 하는지 보여준다.

LLM이 모든 것을 직접 해결하는 방식이 아니다.
전문 도구를 잘 감싸고, 중간 결과를 읽게 만들고, 오류를 복구하게 만드는 방식이다.


Source

  • Jacopo Teneggi, S.M. Bargeen A. Turzo, Tanya Marwah, Alberto Bietti, P. Douglas Renfrew, Vikram Khipple Mulligan, Siavash Golkar. Protein Design with Agent Rosetta: A Case Study for Specialized Scientific Agents.
  • arXiv:2603.15952v1, 16 Mar 2026.
  • arXiv link: https://arxiv.org/abs/2603.15952v1
  • DOI: https://doi.org/10.48550/arXiv.2603.15952
  • License: Creative Commons Attribution 4.0 International (CC BY 4.0).
  • Figures are adapted from the original paper.