본문 바로가기
AI 생성 글 정리/bio

RFdiffusion2 논문 정리

by Honbul 2026. 5. 18.

 

효소 설계의 핵심은 단순히 “그럴듯한 단백질”을 만드는 것이 아닙니다.

반응이 일어나는 활성 부위에 필요한 원자들이 정확한 위치와 방향으로 놓여야 합니다.
그 주변을 단백질 골격이 안정적으로 감싸야 합니다.
그리고 그 구조는 실제로 접힐 수 있어야 합니다.

 

이 논문은 이 어려운 문제를 원자 단위 생성 모델로 정면 돌파합니다.

저자들이 제안한 RFdiffusion2는 활성 부위를 구성하는 몇 개의 핵심 원자만 보고도,

그 원자들을 품는 새로운 단백질 구조를 생성합니다.
기존 방식처럼 촉매 잔기의 위치를 미리 정하거나, 가능한 측쇄 자세를 하나씩 나열하지 않습니다.

 

핵심 메시지는 분명합니다.

  • 효소 설계를 “골격 먼저”가 아니라 화학 메커니즘 먼저로 시작한다.
  • 활성 부위 원자 배열을 입력하면, 단백질 골격과 잔기 위치를 함께 추론한다.
  • 계산 벤치마크와 실제 실험 모두에서 기존 RFdiffusion보다 넓은 범위의 효소 설계가 가능함을 보였다.


Crop 포인트: 가운데 생성 경로는 RFdiffusion2가 원자 단위 활성 부위를 기준점으로 삼아 단백질 골격을 점진적으로 세우는 과정을 보여준다.

배경: 효소 설계는 왜 어려운가

새 효소를 설계하려면 먼저 “어떤 화학 반응을 촉진할 것인가”를 정해야 합니다.
그다음 반응 중간 상태나 전이 상태를 안정화할 수 있는 원자 배열을 상상합니다.

이 이상적인 활성 부위 배치를 theozyme이라고 부릅니다.

쉽게 말하면 theozyme은 다음 정보를 담습니다.

  • 어떤 작용기가 반응물의 어느 부분을 잡아야 하는가
  • 어떤 원자가 산이나 염기처럼 행동해야 하는가
  • 금속 이온이나 보조 인자가 어디 있어야 하는가
  • 반응물이 단백질 안에서 어떤 자세를 가져야 하는가

문제는 그다음입니다.

이 작은 화학적 배치를 실제 단백질 안에 넣어야 합니다.
단백질은 길고 유연한 사슬입니다.
활성 부위 원자 몇 개는 정확히 맞아야 하지만, 나머지 수백 개의 원자는 자연스럽게 접혀야 합니다.

기존 접근법은 보통 이렇게 처리했습니다.

  1. 촉매 잔기가 단백질 서열의 몇 번째 위치에 들어갈지 정한다.
  2. 각 촉매 잔기의 가능한 측쇄 자세를 미리 샘플링한다.
  3. 그 조건을 만족하는 단백질 골격을 생성하거나 검색한다.

작은 문제에서는 통합니다.
하지만 활성 부위가 복잡해질수록 후보 조합이 폭발합니다.

잔기가 하나 추가될 때마다 가능한 위치와 자세가 크게 늘어납니다.
결국 설계자는 많은 휴리스틱과 필터링에 의존해야 합니다.

RFdiffusion2의 핵심 아이디어

RFdiffusion2는 이 과정을 분리하지 않습니다.

활성 부위 원자, 잔기 위치, 측쇄 자세, 단백질 골격을 하나의 생성 문제로 봅니다.

즉, 모델이 동시에 결정합니다.

  • 활성 부위 원자가 어떤 잔기에 속해야 하는지
  • 그 잔기가 단백질 서열의 어디에 들어가야 하는지
  • 측쇄가 어떤 방향을 가져야 하는지
  • 전체 단백질 골격이 어떻게 접혀야 하는지
  • 리간드나 전이 상태가 단백질 안에서 어느 정도 묻혀야 하는지

이것이 논문의 가장 중요한 변화입니다.

기존 방식은 “후보를 많이 만들고 고르는 방식”에 가까웠습니다.
RFdiffusion2는 “조건을 보고 전체 구조를 직접 생성하는 방식”에 가깝습니다.

원자 단위 motif conditioning

이전 RFdiffusion 계열 모델은 주로 단백질 골격 수준의 motif를 다뤘습니다.
즉, 잔기 단위의 뼈대 위치가 중요했습니다.

하지만 효소 활성 부위는 종종 더 미세합니다.

정말 중요한 것은 잔기 전체가 아니라 특정 원자입니다.

 

예를 들어 히스티딘의 질소, 라이신의 아민, 글루탐산의 산소처럼 반응에 직접 관여하는 원자들이 핵심입니다.

RFdiffusion2는 이런 원자 단위 정보를 직접 조건으로 받습니다.

또 하나의 차이는 unindexed motif입니다.
이는 motif가 서열의 몇 번째 위치에 들어갈지 미리 알려주지 않는다는 뜻입니다.

모델은 활성 부위 원자 배열을 보고, 그 배열을 가장 잘 지탱할 수 있는 잔기 위치를 스스로 찾습니다.

 


Crop 포인트: 위쪽의 기존 RFdiffusion 경로와 아래쪽 RFdiffusion2 경로를 비교하면, RFdiffusion2가 잔기 위치와 측쇄 자세를 사전 열거 없이 직접 추론한다는 차이가 드러난다.

수식 없이 이해하는 생성 원리

논문은 RFdiffusion2를 학습시키기 위해 flow matching을 사용합니다.

직관은 간단합니다.

모델은 무작위 잡음 상태에서 시작합니다.
그리고 실제 단백질 구조에 가까워지는 방향을 배웁니다.
한 번에 완성하지 않습니다.
여러 단계에 걸쳐 조금씩 구조를 정리합니다.

이 방식의 장점은 안정성입니다.

 

저자들은 기존 RFdiffusion과 RFdiffusionAA에서 긴 학습을 진행하면 성능이 악화되는 현상을 관찰했습니다.
RFdiffusion2는 flow matching을 사용해 더 안정적으로 학습했습니다.
보조 손실이나 self-conditioning 없이도 학습이 가능했다고 보고합니다.

 

여기서 중요한 점은 모델이 다루는 대상입니다.

RFdiffusion2는 단순한 점들의 집합만 생성하지 않습니다.
원자 좌표와 단백질 골격의 방향 정보를 함께 다룹니다.
그래서 활성 부위의 세밀한 원자 배열과 전체 단백질 접힘을 동시에 맞출 수 있습니다.

stochastic centering: 모델이 지름길을 외우지 않게 하기

효소 설계에서는 활성 부위가 단백질 전체의 어느 위치에 놓이는지도 중요합니다.
활성 부위가 너무 깊게 묻히면 반응물이 접근하기 어렵습니다.
반대로 너무 노출되면 결합이 불안정할 수 있습니다.

학습 중 구조를 단순히 motif 중심에 맞추면 문제가 생깁니다.
모델이 motif와 단백질 중심 사이의 위치 관계를 너무 쉽게 읽어낼 수 있습니다.
그러면 생성 과정에서 위치를 점진적으로 개선하지 않고, 초반 예측에 의존하는 경향이 생깁니다.

 

저자들은 이를 해결하기 위해 stochastic centering을 도입했습니다.

훈련 구조를 중심에 맞춘 뒤, 작은 무작위 이동을 추가합니다.
이렇게 하면 모델이 정확한 중심 위치를 외우지 못합니다.
대신 생성 과정 전체에서 motif와 단백질 골격의 상대 배치를 계속 조정하게 됩니다.

추론 단계에서는 사용자가 ORI pseudo-atom을 넣어 단백질 중심이 대략 어디에 오면 좋을지 알려줄 수 있습니다.
이는 활성 부위가 단백질 표면 쪽에 열리게 할지, 더 깊은 포켓 안에 들어가게 할지 조절하는 데 유용합니다.

리간드와 반응물까지 제어한다

RFdiffusion2는 활성 부위 원자만 다루지 않습니다.
리간드나 반응물의 조건도 함께 다룹니다.

논문에서 강조한 기능은 두 가지입니다.

 

첫째, 각 리간드 원자가 얼마나 용매에 노출되어야 하는지 지정할 수 있습니다.
이를 통해 반응물의 특정 부분은 단백질 안쪽에 묻히고, 다른 부분은 바깥쪽으로 향하도록 유도할 수 있습니다.

 

둘째, 리간드의 일부 원자만 알려져 있어도 나머지 형태를 모델이 생성할 수 있습니다.
반응 메커니즘상 중요한 원자 위치만 알고 있을 때 유용합니다.
전체 리간드 자세를 외부 도구로 미리 완성하지 않아도 됩니다.

 

이 기능들은 효소 설계에서 중요합니다.
효소는 단순히 반응물을 붙잡는 분자가 아닙니다.
반응물의 접근성, 포켓 깊이, 전이 상태의 안정화가 모두 동시에 맞아야 합니다.

AME benchmark: 더 현실적인 효소 설계 평가

저자들은 기존 motif scaffolding 벤치마크가 실제 효소 설계 난이도를 충분히 반영하지 못한다고 봤습니다.
그래서 새로운 벤치마크인 AME benchmark를 만들었습니다.

AME는 atomic motif enzyme의 약자입니다.

구성 방식은 다음과 같습니다.

  • M-CSA의 수작업 활성 부위 정보를 활용했다.
  • PARITY 데이터셋과 대조해 반응물과 보조 인자가 구조 안에 있는 사례를 골랐다.
  • 최종적으로 41개의 활성 부위 사례를 만들었다.
  • 사례는 주요 효소 분류군을 폭넓게 포함한다.
  • 각 사례는 단백질 골격이 아니라 원자 단위 활성 부위를 조건으로 사용한다.

성공 여부는 단순히 예쁜 구조가 나왔는지로 판단하지 않았습니다.

생성된 구조에 서열을 입힌 뒤, 구조 예측 모델로 다시 접힘을 확인했습니다.
그 결과 활성 부위 원자 배치가 유지되고, 리간드와 충돌하지 않는 경우를 성공으로 봤습니다.

결과는 명확했습니다.

  • RFdiffusion2는 41개 사례 모두에서 성공 구조를 찾았다.
  • 기존 RFdiffusion은 16개 사례에서만 성공했다.
  • RFdiffusion2는 거의 모든 사례에서 기존 방법보다 높은 성공률을 보였다.
  • 특히 활성 부위가 여러 조각으로 흩어진 복잡한 경우에서 차이가 컸다.


Crop 포인트: 가운데 긴 성능 그래프는 활성 부위가 복잡해질수록 기존 RFdiffusion이 급격히 약해지는 반면, RFdiffusion2는 더 넓은 난이도 범위에서 성공을 유지한다는 점을 보여준다.

“새로운 구조”를 만들었는가

효소 설계 모델이 좋은 성능을 보였다고 해도, 단순히 기존 단백질을 변형한 것이라면 의미가 제한됩니다.

저자들은 생성된 성공 구조가 기존 PDB 구조와 얼마나 가까운지도 평가했습니다.

결과적으로 많은 설계가 기존 구조와 낮은 유사도를 보였습니다.

 

이는 RFdiffusion2가 학습 데이터에서 비슷한 구조를 그대로 꺼내온 것이 아니라,

활성 부위를 품는 새로운 scaffold를 만들 수 있음을 시사합니다.

이 부분은 de novo 설계에서 중요합니다.
목표는 자연에 이미 있는 효소를 찾는 것이 아니라, 원하는 반응 메커니즘을 담는 새로운 단백질을 만드는 것이기 때문입니다.

실험 검증: 실제로 작동하는 효소가 나왔는가

계산 벤치마크는 필요하지만 충분하지 않습니다.
효소 설계의 최종 검증은 실험입니다.

저자들은 RFdiffusion2로 설계한 단백질을 실제로 합성하고 활성을 측정했습니다.

실험은 크게 두 범주로 나뉩니다.

 

첫째, 알려진 효소 구조에서 theozyme을 가져온 경우입니다.
이 접근은 “모델이 활성 부위를 잘 scaffold할 수 있는가”를 직접 확인하는 데 적합합니다.

 

둘째, 원하는 반응 메커니즘에서 출발해 양자화학 계산으로 전이 상태 형태를 얻은 경우입니다.
이 접근은 “기존 효소 구조 없이도 새로운 효소를 만들 수 있는가”에 더 가깝습니다.

 

검증한 설계 캠페인은 다음과 같습니다.

  • retroaldolase
  • cysteine hydrolase
  • zinc hydrolase, 4MU-butyrate 기질
  • zinc hydrolase, 4MU-phenylacetate 기질
  • 일반 염기를 추가한 zinc hydrolase

각 캠페인에서 96개 미만의 설계만 실험적으로 테스트했습니다.
그럼에도 모든 경우에서 활성을 보이는 후보를 찾았습니다.

가장 강한 zinc hydrolase 설계는 촉매 효율이 53,000 M⁻¹ s⁻¹ 수준까지 도달했습니다.
이는 de novo 효소 설계 관점에서 매우 의미 있는 결과입니다.


Crop 포인트: 오른쪽 활성 곡선들은 RFdiffusion2가 만든 구조가 단순한 계산 산물이 아니라 실제 반응 속도를 높이는 효소로 작동했음을 보여준다.

논문이 보여준 가장 큰 진전

이 연구의 핵심 성과는 “효소 설계 자동화”입니다.

물론 완전 자동화는 아닙니다.
Theozyme을 정의하고, 어떤 반응 메커니즘을 사용할지 정하고, 후보를 필터링하고, 실험 검증을 수행해야 합니다.

하지만 RFdiffusion2는 가장 병목이 컸던 부분을 줄입니다.

 

기존에는 활성 부위 원자를 단백질 골격에 끼워 넣기 위해 많은 사전 샘플링이 필요했습니다.
RFdiffusion2는 그 과정을 모델 내부의 생성 문제로 흡수합니다.

이 변화는 실무적으로 큽니다.

  • 더 복잡한 활성 부위를 다룰 수 있다.
  • 설계자의 수작업 가정이 줄어든다.
  • 반응 메커니즘에서 바로 단백질 후보로 넘어갈 수 있다.
  • 작은 실험 스크리닝에서도 활성 후보가 나올 가능성이 커진다.

한계도 분명하다

저자들은 RFdiffusion2가 만든 효소가 아직 자연 효소 수준의 활성을 보이지는 않는다고 말합니다.

가능한 이유는 여러 가지입니다.

 

첫째, theozyme이 너무 최소한의 조건만 담고 있을 수 있습니다.
실제 효소는 활성 부위 주변의 2차 상호작용, 포켓 모양, 기질 진입 경로, 물 분자의 배치까지 활용합니다.

 

둘째, AME benchmark는 PDB에서 유래한 motif를 기반으로 합니다.
실제 신반응 설계는 더 어려울 수 있습니다.

 

셋째, 여러 전이 상태를 거치는 반응은 아직 충분히 평가되지 않았습니다.
효소는 한 순간의 구조만 잘 맞춘다고 항상 좋은 촉매가 되는 것은 아닙니다.

 

넷째, 생성 구조 이후의 서열 설계와 포켓 미세 조정도 중요합니다.
활성 부위 바깥쪽 잔기들이 기질 결합과 반응 속도에 큰 영향을 줄 수 있습니다.

앞으로의 방향

논문은 몇 가지 개선 방향을 제시합니다.

  • 더 풍부한 theozyme 정의
  • 다중 전이 상태를 반영한 벤치마크
  • 더 강력한 all-atom 구조 예측 모델을 이용한 필터링
  • 단백질 서열과 측쇄를 동시에 설계하는 co-design
  • 실험 결과를 다시 모델에 반영하는 반복 설계

특히 중요한 방향은 활성 부위 바깥쪽 포켓 설계입니다.
현재 모델은 핵심 원자 배치를 강하게 맞추지만,

효소 활성을 높이려면 기질이 들어오고 나가며 반응하는 전체 미세환경이 맞아야 합니다.

따라서 RFdiffusion2는 끝이 아니라 출발점에 가깝습니다.
정확한 원자 배치를 생성하는 기반 위에, 더 정교한 포켓 최적화와 실험 피드백이 결합될 가능성이 큽니다.

이 논문을 한 문장으로 정리하면

RFdiffusion2는 효소 활성 부위를 원자 단위로 조건화해,

잔기 위치와 측쇄 자세를 미리 정하지 않고도 새로운 단백질 scaffold를 생성하는 모델입니다.

그 결과 복잡한 활성 부위 벤치마크에서 기존 방법을 크게 앞섰고, 실제 실험에서도 여러 반응에 대해 활성 효소를 찾아냈습니다.

효소 설계의 중심이 “가능한 단백질을 찾는 일”에서 “원하는 화학 메커니즘을 단백질로 구현하는 일”로

이동하고 있음을 보여주는 연구입니다.

Source

  • Woody Ahern, Jason Yim, Doug Tischer, Saman Salike, Seth M. Woodbury, Donghyo Kim, Indrek Kalvet, Yakov Kipnis, Brian Coventry, Han Raut Altae-Tran, Magnus S. Bauer, Regina Barzilay, Tommi S. Jaakkola, Rohith Krishna & David Baker. Atom-level enzyme active site scaffolding using RFdiffusion2. Nature Methods, 23, 96–105, 2026.
  • DOI: https://doi.org/10.1038/s41592-025-02975-x
  • RFdiffusion2 code: https://github.com/RosettaCommons/RFdiffusion2/
  • Figures are extracted from the original open-access article PDF. The article is distributed under a Creative Commons Attribution-NonCommercial-NoDerivatives 4.0 International License.