본문 바로가기
AI 생성 글 정리/bio

RFdiffusion 논문 핵심 정리

by Honbul 2026. 4. 1.

De novo design of protein structure and function with RFdiffusion (Nature, 2023)

한 줄 요약
RFdiffusion은 RoseTTAFold를 확산모델(diffusion model)의 denoiser로 바꿔, 단백질 백본을 새로 생성하고 여기에 대칭성, 결합 표적, 기능 모티프 같은 조건을 걸어 원하는 구조와 기능을 가진 단백질을 설계할 수 있음을 보여준 논문이다.


1. 논문 정보


 

2. 3줄 요약

  1. 이 논문은 “단백질용 diffusion model” 을 실제로 강력하게 만든 사례다.
  2. 단순한 단백질 백본 생성뿐 아니라 대칭 올리고머, 기능 모티프 스캐폴딩, 금속 결합, 표적 단백질 binder 설계까지 하나의 프레임워크로 다룬다.
  3. 중요한 점은 시뮬레이션 성능에 그치지 않고, 실험 검증과 cryo-EM 구조까지 통해 설계 정확도를 보여줬다는 것이다.

3. 왜 중요한가

단백질 설계는 오래전부터 가능했지만, 기존 접근은 대체로 두 가지 어려움이 있었다.

  • 탐색 공간이 너무 크다.
    원하는 구조를 만족하는 backbone과 sequence를 동시에 찾는 일은 매우 어렵다.
  • 과제별로 도구가 갈라져 있었다.
    “새로운 단백질 만들기”, “대칭 구조 만들기”, “활성 부위 고정하기”, “표적에 결합하는 binder 만들기”가 각각 다른 파이프라인을 요구했다.

RFdiffusion의 핵심 기여는 이 문제를 “노이즈에서 단백질 구조를 점진적으로 복원하는 생성 문제” 로 바꿨다는 점이다.
즉, 이미지 생성에서 diffusion model이 텍스트 프롬프트를 받아 그림을 만들듯, 이 논문은 분자적 제약 조건을 입력으로 받아 단백질 구조를 생성한다는 그림을 제시한다.


4. 핵심 아이디어

4-1. RoseTTAFold를 diffusion denoiser로 재활용

저자들은 구조 예측 네트워크인 RoseTTAFold(RF) 를 그대로 버리지 않고,
이를 노이즈가 섞인 단백질 구조를 복원하는 네트워크 로 미세조정(fine-tuning)했다.

핵심은 “서열 → 구조 예측”에 강한 모델이 이미 단백질 구조에 대한 풍부한 priors를 갖고 있으니,
이를 “노이즈 → 그럴듯한 구조 복원”에도 활용할 수 있다는 발상이다.

4-2. 단백질을 residue frame으로 표현

논문은 각 residue를 다음처럼 표현한다.

  • Cα 좌표(translation)
  • N–Cα–C가 만드는 rigid orientation(rotation)

즉, 점 하나만 다루는 것이 아니라 위치 + 방향 을 함께 다루는 구조 표현을 사용한다.
이 덕분에 단백질 backbone의 실제 기하학을 더 잘 반영할 수 있다.

4-3. 노이즈를 넣고, 다시 걷어낸다

학습 시에는 실제 단백질 구조에 노이즈를 넣는다.

  • 좌표에는 3D Gaussian noise
  • 방향에는 rotation manifold 위의 Brownian motion

그 다음 모델이 이 노이즈를 되돌리도록 학습한다.
생성 시에는 완전한 랜덤 노이즈에서 시작해, 여러 step을 거쳐 단백질처럼 보이는 backbone 으로 수렴시킨다.

4-4. self-conditioning이 중요하다

이 논문에서 꽤 중요한 기술 포인트는 self-conditioning 이다.
이전 step에서 예측한 (X_0) 를 다음 step 입력에 다시 넣어, trajectory의 일관성을 높인다.
논문은 이 설정이 성능을 꽤 크게 끌어올린다고 보여준다.

4-5. MSE loss를 쓴 이유

저자들은 RF 구조예측 학습에서 자주 쓰이는 FAPE loss 대신,
diffusion 학습에는 MSE loss 가 중요하다고 주장한다.

이유는 diffusion step 사이에서는 전역 좌표계의 연속성 이 중요하기 때문이다.
FAPE는 전역 frame 변화에 불변이라서, unconditional generation에서는 오히려 불리할 수 있다.

4-6. sequence 설계는 ProteinMPNN으로 분리

RFdiffusion은 주로 구조(backbone) 생성 에 집중하고,
그 backbone에 맞는 sequence는 ProteinMPNN 으로 별도 설계한다.
그 뒤 AlphaFold2(AF2) 로 다시 접히는지 검증한다.

이 조합이 실제로 매우 강력하게 작동한다는 것이 이 논문의 실용적 포인트다.


5. 한눈에 보는 구조: 무엇을 만들 수 있나

설계 문제 RFdiffusion에서의 입력 조건 논문이 보여준 대표 결과
새 단백질 monomer 생성 없음 (unconditional) 최대 600 aa 수준까지 새로운 구조 생성
특정 fold 생성 secondary structure / block adjacency TIM barrel, NTF2 등 조건부 생성
대칭 올리고머 생성 symmetry specification cyclic, dihedral, tetrahedral, icosahedral
기능 모티프 스캐폴딩 고정된 motif 좌표 epitope, binding motif, active site scaffold
대칭 기능 모티프 스캐폴딩 symmetry + motif SARS-CoV-2 trimer binder scaffold, Ni²⁺ site
표적 단백질 binder 설계 target + hotspot residue HA, IL-7Rα, PD-L1, InsR, TrkA binders

6. Figure로 읽는 논문

Figure 1. RFdiffusion의 개념도

 

무엇을 보여주나

  • 단백질 구조에 노이즈를 넣고 다시 복원하는 forward / reverse diffusion
  • RoseTTAFold를 구조 denoiser 로 바꾸는 방식
  • self-conditioning 구조
  • unconditional / symmetry / binder / motif scaffolding 등 다양한 조건부 생성 시나리오

이 figure의 핵심 포인트

  • RFdiffusion은 “서열을 넣어 구조를 맞히는 모델”이 아니라,
    “노이즈를 넣어 놓은 구조를 점점 단백질답게 복원하는 생성 모델” 이다.
  • 그리고 이 과정에 표적 단백질, 대칭성, 기능 모티프 같은 제약을 끼워 넣을 수 있다.
  • 패널 c는 노이즈 덩어리가 점점 3차원 단백질 형태로 정리되는 과정을 직관적으로 보여준다.

Figure 2. 조건 없이도 새로운 monomer를 만들 수 있다

 

 

무엇을 보여주나

  • 아무 조건 없이도 300 aa, 600 aa급 단백질 backbone을 생성
  • PDB의 기존 구조와 꽤 다르면서도, AF2가 다시 잘 접어주는 구조라는 점
  • RF Hallucination보다 더 높은 성능과 더 나은 계산 효율
  • fold-conditioned generation 예시(TIM barrel)

핵심 해석

이 figure는 RFdiffusion이 단순히 “기존 fold를 조금 바꾸는 모델”이 아니라,
길이가 긴 새로운 단백질 구조도 꽤 안정적으로 생성 할 수 있음을 보여준다.

특히 블로그에서 꼭 짚으면 좋은 포인트는 두 가지다.

  1. AF2 재예측과 거의 겹친다
    → 생성한 backbone이 단순한 noise artifact가 아니라 실제로 접힐 가능성이 높은 구조라는 뜻이다.
  2. 생성 속도가 빠르다
    → 논문은 100 aa 단백질을 약 11초 안에 생성할 수 있다고 말한다.
    이는 기존 RF Hallucination보다 훨씬 실용적이다.

Figure 3. 대칭 올리고머 설계가 매우 강하다

 

무엇을 보여주나

  • C3, C6, C8, C10, D4, icosahedral 등 다양한 대칭 조립체 생성
  • AF2 예측 구조와 설계 구조가 거의 겹침
  • nsEM / cryo-EM 2D class average 및 3D reconstruction으로 실제 조립 상태를 확인

핵심 해석

이 figure는 RFdiffusion이 단순히 monomer 생성기에서 끝나지 않고,
고차 대칭 assembly 설계기 로도 작동한다는 점을 보여준다.

특히 기존 Hallucination 계열은 cyclic symmetry는 가능했지만,
더 복잡한 대칭군은 어려웠다.
RFdiffusion은 여기서 한 단계 더 나아가 dihedral, tetrahedral, icosahedral 수준까지 확장한다.

블로그에서는 이 부분을 다음처럼 정리하면 좋다.

“이 논문의 진짜 임팩트는 예쁜 단백질 하나를 만든 것이 아니라,
규칙적인 자기조립 구조까지 설계 프레임워크 하나로 밀어붙였다는 데 있다.”


Figure 4. 기능 모티프 스캐폴딩: benchmark에서도 강하고, p53/MDM2에서는 실험적으로도 강하다

 

 

무엇을 보여주나

  • 25개 motif-scaffolding benchmark에서 RFdiffusion이 Hallucination, RFjoint Inpainting보다 더 좋은 성능
  • p53 helix를 MDM2 결합 형태로 스캐폴딩해 고친화도 binder 생성
  • 효소 활성 부위(active site) 스캐폴딩 예시

가장 중요한 메시지

이 figure는 RFdiffusion이 단순히 “그럴듯한 구조”를 만드는 것을 넘어,
기능에 직접 연결되는 3D motif 배치 를 얼마나 정확히 다루는지 보여준다.

특히 p53/MDM2 파트는 아주 인상적이다.

  • p53 peptide 자체의 reported affinity: 600 nM
  • RFdiffusion 설계 binder: 0.5 nM, 0.7 nM

즉, 원래 모티프를 그냥 보존한 수준이 아니라,
스캐폴딩 과정에서 추가 접촉면을 만들어 훨씬 더 강한 결합체 로 발전시킨 것이다.


Figure 5. 대칭 기능 모티프 스캐폴딩: 멀티발렌트 결합과 금속 결합 설계

 

무엇을 보여주나

  • SARS-CoV-2 spike trimer에 맞춰 C3-symmetric binder scaffold 설계
  • C4 대칭 Ni²⁺ 결합 단백질 assembly 설계
  • ITC, nsEM으로 금속 결합과 대칭 assembly를 검증

핵심 해석

이 figure는 두 가지 메시지를 동시에 전달한다.

  1. 대칭 표적에 맞춘 멀티발렌트 binder 설계가 가능하다
    → spike처럼 대칭적인 바이러스 표적에 특히 매력적이다.
  2. 금속 배위기하까지 반영한 설계가 가능하다
    → 단백질 표면이 아니라, 여러 subunit가 모여 만드는 중심부 배위 site를 정밀하게 맞춘다.

특히 H52A mutation으로 결합이 사라지는 결과는,
금속 결합이 우연이 아니라 설계한 histidine 배치에 직접 의존 한다는 근거다.


Figure 6. 표적 단백질 binder 설계: 실전성의 증거

 

 

무엇을 보여주나

  • target surface의 hotspot residues 를 지정하고 여기에 맞는 binder를 생성
  • HA, IL-7Rα, InsR, PD-L1, TrkA에 대해 binders 설계
  • BLI로 실험 검증
  • influenza HA binder의 cryo-EM 구조가 설계 모델과 거의 일치

핵심 해석

이 figure는 이 논문의 “실전성”을 가장 잘 보여준다.

핵심은 두 가지다.

(1) binder design의 실험 성공률이 크게 오른다

논문은 전체적으로 약 19%의 실험 성공률 을 보고한다.
이전 Rosetta 기반 방법이 같은 표적에서 보였던 수준보다 대략 두 자릿수(orders of magnitude) 더 낫다 는 주장이다.

(2) 구조 정확도가 실제 실험 구조에서 확인된다

최고 친화도 HA binder인 HA_20 의 cryo-EM 구조는 설계 모델과 매우 잘 맞는다.

  • complex 기준 설계 대비 r.m.s.d. 0.63 Å
  • binder 단독 구조도 설계 대비 r.m.s.d. 0.60 Å

즉, “예측상 될 것 같다” 수준이 아니라,
실제 원자 수준에서 거의 맞게 설계됐다 는 강력한 증거다.


7. 숫자로 정리하는 핵심 결과

7-1. 생성과 구조 정확도

  • unconditional monomer를 최대 600 aa 규모까지 생성
  • 100 aa 단백질 생성 시간을 약 11초 수준까지 단축 가능
  • AF2/ESMFold가 재예측했을 때 설계 구조와 잘 겹치는 사례가 많음

7-2. fold-conditioned generation

  • TIM barrel in silico success rate: 42.5%
  • NTF2 in silico success rate: 54.1%

7-3. motif scaffolding benchmark

  • RFdiffusion이 25개 문제 중 23개 해결
  • 비교 기준:
    • Hallucination: 15개
    • RFjoint Inpainting: 19개

7-4. p53/MDM2

  • RFdiffusion design binder: 0.5 nM, 0.7 nM
  • p53 peptide reported affinity: 600 nM

7-5. binder design

  • 5개 표적 모두에서 hits 확보
  • 전체 실험 성공률(보수적 추정): 19%
  • 일부 binder는 추가 실험 최적화 없이도 수십 nM 수준 affinity
  • HA binder HA_20 은 cryo-EM에서 설계와 거의 동일

8. 이 논문의 가장 큰 강점

8-1. “범용성”

이 논문은 한 가지 디자인 문제만 푼 것이 아니다.
새 단백질 생성, 대칭 구조, 기능 모티프 고정, binder 설계 까지를 한 프레임으로 묶었다.

8-2. “실험 검증”

많은 생성모델 논문은 in silico 결과가 강하고 wet validation이 약한데,
이 논문은 SEC, CD, ITC, nsEM, cryo-EM 까지 폭넓게 보여준다.

8-3. “정확도”

특히 binder 설계의 cryo-EM 결과는 강력하다.
설계 모델과 실험 구조가 거의 겹친다는 것은,
RFdiffusion이 원자 수준 배치까지 제어 가능한 설계 도구 임을 시사한다.

8-4. “실용적 파이프라인”

RFdiffusion → ProteinMPNN → AF2 필터링이라는 파이프라인이 꽤 실용적이다.
새 backbone을 만들고, sequence를 얹고, 접힘/인터페이스를 검증하는 흐름이 분명하다.


9. 읽을 때 주의할 한계

9-1. AF2 기반 평가 비중이 크다

논문의 많은 “성공”은 AF2/ESMFold가 설계 구조를 다시 잘 예측하느냐로 측정된다.
이 지표는 강력하지만, 실험적 접힘/기능과 완전히 동일한 것은 아니다.

9-2. 효소 설계는 아직 조심해서 봐야 한다

active site scaffolding은 매우 인상적이지만,
이 논문이 범용적 고활성 효소를 대량으로 검증했다 는 뜻은 아니다.
많은 부분이 아직 in silico 정확도 중심이다.

9-3. ligand를 명시적으로 다루지 못한다

논문 시점의 RFdiffusion은 작은 분자를 명시적 원자 수준으로 직접 모델링하지 못한다.
저자들도 discussion에서 ligand modeling이 다음 확장 방향임을 언급한다.

9-4. binder specificity는 더 볼 필요가 있다

표적 결합은 잘 보여주지만,
off-target 특이성 을 proteome 수준에서 일반화해 말할 단계는 아니다.

9-5. 일부 문제는 추가 fine-tuning이나 외부 potential이 필요하다

즉, 완전히 “아무 설정 없이 모든 문제를 해결”하는 블랙박스는 아니다.
그럼에도 기존 방법 대비 훨씬 통합적이고 강력하다는 점이 중요하다.


10. 강조 문장

  • RFdiffusion은 단백질版 text-to-image diffusion에 가장 가까운 프레임워크다.
  • 이 논문은 “새 구조를 만들 수 있다”를 넘어서 “기능을 가진 구조를 만들 수 있다”까지 밀어붙였다.
  • 특히 binder design에서 실험 성공률과 cryo-EM 구조 검증을 함께 보여준 점이 결정적이다.
  • 단백질 설계가 특정 fold 조립을 넘어서, 조건부 생성 문제로 재정의되고 있음을 상징하는 논문이다.
  • RoseTTAFold라는 구조예측 모델의 내재 지식을 생성모델로 전환한 사례라는 점에서도 의미가 크다.

11. 결론

RFdiffusion의 핵심 가치는 단순히 더 좋은 생성모델이라는 데 있지 않다.
이 논문은 단백질 설계를 조건부 생성 문제 로 다루는 방식이 실제로 통한다는 것을 보여준다.
새로운 monomer 생성, 대칭 assembly 설계, 기능 모티프 스캐폴딩, 금속 결합, 표적 binder 설계까지 같은 철학으로 연결했고, 그중 일부는 실험 구조로도 정밀하게 검증했다.
앞으로 ligand modeling, nucleic acid design, 더 어려운 catalytic design까지 확장된다면, RFdiffusion은 “특정 단백질을 설계하는 도구”를 넘어 분자 기능을 프로그래밍하는 인터페이스 로 발전할 가능성이 크다.


12. 참고문헌

  1. Watson JL, Juergens D, Bennett NR, et al. De novo design of protein structure and function with RFdiffusion. Nature. 2023;620:1089–1100. https://doi.org/10.1038/s41586-023-06415-8

13. 이미지 및 저작권 메모

  • 이 문서에 포함한 figure1figure6 이미지는 원 논문의 메인 figure를 페이지에서 crop한 것 이다.
  • 원 논문은 Open Access이며, 본문에 따르면 Creative Commons Attribution 4.0 International (CC BY 4.0) 라이선스를 따른다.
Source: Watson et al., Nature (2023), "De novo design of protein structure and function with RFdiffusion"
DOI: 10.1038/s41586-023-06415-8
Figure crops adapted from the original paper (CC BY 4.0).

14. 한 문장 결론

RFdiffusion은 단백질 구조 생성 모델을 “예쁜 backbone 샘플러”에서 “기능 조건을 반영하는 범용 설계 엔진”으로 끌어올린 논문이다.