본문 바로가기
AI 생성 글 정리/bio

NucleusDiff 논문 정리

by Honbul 2026. 4. 6.

한 줄 요약
기존 구조 기반 신약 설계(SBDD) 생성 모델은 원자를 사실상 점처럼 다루기 때문에, 원자 간 최소 거리라는 물리 prior를 충분히 반영하지 못한다. 이 논문은 원자핵(nucleus) 과 그 주위 van der Waals manifold 를 함께 학습하는 NucleusDiff 를 제안하고, 원자 충돌을 크게 줄이면서도 binding affinity를 개선 했다고 보고한다.


논문 정보

  • 제목: Manifold-constrained nucleus-level denoising diffusion model for structure-based drug design
  • 저자: Shengchao Liu, Liang Yan, Weitao Du, Weiyang Liu, Zhuoxinran Li, Hongyu Guo, Christian Borgs, Jennifer Chayes, Anima Anandkumar
  • 저널: PNAS, 2025
  • 핵심 키워드: structure-based drug design, diffusion model, manifold learning, atomic collision, binding affinity
  • 이 문서의 목적: 블로그 포스팅에 바로 활용할 수 있도록, 논문의 핵심 메시지와 figure 중심 포인트를 정리

TL;DR

이 논문의 핵심은 아주 단순하다.

“원자는 점이 아니다.”

기존 SBDD 생성 모델은 3D 좌표 위에 원자를 놓는 데 집중하지만, 실제 원자는 전자구름을 포함한 공간적 부피 를 갖는다. 이 부피를 무시하면 생성된 ligand가 protein pocket 안에서 너무 가까이 겹치는 atomic collision 문제가 생긴다.
NucleusDiff는 각 원자를 원자핵 + 주변 manifold(대략 van der Waals 경계) 로 표현하고, 이 manifold를 mesh point 로 이산화한 뒤, 원자핵과 mesh point 사이 거리가 van der Waals 반경에 맞도록 학습한다. 그 결과, collision은 줄고 docking 기반 affinity 지표는 개선된다.


이 논문이 푸는 문제

기존 모델의 한계

기존 SBDD 생성 모델은 보통 다음과 같은 목표를 가진다.

  • pocket 구조가 주어졌을 때
  • 그 pocket에 잘 맞는 ligand의 원자 종류원자 좌표 를 생성한다.

문제는 이 과정에서 원자를 점 질량처럼 다루기 쉽다는 점이다.
하지만 실제 원자는 전자구름 때문에 일정한 공간을 차지하므로, 두 원자는 최소한의 거리 를 유지해야 한다. 이 물리 prior를 무시하면:

  • ligand 원자와 protein 원자가 지나치게 가까워지고
  • 생성 구조가 비물리적이 되며
  • docking score나 안정성에도 악영향을 줄 수 있다.

왜 단순 pairwise penalty로 해결하지 않았나

가장 직접적인 방법은 “모든 원자 쌍 거리”에 벌점을 거는 것이다.
그런데 이 방식은 원자 쌍 수가 많아질수록 계산량이 제곱(O(N²)) 으로 커진다.

이 논문은 여기서 방향을 바꾼다.

  • 원자-원자 모든 쌍을 직접 묶지 않고
  • 각 원자 주변의 local surface 를 학습하게 만든다.

즉, 전역 pairwise 제약 대신 지역적(local) 기하 제약 으로 문제를 푼다.


핵심 아이디어: NucleusDiff는 무엇이 다른가

NucleusDiff의 아이디어는 아래 한 문장으로 정리할 수 있다.

원자 위치만 생성하지 말고, 원자 주위의 물리적 경계(manifold)까지 함께 학습하자.

 논문은 각 원자를 다음처럼 본다.

  1. 원자핵(nucleus): 원자의 중심 좌표
  2. manifold: 원자 주위를 둘러싼 공간 경계
    • 직관적으로는 van der Waals 반경이 만드는 표면
  3. mesh points: manifold를 계산 가능한 점 집합으로 이산화한 표현

이렇게 하면, 모델은 단순히 “좌표 한 점”을 맞추는 것이 아니라
“이 원자 주변 경계가 어느 정도 공간을 차지해야 하는가” 까지 같이 배우게 된다.

직관적으로 이해하면

  • 기존 방식: 원자 좌표만 잘 놓으면 됨
  • NucleusDiff: 원자 좌표를 놓을 때, 그 원자의 부피/경계 정보 도 같이 맞춰야 함

그래서 결과적으로 다른 원자와 겹쳐 들어갈 여지 가 줄어든다.


방법 요약

1) 원자별 manifold 만들기

각 ligand 원자 주위에 van der Waals 반경을 반영한 manifold를 만든다.
논문은 이를 분자의 solvent-excluded surface/van der Waals surface에 가깝게 다룬다.

2) manifold를 mesh point로 이산화하기

연속적인 surface는 직접 다루기 어렵기 때문에, 이를 triangle mesh point 로 변환한다.
논문에서는 MSMS와 PyMesh를 사용해 전처리한다.

3) diffusion을 핵과 mesh에 동시에 적용하기

모델은 ligand의

  • 원자 종류
  • 원자핵 좌표
  • mesh point 좌표

를 함께 다루는 diffusion objective를 사용한다.

4) 핵-메시 거리 정규화 추가

핵심 regularization은 다음 직관을 따른다.

|| nucleus - mesh || ≈ van der Waals radius

즉, 각 원자핵에서 주변 mesh point까지의 거리가 해당 원자의 van der Waals 반경에 맞도록 유도한다.
이 제약이 사실상 원자 간 최소 거리 를 우회적으로 학습하게 만든다.

5) inference 때는 mesh가 꼭 필요하지 않다

이 부분도 중요하다.
논문에 따르면 mesh point는 학습 단계의 보조 정보 이고, inference에서는 주로 생성된 nucleus coordinate 를 사용한다.
즉, 학습 시에는 물리 prior를 주입하지만, 사용 단계에서는 구조가 크게 복잡해지지 않는다.


이 논문이 새롭게 제시한 기여

1. Atomic collision을 정량화하는 metric 제안

논문은 atomic collision을 보기 위한 metric을 제안하고, 본문에서는 대표적으로 PLCR(Pairwise-Level Collision Ratio) 를 사용한다.

  • 각 ligand atom에 대해 가까운 pocket atom들을 보고
  • 두 원자 사이 거리가 covalent radii 합보다 작으면 collision으로 본다.

즉, 단순히 “score가 좋다”가 아니라,
“생성물이 물리적으로 말이 되는가” 를 수치로 평가한다는 점이 중요하다.

2. Backbone보다 “물리 prior 주입 방식”이 핵심

이 논문의 포인트는 backbone을 완전히 새로 짠 것이 아니라,
기존 diffusion 기반 SBDD 프레임워크에 manifold constraint 를 넣었다는 점이다.

즉, 메시지는 다음과 같다.

더 복잡한 생성기보다, 더 맞는 물리 제약이 중요할 수 있다.

3. 사후 보정보다 학습 단계 제약이 낫다는 점을 보여줌

논문은 “생성 후 minimum-distance correction만 걸면 되지 않나?”라는 질문도 직접 다룬다.
결론은 다음에 가깝다.

  • post-hoc minimum distance correction은 collision을 없앨 수는 있다.
  • 하지만 binding affinity가 떨어질 수 있다.
  • 따라서 처음부터 물리적으로 그럴듯한 구조를 생성하도록 학습하는 것 이 더 낫다.

이 부분은 블로그에서 꼭 강조할 만한 포인트다.


용어를 아주 짧게 정리하면

용어
van der Waals radius 원자가 차지하는 유효한 공간 크기
manifold 원자/분자 표면 경계를 나타내는 기하적 표현
mesh point manifold를 계산 가능한 점들로 쪼갠 것
PLCR ligand–protein 원자쌍 중 collision 비율
Vina Score / Dock docking 기반 결합 친화도 proxy, 낮을수록 좋음

주의: Vina 계열 점수는 실험적 binding affinity 자체가 아니라 계산적 proxy 이다.
이 논문도 주로 computational benchmark 기준으로 성능을 비교한다.


결과 요약: 숫자로 보면 무엇이 좋아졌나

CrossDocked2020에서의 핵심 결과

지표 TargetDiff NucleusDiff 해석
PLCR (Step-1000) 65 / 2,300,930 0 / 2,300,930 최종 step에서 collision 거의 제거
Vina Score 평균 -5.01 -6.12 더 낮아서 더 좋음
Vina Dock 평균 -7.62 -7.90 docking affinity 개선
High Affinity 평균 56.3% 60.1% 높은 친화도 분자 비율 증가
Diversity 평균 0.71 0.74 다양성도 소폭 개선

 

논문 본문은 CrossDocked2020 기준으로 TargetDiff 대비 Vina Score가 22.16% 개선 되었고, collision 감소 폭은 최대 100% 에 달한다고 요약한다.

COVID-19 3CL target에서의 핵심 결과

지표 TargetDiff NucleusDiff 해석
PLCR (Step-1000) 5 / 210,000 3 / 210,000 최종 step에서도 더 낮음
Vina Score 평균 -4.82 -5.85 친화도 개선
Vina Min 평균 -5.61 -6.21 개선
Vina Dock 평균 -6.39 -6.74 개선
High Affinity 평균 50.5% 70.0% 큰 폭 개선

 

논문은 이 case study에서 TargetDiff 대비 Vina Score가 21.37% 개선 되었고, collision 감소는 최대 66.7% 라고 보고한다.

균형 있게 보면

NucleusDiff가 모든 metric에서 최고 는 아니다.

  • QED, SA 같은 지표는 다른 baseline이 더 높은 경우가 있다.
  • 즉, 이 논문의 강점은 “모든 drug-likeness 지표를 다 이긴다”가 아니라,
  • collision을 줄이면서 affinity를 개선하는 물리적 생성 에 있다.

이 균형을 같이 적어두면 블로그 글의 신뢰도가 올라간다.


Figure 해설

Figure 1. NucleusDiff가 배우는 대상: “원자 좌표”가 아니라 “원자 + 경계”

 

 

출처: 논문 Figure 1 (p.2)에서 깔끔하게 crop.

이 figure에서 봐야 할 포인트

  • A: 원자는 핵 하나로 끝나는 점이 아니라, 주위에 전자구름과 공간 경계를 가진다.
  • B: 분자 전체로 가면 각 원자의 경계가 합쳐져 하나의 표면처럼 보인다.
  • C: 이 경계를 계산하기 위해 mesh point로 이산화한다.
  • D: NucleusDiff는 원자핵과 mesh point를 함께 diffusion/denoise한다.

블로그용 해석 한 줄

기존 모델이 “원자 위치”만 배웠다면, NucleusDiff는 “원자가 차지해야 할 공간”까지 같이 배운다.


Figure 2-A. 실제 collision 시각화

 

출처: 논문 Figure 2A (p.3) crop.

위 행은 TargetDiff, 아래 행은 NucleusDiff 결과다.
TargetDiff 쪽은 분홍 점선으로 표시된 부분에서 pocket과 ligand가 너무 가깝게 겹치는 장면 이 보인다.
반면 NucleusDiff는 같은 종류의 심한 겹침이 눈에 띄게 줄어든다.

여기서 전달할 메시지

  • 이 논문은 단순히 docking score만 비교한 것이 아니라,
  • 실제로 3D 구조가 덜 부딪히는지 를 시각적으로도 보여준다.

Figure 2-B/C. Diffusion step이 진행될수록 collision은 어떻게 줄어드나

CrossDocked2020

COVID-19 target

 

출처: 논문 Figure 2B, 2C (p.3) crop.

두 그래프 모두 중요한 메시지는 같다.

  • step이 진행될수록 두 모델 모두 collision이 줄어든다.
  • 하지만 NucleusDiff가 더 빠르고 더 낮게 떨어진다.
  • 특히 CrossDocked2020에서는 후반 step에서 거의 바닥 수준으로 수렴한다.

블로그에서 이렇게 정리하면 좋다

NucleusDiff의 장점은 “마지막 결과만 조금 좋은 것”이 아니라, denoising 과정 전체가 더 물리적으로 정돈된 방향으로 수렴 한다는 점이다.


Figure 2-D. Collision만 줄인 것이 아니라 affinity도 좋아졌다

 

출처: 논문 Figure 2D (p.3) crop.

이 막대그래프는 두 가지를 함께 보여준다.

  • Vina Dock 평균: 낮을수록 좋음
  • High Affinity 평균 비율: 높을수록 좋음

논문의 메시지는 분명하다.

  • 단순히 collision을 줄인다고 성능이 희생된 것이 아니라,
  • binding affinity 관점에서도 이득 이 있었다.

즉, 이 논문은 “물리 제약을 걸면 생성이 보수적으로 변해서 성능이 떨어지지 않을까?”라는 우려에 대해,
적어도 이 benchmark에서는 그렇지 않았다 고 답한다.


Figure 3. 실제 pocket 예시에서 보면 무엇이 보이나

 

출처: 논문 Figure 3 (p.7) crop.

이 figure는 여러 pocket에서

  • reference ligand
  • TargetDiff가 생성한 ligand
  • NucleusDiff가 생성한 ligand

를 나란히 보여준다.

이 그림에서 중요한 관찰

  1. NucleusDiff는 manifold까지 시각화한다.
    즉, 단순한 “원자 점 구름”이 아니라, ligand가 실제로 공간을 어떻게 차지하는지까지 보여준다.
  2. 여러 예시에서 Vina Score가 더 좋다.
    예를 들어 COVID-19 예시에서는:
    • Reference: -6.47
    • TargetDiff: -7.46
    • NucleusDiff: -8.98
  3. 구조가 reference와 똑같아야 좋은 것이 아니다.
    생성 모델의 목적은 reference ligand를 복제하는 것이 아니라,
    pocket 안에서 더 좋은 대안 구조를 찾는 것 이다.

이 논문에서 특히 인상적인 포인트

1) “원자 충돌”을 메인 문제로 전면화했다

많은 생성 논문이 novelty/diversity/affinity에 집중하는 반면,
이 논문은 물리적으로 말이 되는가 를 정면으로 다룬다.

2) hard constraint보다 soft learned constraint가 낫다는 메시지

논문 후반부에서는 minimum-distance post-correction도 실험한다.
결과적으로 collision은 없앨 수 있었지만, binding affinity가 떨어지는 경향이 관찰된다.

즉, 이 논문이 말하는 것은:

생성 후 억지로 고치는 것보다, 학습 자체가 물리 법칙을 이해하도록 만드는 편이 낫다.

3) mesh는 학습용 보조 수단이라 실용성이 있다

“이렇게 surface까지 다루면 inference가 무거운 것 아닌가?”라는 질문에 대해,
논문은 mesh를 주로 학습 단계의 보조 구조 로 사용한다.
이 점은 실제 적용 관점에서 꽤 실용적이다.


논문을 비판적으로 보면

이 논문은 분명 흥미롭지만, 같이 적어두면 좋은 한계도 있다.

1. Protein manifold는 아직 직접 다루지 않는다

논문이 직접 밝힌 한계다. 현재는 ligand manifold 중심이다.
향후에는 ligand–protein 양쪽 manifold를 함께 다루는 방향이 자연스럽다.

2. Continuous manifold를 discretized mesh로 근사한다

현실의 표면은 연속적이지만, 모델은 triangle mesh point로 근사한다.
즉, 표현력이 좋아졌지만 여전히 근사다.

3. 평가는 computational benchmark 중심이다

주요 평가는 docking score, QED, SA, Diversity, collision metric이다.
실제 합성 가능성이나 wet-lab validation까지 포함한 논문은 아니다.


강조 문장

리드 문장 후보

기존 분자 생성 모델은 원자 좌표를 잘 맞추는 데 집중했지만, 실제 원자가 차지하는 공간까지는 충분히 고려하지 못했다. NucleusDiff는 원자핵과 주변 manifold를 함께 학습해, 더 물리적으로 그럴듯한 ligand를 만들려는 시도다.

포인트

  • 원자 충돌은 “작은 디테일”이 아니라 생성 구조의 물리적 타당성과 직결되는 문제다.
  • NucleusDiff의 핵심은 더 복잡한 backbone이 아니라, 더 적절한 geometric prior다.
  • 사후 보정으로 collision을 없애는 것보다, 처음부터 collision이 적은 구조를 생성하도록 학습하는 것이 더 낫다.

한 문장 결론

NucleusDiff는 구조 기반 신약 설계에서 “원자 위치 생성”을 “원자 + 공간 경계 생성”으로 확장함으로써, collision을 줄이고 affinity를 끌어올린 논문이다.


참고 정보

  • 본 정리는 업로드된 논문 PDF를 바탕으로 작성
  • figure는 원문 PDF에서 캡션/본문을 제외하고 figure 영역만 주의해서 crop
  • 수치 인용의 핵심 출처
    • Figure 1: p.2
    • Figure 2: p.3
    • Table 1: p.5
    • Table 2: p.6
    • Table 3 / Figure 3: p.7
    • Table 4, Table 5: p.8

원문 서지 정보

Liu et al. (2025), Manifold-constrained nucleus-level denoising diffusion model for structure-based drug design, PNAS.