본문 바로가기
AI 생성 글 정리/bio

Boltz-2 논문 핵심 정리

by Honbul 2026. 4. 1.

논문명: Boltz-2: Towards Accurate and Efficient Binding Affinity Prediction
저자: Saro Passaro, Gabriele Corso, Jeremy Wohlwend 외
출처: bioRxiv preprint (2025)
라이선스: 원문 및 원문 figure는 CC BY 4.0. 아래 figure는 원문에서 핵심 영역만 다시 crop한 버전입니다.
용도: 블로그/스터디용 요약 초안

이 문서는 논문이 무엇을 주장하는지, 왜 중요한지, 어디까지 믿어야 하는지를 빠르게 파악할 수 있도록 정리한 글입니다.
핵심 수치와 해석은 모두 논문 본문/부록의 reported result 기준이며, 별도 실험 검증을 수행한 것은 아닙니다.


1. 세 줄 요약

  1. Boltz-2의 핵심 차별점은 “구조 예측”을 넘어 “결합 친화도(binding affinity)”까지 직접 예측하려는 점입니다.
  2. 논문은 public benchmark에서 Boltz-2가 FEP 계열 정확도에 근접하면서도 계산량은 훨씬 적다고 보고합니다.
  3. 다만 이 논문의 가장 중요한 기여는 단순히 모델 구조가 아니라, 매우 공격적인 데이터 큐레이션 + 구조 representation을 affinity 문제로 연결한 학습 설계에 있습니다.

2. 왜 이 논문이 중요한가

약물 설계에서 진짜 어려운 질문은 “이 리간드가 어디에 붙는가?”보다도 “얼마나 세게 붙는가?” 입니다.
구조를 맞추는 모델은 이미 많이 나왔지만, affinity ranking은 여전히 어려웠습니다.

기존 방법의 대략적인 trade-off는 다음과 같습니다.

  • Docking / scoring: 빠르지만 신뢰도가 낮은 편
  • FEP / ABFE: 정확하지만 매우 느리고 비쌈
  • 기존 AI affinity model: 빠르지만 FEP에 비해 정확도 부족

Boltz-2는 바로 이 틈새를 겨냥합니다.
즉, “FEP까지는 아니더라도, 실무에서 충분히 쓸 만한 affinity signal을 아주 빠르게 줄 수 있는가?” 라는 질문에 대한 강한 답변을 시도한 논문입니다.


3. 이 논문에서 진짜 새로워 보이는 포인트

3-1. structure confidence를 affinity proxy로 쓰지 않고, affinity module을 별도로 만든다

이 논문이 흥미로운 이유는 ipTM 같은 구조 confidence를 그냥 affinity 점수처럼 재활용하지 않았다는 점입니다.
실제로 논문 수치를 보면 Boltz-2 iptm baseline은 affinity benchmark에서 성능이 매우 낮습니다.
즉, “구조 confidence가 높다 = 결합 친화도가 높다”는 단순 가정은 잘 안 먹힌다는 메시지가 강합니다.

3-2. 성능 향상의 큰 축은 모델보다 데이터 큐레이션이다

논문은 PubChem, ChEMBL, BindingDB 등에서 모은 방대한 assay 데이터를 그대로 쓰지 않고,

  • 고품질 assay만 남기고
  • binary / continuous label을 분리해 다루고
  • synthetic decoy를 생성하고
  • intra-assay difference loss를 활용해 assay 간 noise를 줄이는

식으로 데이터를 affinity 학습에 맞게 강하게 재구성합니다.
이 부분이 사실상 논문의 핵심 engineering입니다.

3-3. structure model의 representation을 affinity 문제에 연결한다

Boltz-2는 affinity를 완전히 별도 모델로 보는 대신, co-folding 과정에서 얻은 pair representation과 예측 좌표를 affinity head의 입력으로 사용합니다.
즉, 구조 예측이 잘 되면 affinity도 좋아진다는 직관을, interface representation learning으로 연결한 셈입니다.

3-4. “scoring model”에서 끝나지 않고 generative loop까지 연결한다

SynFlowNet과 결합해서 score → 후보 생성 → 재스코어링 loop를 구성합니다.
이 덕분에 논문은 단순 benchmark 논문을 넘어, 실제 virtual screening / de novo design pipeline까지 보여줍니다.


4. 논문이 실제로 한 일

4-1. 데이터

논문은 구조 데이터와 affinity 데이터를 함께 사용합니다.

무엇을 썼나 핵심 포인트
구조 데이터 PDB + MD ensemble(MISATO, ATLAS, mdCATH) + AF2/Boltz-1 distillation 정적 구조뿐 아니라 dynamic ensemble까지 반영
affinity 값 ChEMBL / BindingDB / PubChem의 Ki, Kd, IC50, AC50, EC50, XC50 등 값 자체보다 assay 내 상대 차이를 더 잘 배우게 설계
binary 데이터 PubChem HTS, CeMM fragments, MIDAS, synthetic decoy hit discovery용 binder/decoy discrimination 강화

특히 continuous affinity는 서로 실험 조건이 다른 값이 섞여 있기 때문에,
논문도 이 값을 엄밀한 단일 물리량이라기보다 generalized IC50-like binding strength에 가까운 값으로 해석해야 한다고 설명합니다.

4-2. 아키텍처

Boltz-2는 크게 네 부분으로 생각하면 됩니다.

  1. Trunk: biomolecular complex representation 학습
  2. Denoising / structure module: 구조 생성
  3. Confidence module: 구조 confidence 예측
  4. Affinity module:
    • binding likelihood
    • affinity value를 예측

 

 

Figure 2. Boltz-2 모델 구조. trunk–structure–confidence–affinity가 분리되어 있으며, affinity head가 구조 representation 위에 올라간다. Source: Figure 2 from the paper, cropped from p.4, CC BY 4.0.

이 구조에서 중요한 점은 affinity training이 structure training 이후에 분리되어 진행된다는 점입니다.
논문은 affinity 학습 시 trunk gradient를 끊고(detach), pocket crop과 assay-aware sampling을 적용합니다.

4-3. controllability

구조 쪽에서도 Boltz-2는 단순 성능 개선만 한 것이 아니라, 다음 control 기능을 넣습니다.

  • experimental method conditioning: X-ray / NMR / MD 같은 방법 조건
  • template conditioning + steering: multimeric template 활용
  • contact / pocket conditioning: 거리 제약을 직접 줄 수 있음

이건 구조 생물학 실사용 측면에서 꽤 중요한 변화입니다.
즉, “그냥 예측해줘”가 아니라 “이 제약을 반영해서 예측해줘”가 가능해집니다.


5. 가장 중요한 figure로 보는 핵심 결과

5-1. Boltz-2의 headline claim: “FEP급에 근접하지만 훨씬 빠르다”

 

 

Figure 1. affinity prediction에서의 speed/accuracy trade-off. 별표로 표시된 Boltz-2가 physics 방법들에 가까운 correlation을 훨씬 짧은 시간에 달성한다고 논문은 주장한다. Source: Figure 1 from the paper, cropped from p.2, CC BY 4.0.

이 figure는 논문 전체를 가장 잘 요약합니다.

  • x축: 시간(log scale)
  • y축: Pearson correlation
  • Boltz-2는 약 20초 수준 inference에서
  • OpenFE, ABFE, FEP+에 가까운 correlation에 접근합니다.

논문 표 기준으로 보면, FEP+ 4-target subset에서:

  • Boltz-2: Pearson 0.66, 약 20 GPU sec
  • OpenFE: Pearson 0.66, 약 6–12 GPU hours
  • ABFE: Pearson 0.75, 약 20+ GPU hours
  • FEP+: Pearson 0.78
  • Chemgauss4 docking: Pearson 0.26
  • MM/PBSA: Pearson 0.18

이 수치가 말하는 바는 분명합니다.
Boltz-2는 FEP를 완전히 이겼다고 보기 어렵지만, “실무에서 먼저 돌려볼 수 있는 고성능 affinity prior”로는 매우 강력하다는 것입니다.


5-2. 구조 예측 성능은 “대폭 도약”보다는 “Boltz-1 대비 안정적 개선”

 

 

Figure 3. 다양한 unseen complex에서의 구조 예측 비교. Source: Figure 3 from the paper, cropped from p.7, CC BY 4.0.

논문이 affinity headline을 전면에 내세우지만, 구조 예측도 분명히 개선됩니다.
다만 해석은 과장하면 안 됩니다.

논문 서술을 그대로 옮기면:

  • Boltz-2는 Boltz-1보다 전반적으로 비슷하거나 조금 더 좋다
  • RNA, DNA-protein 같은 일부 modality에서 개선이 크다
  • Chai-1, ProteinX보다는 경쟁력 있게 나오지만
  • AlphaFold3보다 약간 뒤처지는 구간도 있다

즉, 구조 측면에서는 “판을 완전히 뒤집는 새 SOTA”라기보다, open Boltz 계열의 탄탄한 업그레이드로 보는 편이 맞습니다.


5-3. 어려운 구조 문제에서는 gap을 줄였지만, AlphaFold3와의 격차가 완전히 사라진 것은 아니다

 

 

Figure 4. 좌측은 challenging antibody benchmark, 우측은 Polaris-ASAP ligand pose competition retrospective result. Source: Figure 4 from the paper, cropped from p.8, CC BY 4.0.

좌측 antibody benchmark는 의미가 큽니다.
항체-항원 구조 예측은 여전히 어려운 영역인데, Boltz-2는 여기서 Boltz-1 대비 개선을 보여줍니다.
하지만 여전히 AlphaFold3와의 차이를 완전히 없애지는 못합니다.

반면 우측 Polaris-ASAP retrospective 결과는 더 공격적인 메시지를 줍니다.
Boltz-2는 fine-tuning이나 physics relaxation 없이도 상위권 경쟁 결과에 근접합니다.
즉, ligand pose 측면에서는 기본 모델만으로도 꽤 강한 실용성을 보여줍니다.


5-4. local dynamics도 다룬다: MD conditioning은 gimmick이 아니라 실제로 분포를 바꾼다

 

 

Figure 5. mdCATH / ATLAS holdout에서의 local dynamics 비교. 막대 색은 논문 기준으로 Boltz-2 X-ray, Boltz-2 MD, Boltz-1, BioEmu, AlphaFlow, Reference를 뜻한다. Source: Figure 5 from the paper, cropped from p.8, CC BY 4.0.

이 부분은 headline만큼 많이 회자되지는 않지만, 꽤 중요합니다.

논문 메시지는 다음과 같습니다.

  • MD conditioning을 주면 샘플 다양성이 실제로 올라간다
  • RMSF correlation 기준으로는 BioEmu / AlphaFlow 같은 specialized model과 경쟁 가능하다
  • 다만 diversity 자체는 여전히 전문 ensemble model이 더 잘 맞출 수 있다

즉, Boltz-2는 단순히 “정답 구조 하나”만 맞추는 모델이 아니라,
“조건에 따라 conformational ensemble을 어느 정도 반영할 수 있는 구조 모델” 쪽으로 확장되고 있습니다.


5-5. affinity benchmark에서 논문의 핵심 메시지가 가장 선명하게 드러난다

 

 

Figure 6. 공개 affinity benchmark 종합 비교. Source: Figure 6 from the paper, cropped from p.9, CC BY 4.0.

이 figure가 가장 중요합니다.

핵심 수치

  • FEP+ 4 targets
    • Boltz-2: 0.66
    • OpenFE: 0.66
    • ABFE: 0.75
    • FEP+: 0.78
  • CASP16 affinity challenge
    • Boltz-2: 0.65
    • top participant(LG016): 0.54

여기서 읽어야 할 핵심은 두 가지입니다.

첫째, Boltz-2는 “저렴한 ML baseline” 수준을 이미 넘어섰다.
GAT/BACPI처럼 sequence/ligand 위주의 baseline보다 분명히 강합니다.

둘째, Boltz-2는 FEP를 완전히 대체했다기보다 “FEP를 돌릴 가치가 있는 후보를 빠르게 좁혀주는 모델”에 가깝다.
즉, 현실적인 workflow는 아마도 다음과 같습니다.

Boltz-2로 대규모 우선순위화 → 상위 후보만 physics / wet-lab 검증


5-6. hit discovery에서도 이점이 있다: 그냥 docking보다 훨씬 낫다

 

 

Figure 7. MF-PCBA test set에서 average precision과 enrichment 비교. Source: Figure 7 from the paper, cropped from p.10, CC BY 4.0.

MF-PCBA test set에서 논문 표(Table 13)는 다음처럼 보고합니다.

  • Boltz-2
    • AP: 0.0248
    • EF@0.5%: 18.39
    • AUROC: 0.8122
  • GAT
    • AP: 0.0133
  • BACPI
    • AP: 0.0131
  • Chemgauss4 docking
    • AP: 0.0051

absolute number만 보면 AP가 커 보이지 않을 수 있지만,
이런 극단적 class imbalance HTS에서는 enrichment가 훨씬 중요합니다.
여기서 Boltz-2는 상위 0.5%를 얼마나 잘 끌어올리느냐에서 강한 장점을 보입니다.


5-7. prospective TYK2 예시는 흥미롭지만, “실험 검증”으로 과장하면 안 된다

 

 

Figure 8. TYK2 virtual screening 결과. Source: Figure 8 from the paper, cropped from p.11, CC BY 4.0.

이 figure는 블로그에서 가장 조심해서 써야 하는 그림입니다.

좋은 뉴스:

  • Boltz-2 screen score와 ABFE readout 사이 상관이 |R| = 0.74
  • 논문 본문 기준으로
    • HLL top 10 중 8/10
    • Kinase library top 10 중 10/10
    • random 10은 0/10
      이 ABFE 기준 binder/non-binder로 갈린다고 보고합니다.
  • SynFlowNet generated sample이 평균적으로 더 좋은 후보를 제안했다고 주장합니다.

하지만 중요한 단서:

  • 이건 wet-lab binding assay validation이 아니라 ABFE simulation validation입니다.
  • 저자들도 이 결과가 optimistic할 수 있다고 적고 있습니다.
  • 즉, 이 figure는 “Boltz-2가 실제 discovery pipeline에 들어갈 수 있다”는 가능성을 보여주지만,
    “실험적으로 신약 후보를 증명했다”는 수준으로 읽으면 안 됩니다.

5-8. 논문은 결국 fixed library screening보다 한 단계 더 나아간다

 

 

Figure 9. fixed-library virtual screening과 generative virtual screening의 개념도. Source: Figure 9 from the paper, cropped from p.34, CC BY 4.0.

Figure 9는 이 논문의 응용 방향을 잘 보여줍니다.

  • A. Fixed-library virtual screen
    이미 존재하는 라이브러리를 Boltz-2로 고속 scoring
  • B. Generative virtual screen
    생성 모델(SynFlowNet)이 후보를 만들고, Boltz-2가 그 후보를 평가하며, 그 결과로 생성 모델이 다시 업데이트됨

즉, Boltz-2는 단순 score predictor가 아니라,
“생성-평가 loop의 reward model”로 쓸 수 있다는 것이 논문의 큰 그림입니다.


6. 핵심 해석 포인트

포인트 1. 이 논문의 핵심은 “FEP를 이겼다”가 아니라 “FEP에 접근하는 속도/정확도 지점을 찾았다”이다

Boltz-2는 FEP+나 ABFE를 완전히 넘어서지 않습니다.
대신 “이 정도 정확도를 이 정도 비용으로 낼 수 있다”는 실용적 지점을 제시합니다.

포인트 2. affinity 문제는 모델 구조보다 데이터 설계가 더 중요해 보인다

assay noise, qualifier(>, =), decoy 생성, pairwise difference loss 같은 부분이 성능의 상당 부분을 설명합니다.
즉, 이 논문은 architecture paper이면서 동시에 data curation paper입니다.

포인트 3. structure confidence만으로 affinity를 대신할 수 없다는 점을 보여준다

Boltz-2 iptm baseline이 낮게 나온 것은 꽤 강한 메시지입니다.
binding affinity는 “좋은 구조를 얻었다”만으로 해결되지 않는다는 뜻입니다.

포인트 4. 논문이 보여주는 prospect는 분명하지만, real-world variance도 크다

부록의 private benchmark에서 평균 Pearson R은 0.39이고, assay별 편차도 큽니다.
즉, public benchmark 성능 = 바로 모든 프로젝트에서 재현되는 성능은 아닙니다.


7. 이 논문의 한계와 읽을 때의 주의점

논문이 스스로 인정하는 한계를 정리하면 다음과 같습니다.

  1. 구조 예측은 개선됐지만, 구조 자체가 세대를 바꿀 정도의 도약은 아니다
    구조 측면에서는 Boltz-1 대비 꾸준한 개선에 가깝습니다.
  2. affinity head는 결국 예측된 3D 구조에 의존한다
    pocket을 잘못 찾거나 binding pose가 틀리면 affinity도 흔들릴 수밖에 없습니다.
  3. cofactor / water / ion / multimeric partner 처리가 제한적이다
    실제 생물학에서는 이런 요소들이 binding에 결정적일 수 있습니다.
  4. assay-to-assay variance가 매우 크다
    어떤 표적군에서는 잘 맞고, 어떤 곳에서는 약합니다.
  5. TYK2 prospective 결과는 ABFE 기반이다
    실험실 validation과 동일시하면 안 됩니다.

8. 숫자로만 보는 핵심 결과 요약

과제 Boltz-2 결과 비교 대상 해석
FEP+ 4-target subset Pearson 0.66 OpenFE 0.66, ABFE 0.75, FEP+ 0.78 FEP급에 근접, 비용은 훨씬 낮음
CASP16 affinity Pearson 0.65 top participant 0.54 blind benchmark에서도 강함
MF-PCBA AP 0.0248, EF@0.5% 18.39 GAT 0.0133, Chemgauss4 0.0051 hit discovery에서도 강함
Private assays Pearson 0.39 avg GAT 0.16, BACPI 0.11 public보다 어렵고 편차 큼
TYK2 prospective R 절대값 0.74 (screen score vs ABFE) random / library / generative stream 비교 실사용 가능성은 보이지만 ABFE 기준

9. 내 결론: 이 논문을 어떻게 이해하면 좋은가

제 해석을 한 문장으로 정리하면 이렇습니다.

Boltz-2는 “구조 예측 모델”을 “실제 약물 discovery에서 쓸 수 있는 fast affinity scorer”로 확장하려는 가장 설득력 있는 시도 중 하나다.

더 풀어 쓰면:

  • 구조 모델을 affinity 쪽으로 연결하는 방법이 이전보다 훨씬 설득력 있어졌고
  • benchmark 숫자도 충분히 인상적이며
  • virtual screening과 generation까지 연결한 그림도 좋습니다.

하지만 동시에:

  • 아직 FEP를 완전히 대체했다고 보기는 어렵고
  • assay variance가 크며
  • prospective 결과는 wet-lab이 아니라 ABFE라는 점에서
    “아주 강한 가능성”과 “아직 남아 있는 검증 거리”가 동시에 보이는 논문입니다.

그래서 이 논문은
“AI가 affinity prediction을 진짜 실무 문제로 다루기 시작했다”는 신호로 읽는 것이 가장 적절합니다.


10. 요약

Boltz-2는 AlphaFold 계열의 biomolecular structure model을 한 단계 확장해, 단순히 복합체 구조를 예측하는 데서 그치지 않고 작은 분자–단백질 결합 친화도까지 직접 예측하려는 foundation model이다. 이 논문의 핵심은 모델 구조 자체보다도, noisy한 assay 데이터를 affinity 학습에 맞게 재구성한 큐레이션 전략과, co-folding 과정에서 얻은 구조 representation을 affinity 문제로 연결한 설계에 있다. 공개 benchmark에서는 Boltz-2가 OpenFE에 근접하고 FEP 계열과도 비교 가능한 수준의 correlation을 보이면서 계산 비용은 훨씬 낮다고 보고되며, MF-PCBA와 TYK2 virtual screening 예시에서는 hit discovery와 de novo generation pipeline으로의 확장 가능성도 보여준다. 다만 저자들 역시 인정하듯 assay별 편차가 크고, TYK2 사례는 wet-lab이 아니라 ABFE 기반 검증이므로, 이 모델을 “FEP의 완전한 대체재”로 보기보다는 대규모 후보 우선순위화에 매우 강한 fast affinity prior로 이해하는 편이 정확하다.


11. 원문 인용 및 attribution

  • Passaro S., Corso G., Wohlwend J., et al. Boltz-2: Towards Accurate and Efficient Binding Affinity Prediction. bioRxiv preprint, 2025.
  • 본 문서의 수치와 해석은 원문 및 원문 부록의 reported result에 기반합니다.
  • 본 문서에 포함된 figure crop은 원문 figure의 핵심 영역만 발췌한 것으로, 블로그 게시 시에는 원문 링크와 저작자 표기를 함께 두는 것을 권장합니다.

'AI 생성 글 정리 > bio' 카테고리의 다른 글

Geneformer 논문 핵심 정리  (0) 2026.04.02
HyenaDNA 논문 핵심 정리  (0) 2026.04.02
CRISPR-GPT 논문 핵심 정리  (0) 2026.04.01
AlphaFold 3 논문 핵심 정리  (0) 2026.04.01
ChemCrow 논문 핵심 정리  (0) 2026.04.01