ProteinMPNN: 논문 정리

한 줄 요약

ProteinMPNN은 단백질의 3차원 골격(backbone)만 보고 그 구조에 맞는 아미노산 서열을 설계하는 모델이다. 핵심은 빠른 속도, 다중 체인과 대칭 설계 지원, 그리고 실제 실험에서의 높은 구조 재현성이다.

핵심 숫자

native backbone sequence recovery: 52.4%
Rosetta recovery: 32.9%
100-residue 설계 시간: 1.2초
Rosetta 시간: 4.3분
AlphaFold 기반 실패 설계의 용해성 발현 수율 중앙값: 9 mg/L → 247 mg/L

이 논문이 푸는 문제

단백질 설계의 기본 문제는 단순하다.
원하는 backbone, 즉 단백질의 주사슬 골격이 있을 때 그 구조로 실제 접힐 서열을 찾는 것이다.

하지만 현실은 어렵다.

backbone은 좋아 보여도 서열이 그 구조를 충분히 지지하지 못할 수 있다.
발현은 되지만 불용성일 수 있다.
원하는 조립체 대신 다른 상태로 뭉칠 수 있다.
기존 Rosetta 기반 방법은 강력하지만 느리고, 설계 문제마다 손조정이 많이 필요했다.

이 논문은 질문을 바꾼다.

에너지 탐색을 매번 다시 하기보다, 구조와 서열의 관계 자체를 학습해 바로 서열을 설계할 수 있는가.

ProteinMPNN의 핵심 아이디어

ProteinMPNN은 backbone을 그래프로 읽는 그래프 신경망이다.
각 위치는 주변 잔기들과의 3차원 관계 속에서 해석된다.

직관적으로 보면 이렇다.

backbone 원자 사이의 거리 정보를 입력으로 쓴다.
각 잔기가 주변 이웃과 어떤 공간 관계를 가지는지 읽는다.
이미 정해진 서열 정보를 문맥으로 삼아 다음 위치를 채운다.
이때 채우는 순서를 N말단에서 C말단으로 고정하지 않는다.

이 마지막 요소가 중요하다.

고정 순서 대신 임의 순서로 채울 수 있으면 다음이 가능해진다.

일부 잔기는 고정하고 나머지만 다시 설계할 수 있다.
표적 결합 모티프는 유지하고 구조 틀(scaffold)만 손볼 수 있다.
대칭 복합체에서는 여러 체인의 대응 위치를 같은 아미노산으로 묶을 수 있다.
반복 단백질, 동종 복합체(homo-oligomer), 이종 복합체(heteromer), 인터페이스 설계까지 같은 틀로 다룰 수 있다.

아래 그림은 이 모델의 범용성이 어디서 나오는지를 가장 명확하게 보여준다.

주목 포인트: B와 C는 "알고 있는 서열은 먼저 고정하고, 대칭 위치는 함께 결정한다"는 전략이 ProteinMPNN의 실전 활용성을 만든다는 점을 보여준다.

성능은 얼마나 좋아졌나

가장 먼저 볼 숫자는 recovery와 속도다.

지표	ProteinMPNN	Rosetta
native backbone sequence recovery	52.4%	32.9%
100-residue 설계 시간	1.2초	4.3분

여기서 sequence recovery는 자연 단백질의 backbone이 주어졌을 때, 원래 서열을 얼마나 잘 맞히는지를 보는 지표다. 완전한 성공 지표는 아니지만, backbone-서열 적합성을 비교하기에는 유용하다.

추가로 논문은 다음도 보여준다.

단량체, 동종 복합체, 이종 복합체에서 median recovery가 각각 52%, 55%, 51%였다.
성능 향상은 특정 위치 몇 개에만 국한되지 않았다.
내부 잔기부터 표면 잔기까지 전반적으로 우세했다.
대칭 복합체에서는 대응 위치의 예측을 묶는 방식이 가장 잘 작동했다.

주목 포인트: A는 Rosetta 대비 전반적 우위를, C와 D는 recovery 하나만 높다고 끝이 아니라 "강하게 접히는 서열"과 "다양한 서열" 사이의 균형이 중요하다는 점을 보여준다.

왜 학습 때 backbone에 노이즈를 넣었나

이 논문의 좋은 점은 recovery만 극대화하지 않았다는 데 있다.

실전 설계에서는 backbone 좌표가 원자 단위로 완벽하지 않을 때가 많다.
예측 모델이 만든 구조나 설계 중간 산물은 특히 그렇다.

그래서 저자들은 학습 때 backbone 좌표를 조금 흔들었다.

이 선택의 의미는 직관적이다.

좌표를 약간 흔들면 모델은 아주 미세한 원자 배치에 덜 집착한다.
대신 전체적인 접힘 패턴을 더 중요하게 본다.
완벽한 PDB backbone에서는 원래 서열과의 정확한 일치율이 다소 낮아질 수 있다.
하지만 실제 설계에서는 목표 구조를 더 강하게 부호화한 서열을 얻을 수 있다.

논문은 이 효과를 AlphaFold 단일 서열 예측으로 확인했다.

노이즈를 넣어 학습한 모델은 목표 구조를 더 자신 있게 재현하는 서열을 더 자주 만들었다.
특히 어느 정도 노이즈를 준 모델은 높은 구조 일치도를 보이는 서열을 2-3배 더 많이 만들었다.
샘플링 온도, 즉 무작위성의 정도를 높이면 recovery는 조금 떨어지지만 서열 다양성은 크게 늘었다.

즉, 이 모델은 정답 하나를 찾는 도구라기보다 실험해볼 만한 후보군을 빠르게 넓게 제안하는 도구에 가깝다.

실제 실험에서도 통했나

이 논문의 설득력은 계산 결과보다 실험 결과에서 더 분명해진다.
저자들은 기존에 실패했던 설계들을 같은 backbone 위에서 ProteinMPNN으로 다시 설계했다.

대표 결과는 다음과 같다.

AlphaFold 기반으로 생성한 단량체와 올리고머 backbone에서 기존 서열은 대부분 불용성이었다.
ProteinMPNN으로 재설계하자 용해성 발현 수율 중앙값이 9 mg/L에서 247 mg/L로 크게 상승했다.
96개 설계 중 73개가 용해성으로 발현됐다.
이 중 50개는 기대한 단량체 또는 올리고머 상태를 보였다.
여러 설계는 95°C에서도 2차 구조를 유지할 정도로 안정했다.
한 monomer 설계의 X-ray 구조는 목표 backbone과 2.35 Å 수준으로 가깝게 일치했다.

범위도 넓었다.

반복 단백질 설계에서 기존 Rosetta 실패 사례를 구조적으로 복구했다.
cyclic oligomer에서도 Rosetta보다 높은 성공률을 보였다.
repeat 대칭과 cyclic 대칭을 동시에 강제한 경우, Rosetta 세트는 40%만 soluble했고 올바른 조립 상태는 0%였다. ProteinMPNN 세트는 88%가 soluble했고 27.7%가 올바른 조립 상태를 보였다.
two-component tetrahedral nanoparticle 76개 중 13개는 기대한 약 1 MDa 조립체를 형성했다.
이 중 한 설계의 결정 구조는 디자인 모델과 1.2 Å 수준으로 가깝게 맞았다.

주목 포인트: A의 발현 수율 개선과 D/K의 구조 일치는 "계산상 그럴듯함"이 실제 단백질 생산과 구조 재현으로 이어졌다는 사실을 압축해서 보여준다.

기능성 단백질 설계에도 적용됐다

마지막 검증은 더 어렵다.
단순히 접히는 단백질이 아니라, 표적에 실제로 결합하는 기능성 단백질을 설계할 수 있는지를 본다.

저자들은 Grb2 SH3 도메인이 인식하는 proline-rich peptide motif를 안정적으로 지지하는 scaffold를 만들었다.

핵심 결과는 명확하다.

같은 backbone에서 Rosetta로 만든 서열은 제대로 작동하지 않았다.
ProteinMPNN으로 다시 설계한 서열은 강한 결합 신호를 보였다.
결합에 중요하다고 본 두 위치를 돌연변이로 바꾸자 신호가 크게 줄었다.

이 결과의 의미는 크다.
모델이 단순히 접힐 서열을 고른 것이 아니라, 기능을 만드는 배치까지 어느 정도 보존했다는 뜻이기 때문이다.

주목 포인트: 오른쪽 결합 곡선 비교는 ProteinMPNN 재설계가 실제 표적 결합을 끌어올리고, 대조 돌연변이는 그 결합이 설계 의도와 직접 연결돼 있음을 보여준다.

이 논문의 핵심 기여

정리하면 기여는 네 가지다.

고정 backbone 서열 설계의 표준 선택지를 바꿨다.
Rosetta를 보완하는 수준을 넘어서, 기본 엔진으로 쓸 수 있는 성능을 보였다.
랜덤 디코딩 순서를 실전 기능으로 연결했다.
부분 고정, 대칭 설계, 인터페이스 설계가 자연스럽게 가능해졌다.
정확한 복원보다 robust design이 더 중요하다는 점을 보여줬다.
실제 folding 가능성과 실험 성공은 recovery 하나로 판단할 수 없음을 분명히 했다.
계산과 실험을 끊지 않았다.
결정구조, cryoEM, 발현, SEC, 결합 실험까지 연결해 설계 성공을 검증했다.

한계와 해석 포인트

과도한 일반화는 피할 필요가 있다.

이 모델은 주어진 backbone에서 서열을 설계한다. backbone 자체를 생성하는 모델은 아니다.
sequence recovery는 편리한 지표지만 folding success와 동일하지 않다.
AlphaFold 단일 서열 예측은 강력한 보조 지표지만 여전히 간접 평가다.
제공된 PDF는 bioRxiv preprint 버전이다.

그럼에도 실무적 의미는 분명하다.
ProteinMPNN은 단백질 서열 설계를 느리고 수작업이 많은 탐색에서, 빠르고 반복 가능한 설계 파이프라인으로 옮겨놓은 논문이다.

Source

J. Dauparas et al. Robust deep learning based protein sequence design using ProteinMPNN. bioRxiv preprint, 2022. https://doi.org/10.1101/2022.06.03.494563
ProteinMPNN code: https://github.com/dauparas/ProteinMPNN

'AI 생성 글 정리 > bio' 카테고리의 다른 글

Novae 논문 정리 (0)	2026.04.26
Generative design of novel bacteriophages with genome language models 논문 정리 (0)	2026.04.26
Charting the virosphere: computational synergies of AI and bioinformatics in viral discovery and evolution 논문 정리 (0)	2026.04.08
Predicting genetic evolution of viruses to identify suitable vaccines using artificial intelligence 정리 (0)	2026.04.07
Predicting pathogen evolution and immune evasion in the age of artificial intelligence 정리 (0)	2026.04.07

Honbul과 컴퓨터

ProteinMPNN: 논문 정리

한 줄 요약

핵심 숫자

이 논문이 푸는 문제

ProteinMPNN의 핵심 아이디어

성능은 얼마나 좋아졌나

왜 학습 때 backbone에 노이즈를 넣었나

실제 실험에서도 통했나

기능성 단백질 설계에도 적용됐다

이 논문의 핵심 기여

한계와 해석 포인트

Source

'AI 생성 글 정리 > bio' 카테고리의 다른 글

티스토리툴바

ProteinMPNN: 논문 정리

한 줄 요약

핵심 숫자

이 논문이 푸는 문제

ProteinMPNN의 핵심 아이디어

성능은 얼마나 좋아졌나

왜 학습 때 backbone에 노이즈를 넣었나

실제 실험에서도 통했나

기능성 단백질 설계에도 적용됐다

이 논문의 핵심 기여

한계와 해석 포인트

Source

'AI 생성 글 정리 > bio' 카테고리의 다른 글

관련글

티스토리툴바