본문 바로가기
AI 생성 글 정리/bio

Predicting pathogen evolution and immune evasion in the age of artificial intelligence 정리

by Honbul 2026. 4. 7.

변이는 바이러스가 공중보건 개입을 우회하는 가장 빠른 경로 중 하나다. 문제는 대응의 타이밍이다. 지금까지는 대개 새 변이가 실제로 퍼진 다음에야 백신 조성, 치료제 전략, 감시 체계를 조정했다. 이 리뷰가 던지는 질문은 단순하지만 무겁다. 변이가 퍼진 뒤에 따라갈 것이 아니라, 퍼지기 전에 어떤 변이가 위험해질지 미리 짚을 수 없는가.

 

이 논문은 하나의 새 알고리즘을 제안하는 연구가 아니라, 팬데믹 동안 등장한 예측 프레임워크를 정리하고 서로의 강점과 한계를 비교하는 리뷰 논문이다. 중심 사례는 SARS-CoV-2이지만, 저자들이 강조하는 진짜 메시지는 더 넓다. 팬데믹 동안 폭발적으로 늘어난 서열 데이터, 딥 변이 스캔, 계통수 분석, 딥러닝, 단백질 언어모델이 결합되면, 바이러스 진화 예측은 사후 대응 도구가 아니라 사전 경보 체계에 가까워질 수 있다는 것이다.

 

 

Figure 1. 예측 파이프라인 개요. 원문 p.3, Figure 1. Hamelin et al. (2025), CC BY-NC-ND 4.0.

 

이 위치에 이 그림을 두는 이유: 글 전체의 구조를 한 장으로 먼저 보여주기 좋다. 이 리뷰가 말하는 핵심은 “좋은 모델” 하나가 아니라, 입력 데이터 - 모델 구조 - 공중보건 활용으로 이어지는 전체 파이프라인이다.

 

Crop 포인트 1 - 왼쪽의 Virus of Interest: 예측의 출발점이 특정 바이러스 하나라는 점을 보여준다. 추상적인 AI 이야기가 아니라, 실제로 감시해야 하는 병원체를 놓고 문제를 푼다는 의미다.

 

Crop 포인트 2 - 중앙 상단의 SequencingDeep Mutational Scans: 이 리뷰가 예측의 입력을 두 갈래로 본다는 점이 중요하다. 하나는 실제 유행을 따라가는 서열 데이터이고, 다른 하나는 변이가 단백질 기능과 면역 회피에 어떤 영향을 주는지 실험적으로 읽어내는 기능 데이터다. 즉, “무슨 변이가 생겼는가”와 “그 변이가 왜 중요한가”를 함께 봐야 한다.

 

Crop 포인트 3 - 오른쪽의 Phylogenetic methods, Deep learning, Protein language: 서로 다른 계산 전략이 한 문제를 향해 수렴한다는 점이 핵심이다. 어떤 방법은 실제 유행 데이터를 강하게 쓰고, 어떤 방법은 바이러스 패밀리 전체의 서열 문법을 배우며, 어떤 방법은 둘을 섞는다.

 

Crop 포인트 4 - 하단의 Var 1 ~ Var 5와 물음표가 붙은 회색 변이들: 예측의 목표가 이미 관찰된 계통을 정리하는 데서 끝나지 않고, 아직 널리 퍼지지 않은 후보 변이까지 미리 탐색하는 데 있다는 점을 시각적으로 보여준다.

 

Crop 포인트 5 - 오른쪽 아래 Informed Public Health Intervention: 예측의 종착점은 논문용 점수가 아니다. 백신 업데이트, 치료제 우선순위, 감시 강화, 위험 커뮤니케이션처럼 실제 의사결정으로 이어져야 한다는 메시지다.

왜 바이러스 진화 예측은 어려운가

저자들은 먼저 예측이 어려운 이유를 냉정하게 짚는다.첫째는 데이터의 편향이다. 나라별 시퀀싱 역량이 다르면 특정 지역의 변이는 과도하게 잘 보이고, 다른 지역의 변이는 늦게 포착된다. 둘째는 데이터의 부족이다. SARS-CoV-2처럼 예외적으로 데이터가 많은 바이러스는 드물다. 대부분의 병원체는 모델을 안정적으로 학습시킬 만큼 충분한 표본이 없다. 셋째는 진화 자체의 복잡성이다. 점진적으로 한두 개 변이가 쌓이는 경우는 비교적 다루기 쉽지만, 면역저하 환자 내부에서 장기간 진화하거나, 동물 숙주를 거치거나, 재조합으로 여러 변이가 한꺼번에 등장하는 경우는 훨씬 예측하기 어렵다.

 

핵심은 이것이다. 바이러스 진화는 단순히 “돌연변이가 많이 생기는가”의 문제가 아니라, 어떤 변이가 복제에 유리하고, 전파에 유리하고, 집단 수준에서 실제로 우세해지는가가 동시에 얽힌 문제다. 그래서 예측 모델도 분자생물학, 면역학, 역학, 사회적 행동 패턴까지 여러 층위를 함께 다뤄야 한다.

예측의 기준점은 ‘적합도’다

이 리뷰가 반복해서 강조하는 개념은 viral fitness, 즉 바이러스 적합도다. 다만 저자들은 적합도를 하나의 숫자로 단순화하지 않는다. 적합도는 최소한 세 층위로 나뉜다.

 

복제 적합도: 바이러스가 숙주 안에서 잘 복제되고 감염성 입자를 많이 만들어내는 능력이다. 단백질이 안정적으로 만들어지는가, 복제 기계가 효율적인가 같은 분자 수준의 문제가 여기에 들어간다.

 

전파 적합도: 바이러스가 숙주에서 숙주로 얼마나 잘 옮겨 가는가의 문제다. 세포 진입 능력, 항체 회피, 점막 환경 적응처럼 감염 성립과 전파 가능성에 가까운 요소가 중요해진다.

 

역학적 적합도: 여러 변이들이 함께 돌고 있는 집단에서 어떤 계통이 결국 우세종이 되는가를 뜻한다. 여기에는 바이러스 자체의 성질뿐 아니라 인구 이동, 면역 수준, 접촉 패턴, 지역별 유행 상황 같은 외부 요인도 크게 작용한다.

 

 

Figure 2. 바이러스 적합도와 선택 압력의 구조. 원문 p.4, Figure 2. Hamelin et al. (2025), CC BY-NC-ND 4.0.

 

이 위치에 이 그림을 두는 이유: 앞서 말한 ‘적합도’가 막연한 개념이 아니라, 실제 생물학적 과정으로 분해될 수 있음을 보여주기 좋다. 예측 모델이 무엇을 배우는지 이해하려면 이 그림이 필요하다.

 

Crop 포인트 1 - 위쪽 A 패널 전체: 왼쪽의 복제 적합도, 가운데 전파 적합도, 오른쪽 역학적 적합도를 한 번에 보여준다. 특히 오른쪽 패널은 개인 수준의 감염이 집단 수준 우세성으로 번역되는 과정을 상징한다. 즉, 실험실에서 유리한 변이가 곧바로 유행 우세종이 되는 것은 아니라는 점을 시사한다.

 

Crop 포인트 2 - 아래 왼쪽 Immune Recognition: 항체가 스파이크를 인식하는 장면은 면역 회피가 왜 핵심 선택 압력인지 직관적으로 보여준다. 백신이나 이전 감염으로 형성된 항체를 피해 갈 수 있는 변이는 전파 측면에서 큰 이점을 얻을 수 있다.

 

Crop 포인트 3 - 아래 가운데 Cell Entry: 스파이크와 ACE2 결합은 “세포 안으로 잘 들어가는가”라는 문제를 상징한다. SARS-CoV-2에서 수용체 결합력과 세포 진입 효율이 주요 진화 압력이었다는 설명과 연결된다.

 

Crop 포인트 4 - 아래 오른쪽 Viral Protein Expression: 단백질이 제대로 접히고 안정적으로 발현되는가는 겉보기엔 덜 주목받지만, 실제로는 복제 적합도의 바닥을 결정한다. 항체 회피에 유리한 변이라도 단백질 구조를 망가뜨리면 오래 살아남기 어렵다.

SARS-CoV-2에서 실제로 중요했던 선택 압력

저자들은 SARS-CoV-2를 사례로 들어 진화를 밀어붙인 대표 압력을 정리한다.

첫 번째는 세포 진입 효율이다. 스파이크 단백질의 수용체 결합 부위가 ACE2에 얼마나 잘 붙는지, 그리고 스파이크가 세포 진입에 필요한 절단 과정을 얼마나 잘 거치는지가 중요했다. Alpha 계열의 N501Y, P681H 같은 변이는 이런 경로의 중요성을 잘 보여주는 사례로 제시된다.

 

두 번째는 항체 회피다. Delta의 L452R, T478K, 그리고 Omicron 계열의 광범위한 스파이크 변이들은 단순히 “모양이 달라졌다”는 수준이 아니라, 기존 항체가 바이러스를 붙잡는 능력을 약화시키는 방향으로 작동했다. 저자들이 강조하는 포인트는 세포 진입과 항체 회피가 별개가 아니라는 점이다. 수용체 결합 부위를 바꾸는 변이는 종종 항체 인식 지형도 동시에 바꾼다.

 

세 번째는 복제 효율이다. 스파이크 바깥의 변이, 예를 들어 복제와 관련된 유전자 영역의 변화도 적합도에 영향을 준다. 그래서 진화 예측은 스파이크만 보면 끝나는 문제가 아니며, 전체 게놈 수준의 해석이 필요하다.

예측을 가능하게 만든 것은 결국 데이터다

이 리뷰에서 가장 설득력 있는 부분 중 하나는, AI의 발전보다 먼저 데이터 인프라의 전환을 강조한다는 점이다. 팬데믹 기간 동안 글로벌 게놈 감시와 데이터 공유 플랫폼은 사실상 바이러스 진화 예측의 토대를 만들었다. 저자들은 GISAID에 축적된 SARS-CoV-2 서열이 4년 동안 1,500만 건을 넘기며, 단일 바이러스에 대해 전례 없는 시공간적 기록을 제공했다고 짚는다.

 

하지만 서열만으로는 부족하다. 여기서 중요한 역할을 한 것이 Deep Mutational Scans, DMS다. 이 접근은 가능한 많은 변이를 한꺼번에 만들어 보고, 각각이 스파이크 발현, ACE2 결합, 항체 회피 같은 기능에 어떤 영향을 주는지 대량으로 읽어낸다. 쉽게 말해, 자연에서 아직 널리 퍼지지 않은 변이까지 포함해 변이의 기능 지도를 먼저 그려보는 작업이다.

 

이 조합이 중요하다. 감시 데이터는 “무슨 변이가 실제로 늘고 있는가”를 보여주고, DMS는 “그 변이가 왜 늘 수 있는가”를 설명한다. 리뷰 전체를 관통하는 주장은 바로 이 두 축이 함께 있어야 예측이 현실적인 힘을 갖는다는 점이다.

핵심 방법론은 세 갈래로 정리된다

1) 계통수와 통계 모델

이 계열은 팬데믹 중에 실제로 관측된 서열의 시간 흐름을 따라가며, 어떤 변이가 자주 반복해서 늘어나는지 본다. 강점은 현실 적합도, 특히 역학적 적합도에 가깝다는 점이다. 실제 유행 속에서 살아남은 계통의 확장 패턴을 직접 본다는 뜻이기 때문이다.

 

PyR0 같은 모델은 변이 빈도의 성장 곡선을 따라가며 어떤 변이가 계통 확장에 기여했는지 추정한다. 이런 방법은 반복적으로 독립적으로 나타나는 유리한 변이, 즉 수렴 진화를 잘 잡아낸다. 다만 약점도 분명하다. 충분히 많은 바이러스 특이적 데이터가 있어야 하고, 그래서 팬데믹 초반 신종 바이러스에는 상대적으로 약하다.

 

Bloom 연구팀의 2024년 접근은 여기서 한 걸음 더 나간다. 단순히 “많이 보였다”가 아니라, 중립적으로 기대되는 돌연변이 발생량과 실제 계통수에서 관측된 발생량을 비교해 각 변이의 효과를 더 정교하게 추정한다. 이 방식은 데이터가 충분한 바이러스에서는 매우 강력하지만, 그만큼 팬데믹 후반부에 특히 강한 도구라는 성격도 뚜렷하다.

2) 변이 공간을 압축해 배우는 VAE 계열

VAE는 대량의 서열을 더 작은 잠재공간으로 압축하면서, 어떤 서열이 그 바이러스 패밀리 안에서 “자연스럽고 그럴듯한가”를 배운다. 그러고 나서 특정 변이가 이 학습된 규칙을 얼마나 잘 따르는지, 또는 얼마나 벗어나는지를 통해 적합도를 가늠한다.

 

EVEscape는 이 계열의 대표 사례다. 이 모델의 중요한 장점은 팬데믹 이전 데이터도 활용할 수 있다는 점이다. 즉, SARS-CoV-2 자체의 대규모 팬데믹 데이터가 쌓이기 전이라도 같은 패밀리의 코로나바이러스 서열로부터 기본 규칙을 먼저 배울 수 있다. 리뷰가 이 모델을 높게 평가하는 이유는 두 가지다. 하나는 SARS-CoV-2의 실제 진화 경로와 우려 변이의 선택 이점을 꽤 잘 재현했다는 점, 다른 하나는 인플루엔자, HIV, Lassa, Nipah처럼 다른 바이러스에도 적용 가능성을 보였다는 점이다.

 

VAE 계열은 특히 여러 변이가 함께 들어간 조합을 탐색하는 데 강점이 있다. 현실의 위험 변이는 한 자리만 바뀐 경우보다 여러 변이가 묶여 나타나는 경우가 많기 때문이다.

3) 단백질을 ‘언어’처럼 읽는 모델

단백질 언어모델은 아미노산 서열을 문장처럼 보고, 특정 위치에 어떤 아미노산이 들어와야 앞뒤 문맥과 잘 맞는지를 배운다. 자연어 처리에서 다음 단어를 예측하듯, 단백질에서는 다음 아미노산 또는 가려진 아미노산을 예측하는 식이다. 여기서 얻는 직관은 명확하다. 문맥에 잘 맞는 변이는 생물학적 제약을 덜 거스르고, 문맥에 맞지 않는 변이는 기능을 망가뜨릴 가능성이 높다.

 

Hie 연구팀의 초기 모델은 인플루엔자, HIV, SARS-CoV-2에서 적합도와 항원성 변화가 몰려 있는 영역을 잘 짚어냈다. 이후 transformer 계열이 도입되면서 서열 문맥을 더 길고 유연하게 읽을 수 있게 되었고, Tranception, TranceptEVE 같은 모델은 정렬 기반 정보와 정렬 없이 배우는 정보를 결합해 성능과 적용 범위를 넓혔다.

 

최근 모델의 방향은 더 실용적이다. MLAEP는 서열 정보에 항체와 ACE2 결합 정보를 함께 넣어 항원 진화 경로를 탐색하고, CoVFit은 대규모 단백질 언어모델에 DMS와 감시 데이터를 더해 항체 회피와 적합도를 동시에 읽으려 한다. 즉, 언어모델은 이제 “그럴듯한 서열”을 넘어 “면역을 얼마나 잘 피할 서열인가”까지 겨냥하는 단계로 가고 있다.

접근법을 한 표로 묶으면

방법군 주 입력 무엇을 잘 하나 특히 강한 시점 대표 예시
계통수/통계 기반 팬데믹 중 시계열 게놈 데이터 실제로 확장되는 계통, 반복 출현하는 유리한 변이 포착 데이터가 충분히 쌓인 중후반 PyR0, Bloom 2024
VAE 기반 바이러스 패밀리 정렬, 기능 정보, 경우에 따라 escape 정보 바이러스 패밀리 수준 제약 학습, 다중 변이 조합 탐색 초기 ~ 중반, 신종 바이러스 대응 EVEscape, VPRE
단백질 언어모델 대규모 단백질/바이러스 서열, DMS, 시계열 정보 문맥 기반 적합도 추정, 항체 회피 hotspot 탐색, 생성형 탐색 범용적이지만 설계에 따라 폭넓게 사용 가능 Hie et al., TranceptEVE, MLAEP, CoVFit

 

이 표에서 읽어야 할 핵심은 “누가 최종 승자냐”가 아니다. 데이터가 적을 때 강한 도구와, 데이터가 충분할 때 강한 도구가 다르다는 점이 훨씬 중요하다.

이 리뷰가 정리한 주요 실증 결과

첫째, DMS는 스파이크의 기능 지도를 매우 빠르게 그려냈다. 팬데믹 초기에 이미 스파이크 발현, ACE2 결합, 항체 회피와 관련된 대규모 돌연변이 효과 데이터가 축적되었고, 이것이 이후 거의 모든 예측 모델의 학습·검증 자원이 되었다.

 

둘째, 계통수 기반 모델은 실제 유행에서 우세해지는 변이를 읽는 데 강했다. 팬데믹 중 축적된 수백만~수천만 수준의 서열 데이터는 어떤 변이가 계통 확장과 연결되는지 추적할 수 있게 했고, 수렴 진화처럼 반복적으로 나타나는 유리한 패턴도 포착하게 했다.

 

셋째, 데이터가 아주 풍부한 상황에서는 바이러스 특이적 감시 모델이 매우 강해졌다. 리뷰는 Bloom 연구팀의 2024년 모델이 대규모 SARS-CoV-2 데이터로 학습되었을 때, DMS와의 합치도 측면에서 다른 접근보다 강한 모습을 보였다고 정리한다. 다만 이 장점은 어디까지나 데이터가 충분할 때의 이야기다.

 

넷째, 팬데믹 이전 데이터만으로도 꽤 멀리 내다볼 수 있다는 점이 확인됐다. EVEscape는 코로나바이러스 패밀리 수준의 사전 정보를 이용해 SARS-CoV-2의 실제 진화 경향과 다중 변이 우려 변이를 재현했고, 후속 실험에서는 예측된 변이들이 부스터 유도 항체를 회피할 수 있음을 보여줬다. 이 부분이 특히 중요하다. 진화 예측이 단지 추상적 서열 점수 산출이 아니라, 실제 중화 실험과 연결될 수 있음을 시사하기 때문이다.

 

다섯째, 언어모델은 적합도와 면역 회피를 동시에 읽는 방향으로 진화했다. 초기에는 “이 변이가 서열 문맥에 얼마나 잘 맞는가”를 보는 수준이었다면, 최근 모델은 여기에 DMS, 시간 정보, 구조 정보를 더해 자연 발생 변이와 항체 회피 가능성까지 더 정교하게 맞추려 한다. 리뷰가 MLAEP, CoVFit 같은 모델을 주목하는 이유가 여기에 있다.

 

이 결과들을 한 문장으로 요약하면 이렇다. 정확한 미래 계통 하나를 단일하게 찍어내는 도구는 아직 없지만, 어떤 변이와 어떤 변이 조합이 선택 압력을 이길 가능성이 큰지 점점 더 이르게 좁혀갈 수 있게 되었다.

 

 

Figure 3. 팬데믹 시점에 따른 예측 도구 선택. 원문 p.8, Figure 3. Hamelin et al. (2025), CC BY-NC-ND 4.0.

 

이 위치에 이 그림을 두는 이유: 이 리뷰의 결론은 특정 모델 하나를 옹호하는 것이 아니라, 시점에 따라 다른 도구를 써야 한다는 전략적 메시지다. Figure 3는 그 결론을 가장 명확하게 보여준다.

 

Crop 포인트 1 - 상단 파란 곡선 Quantity of Virus-Specific Data: 시간이 갈수록 바이러스 특이적 데이터가 쌓이고, 그에 따라 사용할 수 있는 모델의 종류와 정밀도가 달라진다는 점을 한눈에 보여준다.

 

Crop 포인트 2 - 왼쪽 회색 박스 Pre-pandemic, Scarce Data forecasting tools: 초반에는 같은 패밀리의 바이러스에서 배운 일반 규칙이 더 중요하다. 데이터가 적은 시기에는 범용성 높은 모델이 먼저 움직여야 한다는 뜻이다.

 

Crop 포인트 3 - 오른쪽 빨간 박스 Surveillance-Driven Forecasting tools: 시간이 지나 감시 데이터가 많이 쌓이면, 그때부터는 바이러스 특이적 모델이 더 강력해진다. 실제 유행 데이터를 직접 활용하는 계통수 기반·감시 기반 도구들이 여기서 강점을 보인다.

 

Crop 포인트 4 - 가운데의 시간축과 겹쳐 있는 표시선들: 전환이 단절적으로 일어나지 않는다는 점이 중요하다. 팬데믹 초반과 중반 사이, 범용 모델과 감시 기반 모델이 함께 쓰이는 과도기가 존재한다.

팬데믹 대비 관점에서 가장 중요한 시사점

이 리뷰가 던지는 가장 큰 정책적 메시지는 예측 모델을 백신과 감시 전략의 앞단에 붙여야 한다는 것이다. Omicron처럼 항체 회피력이 큰 변이가 등장하면, 기존 백신과 단클론 항체 치료제는 빠르게 성능이 흔들릴 수 있다. 따라서 “지금 돌고 있는 변이”만 겨냥하는 업데이트가 아니라, 곧 문제를 일으킬 가능성이 큰 변이 공간까지 포함하는 선제적 설계가 필요해진다.

 

저자들은 이미 이런 시도가 시작됐다고 본다. EVEscape 기반 예측으로 항체 회피 가능성이 큰 변이를 먼저 제안하고, 이를 바탕으로 백신 후보를 설계하고 시험하는 흐름이 대표적이다. 완벽한 예언은 아니어도, 후보 공간을 먼저 좁혀주는 것만으로도 백신 업데이트 속도를 끌어올릴 수 있다.

 

또 하나 중요한 시사점은 신종 바이러스 대응과 팬데믹 대응을 따로 보지 말아야 한다는 점이다. SpillOver 같은 위험도 평가 도구는 어떤 바이러스가 인간에게 넘어와 대유행을 일으킬 가능성이 큰지 우선순위를 매기는 데 유용하다. 여기에 진화 예측 도구를 결합하면, 단순히 “위험한 바이러스 목록”이 아니라 위험한 바이러스에서 특히 먼저 감시해야 할 단백질 부위와 돌연변이 방향까지 제시할 수 있다.

아직 해결되지 않은 문제도 분명하다

첫째, 표본 편향은 여전히 크다. 감시 데이터가 많아 보여도 지역·시기·환자군 편향이 심하면 모델은 현실이 아니라 수집 체계를 학습할 위험이 있다.

 

둘째, 도약형 진화는 여전히 까다롭다. 면역저하 환자 내부 진화, 동물 숙주를 거친 적응, 재조합처럼 여러 변이가 갑자기 묶여 나오는 사건은 현재 모델이 가장 어려워하는 영역이다.

 

셋째, 호스트 유전학이 거의 빠져 있다. 리뷰 후반부에서 저자들은 HLA/MHC 다형성, 인터페론 관련 경로, ACE2, TMPRSS2, furin, APOBEC3A 같은 요소가 바이러스 진화 압력에 관여할 가능성을 길게 논의한다. 실제로 T세포 인식 회피는 사람마다 다르게 나타날 수 있고, 이는 집단 수준의 변이 선택에도 영향을 줄 수 있다. 그런데 현재 예측 프레임워크 대부분은 여전히 바이러스 중심이다. 앞으로 성능을 한 단계 더 끌어올리려면 바이러스 서열 + 숙주 유전학 + 임상 결과를 함께 묶는 데이터셋이 필요하다.

 

넷째, 이중용도 위험도 있다. 바이러스가 어떤 방향으로 진화하면 더 잘 퍼지거나 더 잘 면역을 피하는지 예측하는 기술은 공중보건에 유용하지만, 반대로 악용 가능성도 키운다. 저자들이 마지막에 거버넌스와 책임 있는 데이터 공유를 강조하는 이유다.

정리

이 리뷰의 결론은 명확하다. 바이러스 진화 예측은 더 이상 공상 과학이 아니다. 그렇다고 이미 해결된 문제도 아니다. 지금 가능한 것은 미래를 한 줄로 맞히는 일이 아니라, 가능한 미래의 범위를 더 일찍, 더 좁게, 더 생물학적으로 타당하게 그려내는 것이다.

그 과정에서 중요한 것은 세 가지다. 대규모 감시 데이터, 변이 기능을 읽는 실험 데이터, 시점에 맞는 계산 모델이다. 팬데믹 초반에는 바이러스 패밀리 수준에서 학습한 범용 모델이 먼저 움직이고, 시간이 지나 데이터가 쌓이면 감시 기반 모델이 더 정밀한 판단을 내린다. 여기에 백신 설계, 위험도 평가, 호스트 유전학까지 연결되면, 공중보건은 비로소 변이를 뒤쫓는 체계에서 변이를 먼저 경계하는 체계로 바뀔 수 있다.