본문 바로가기
AI 생성 글 정리/bio

VaxSeer 논문 핵심 정리

by Honbul 2026. 3. 31.

AI는 독감 백신 균주를 더 잘 고를 수 있을까?

이 문서는 다음 논문을 블로그용으로 정리한 초안입니다.

  • 논문명: Influenza vaccine strain selection with an AI-based evolutionary and antigenicity model
  • 저자: Wenxian Shi, Jeremy Wohlwend, Menghua Wu, Regina Barzilay
  • 저널: Nature Medicine
  • 출판 연도: 2025
  • DOI: 10.1038/s41591-025-03917-y

한 줄 요약
이 논문은 인플루엔자 백신 균주 선택 문제를 “미래에 어떤 바이러스가 많이 돌 것인가”와 “그 바이러스를 후보 백신이 얼마나 잘 막을 것인가”의 결합 문제로 보고, 두 축을 동시에 예측하는 VaxSeer라는 AI 프레임워크를 제안한다. 10년치 후향 평가에서 VaxSeer는 WHO 권고안보다 더 높은 항원 적합도(coverage score)를 보이는 균주를 더 자주 골랐고, 그 점수는 실제 백신 효과와도 강하게 연결됐다.

Figure 사용 메모
아래 이미지는 원 논문의 Figure를 정리 목적으로 포함한 것입니다. 원 논문은 CC BY-NC-ND 4.0로 공개되어 있으므로, 상업적 이용이나 수정·재가공 전에는 라이선스 조건을 반드시 확인하세요. 본문은 논문의 내용을 바탕으로 한 요약·해설입니다.


1. 왜 이 논문이 중요한가

독감 백신은 매년 새로 균주를 골라야 한다. 문제는 백신을 만들고 공급하는 데 6–9개월이 걸린다는 점이다. 즉, 지금 시점에 보이는 바이러스 분포만 보고 고르면 늦다. 실제 유행 시즌이 왔을 때는 우세한 계통(clade) 이 달라져 있을 수 있다.

논문은 이 간극을 정확히 겨냥한다.

  • 현실 문제 1: 인플루엔자 바이러스는 빠르게 진화한다.
  • 현실 문제 2: 백신 후보와 미래 유행 바이러스 간의 항원 적합도를 모두 실험으로 확인하기는 너무 비싸고 느리다.
  • 현실 문제 3: WHO가 매우 정교한 전문가 시스템을 갖고 있어도, 미래 시즌의 변화를 완전히 맞추기는 어렵다.

이 논문이 던지는 핵심 질문은 단순하다.

“실험과 전문가 판단만으로 고르던 독감 백신 균주를, AI가 더 잘 선별해 줄 수 있을까?”


2. 이 논문의 핵심 개념

2-1. Dominance

미래 시즌에 어떤 바이러스 서열이 얼마나 우세하게 퍼질지를 뜻한다.
쉽게 말해, “다음 시즌에 많이 돌 바이러스는 무엇인가?”에 대한 예측이다.

2-2. Antigenicity

후보 백신이 특정 바이러스를 얼마나 잘 인식하고 막는지에 대한 항원성 지표다.
논문에서는 주로 HI(hemagglutination inhibition) assay 결과를 활용한다.

2-3. Coverage score

논문의 중심 지표다.
후보 백신이 여러 유행 바이러스에 대해 보이는 항원성을, 각 바이러스가 미래 시즌에 얼마나 많이 나타날지로 가중 평균한 값이다.

coverage score(v) = sum_x p_t(x) * h(v, x)
  • (p_t(x)): 미래 시즌 (t)에서 바이러스 (x)가 차지할 비중
  • (h(v,x)): 백신 (v)와 바이러스 (x) 사이의 항원적 적합도

즉, “잘 맞는 백신” 이란 단순히 한두 개 바이러스에 강한 백신이 아니라,
“미래에 실제로 많이 돌 바이러스들을 넓게 커버하는 백신” 이다.

2-4. Empirical coverage score vs Predicted coverage score

이 구분은 블로그에서 반드시 짚어주면 좋다.

용어 의미 언제 계산하나
Empirical coverage score 실제로 관측된 미래 시즌 바이러스 분포 + 실험 HI 데이터를 이용해 사후적으로 계산한 점수 시즌이 끝난 뒤
Predicted coverage score AI가 예측한 미래 dominance + AI가 예측한 antigenicity로 사전적으로 계산한 점수 백신 선택 시점

논문이 실제로 하는 일은 predicted coverage score로 후보를 고르고,
그 선택이 얼마나 좋았는지는 empirical coverage score로 후향 평가하는 것이다.

주의
Figure에서 coverage score 축이 음수로 보이는 이유는, HI 값을 로그 상대값으로 정규화하고 0을 상한으로 두었기 때문이다.
따라서 0에 가까울수록 더 좋은 항원 적합도로 해석하면 된다.


3. VaxSeer는 어떻게 작동하나

VaxSeer는 크게 두 모델을 결합한다.

  1. Dominance predictor
    • 입력: 유행 바이러스의 HA 단백질 서열
    • 출력: 미래 시즌에 해당 서열이 얼마나 우세할지
    • 특징: 단순히 “현재 많이 보이는 것”을 그대로 쓰지 않고, 시간에 따른 dominance 변화를 모델링한다.
    • 구현: 두 개의 GPT-2 기반 단백질 언어모델 + ODE(상미분방정식)
  2. Antigenicity predictor
    • 입력: 후보 백신 HA 서열과 유행 바이러스 HA 서열의 쌍
    • 출력: 두 서열 사이의 항원성(HI 값)
    • 구현: MSA Transformer 기반 회귀 모델
  3. Ranking module
    • 각 후보 백신에 대해
      “미래에 많이 돌 바이러스” × “그 바이러스를 얼마나 잘 막는가”
      를 합쳐 최종 predicted coverage score를 계산한다.
    • 그 점수가 가장 높은 후보를 우선순위로 추천한다.

핵심은 이 조합이다.

항원성만 잘 맞아도 부족하고, 미래에 어떤 바이러스가 우세할지까지 맞혀야 좋은 백신을 고를 수 있다.


4. Figure 1 - 논문의 전체 프레임워크

 

Figure 1. VaxSeer의 전체 구조. Source: Shi et al., Nature Medicine (2025), Fig. 1.

이 그림은 논문의 아이디어를 한 장으로 요약한다.

  • 왼쪽 아래: 미래 시즌에 돌 수 있는 유행 바이러스 서열
  • 왼쪽 위: 후보 백신 서열
  • 가운데 아래: dominance predictor가 각 유행 바이러스의 미래 비중을 예측
  • 가운데 위: antigenicity predictor가 백신-바이러스 쌍의 항원성을 예측
  • 오른쪽: 두 값을 곱해 최종 coverage score를 계산

블로그에서는 이 Figure를 중심으로 이렇게 설명하면 이해가 빠르다.

독감 백신 선택은 사실상 “미래 수요 예측”과 “제품 적합도 예측”을 동시에 해야 하는 문제다.
VaxSeer는 바이러스 진화를 예측하는 모델과 항원성을 예측하는 모델을 합쳐, 후보 백신을 하나의 점수로 랭킹한다.


5. 논문은 무엇을 어떻게 검증했나

논문은 두 가지 인플루엔자 아형을 대상으로 평가했다.

  • A/H3N2
  • A/H1N1

데이터

  • GISAID에서 수집한 394,090개 HA 서열
  • 2003년부터 2023년 2월까지 WHO 협력센터(Francis Crick Institute) 보고서의 HI 데이터
  • 실제 백신 효과(VE)는 CDC(미국), I-MOVE(유럽), SPSN(캐나다) 자료 사용

평가 구간

  • 2012–2021 겨울 시즌
  • WHO의 실제 백신 선택 시점과 비슷하게, 시즌 시작 약 8개월 전까지의 데이터만 써서 예측

후보 백신 설정

  • 직전 3년 사이에 최소 5회 이상 관측된 바이러스 중에서 후보를 구성
  • 사후 평가를 위해, 충분한 HI 데이터가 있는 후보만 비교
  • 최종 비교 대상은
    • A/H3N2 후보 51개
    • A/H1N1 후보 50개

이 설계가 중요한 이유는, 논문이 단순히 “모형 점수끼리 비교”한 것이 아니라
실제 WHO의 선택 시점과 비슷한 정보 제약 아래서 평가하려고 했기 때문이다.


6. 가장 중요한 결과

6-1. Empirical coverage score는 실제 백신 효과와 매우 강하게 연결된다

논문은 먼저 “coverage score가 정말 의미 있는 지표인가?”를 확인한다.
그 결과, empirical coverage score는 실제 백신 효과와 매우 강한 상관을 보였다.

  • Pearson r = 0.895
  • Spearman ρ = 0.976
  • 둘 다 P < 0.001

즉, 이 논문이 쓰는 surrogate metric은 적어도 “백신 효과와 무관한 가짜 점수”는 아니라는 뜻이다.

6-2. Predicted coverage score도 실제 백신 효과와 유의하게 연결된다

더 중요한 건 AI가 사전에 계산한 predicted coverage score다.
이 점수 역시 CDC 기준 실제 백신 효과와 강한 상관을 보였다.

  • Pearson r = 0.861, P = 0.0014
  • Spearman ρ = 0.891, P = 0.0005

즉, 모델이 실제로 미래 시즌의 품질을 어느 정도 읽어낸다는 의미다.

6-3. VaxSeer는 WHO 권고안보다 더 좋은 후보를 더 자주 골랐다

후향 평가에서 VaxSeer가 선택한 균주는 WHO 권고안보다 더 높은 empirical coverage score를 기록한 경우가 많았다.

  • A/H1N1: 10년 중 6년에서 WHO보다 우수
  • A/H3N2: 10년 중 9년에서 WHO보다 우수
  • 전체 비교에서 Wilcoxon signed-rank test, P = 4.1 × 10⁻⁵

또한 “그 시즌의 최적 후보”를 정확히 고른 횟수도 더 많았다.

  • A/H1N1
    • VaxSeer: 7/10
    • WHO: 3/10
  • A/H3N2
    • VaxSeer: 5/10
    • WHO: 0/10

이 결과만으로 “WHO보다 무조건 낫다”고 단정할 수는 없지만,
적어도 후보 선별 보조 도구로서는 매우 강한 신호다.

6-4. 질병 부담 감소와도 연결된다

논문은 coverage score가 단순한 실험 지표가 아니라, 실제 공중보건 결과와도 맞물리는지 본다.

predicted coverage score는 미국 CDC가 추정한

  • 백신으로 줄어든 의료 방문 수
    • r = 0.6993, P = 0.0360
  • 백신으로 줄어든 증상성 질환 수
    • r = 0.6858, P < 0.05

양의 상관을 보였다.

즉, 이 모델이 겨냥하는 항원 적합도는 실제 질병 부담 감소와도 연결될 가능성이 있다.


7. Figure 2 - “정말 더 잘 고르나?”를 보여주는 핵심 그림

Figure 2. VaxSeer의 핵심 성능 결과. Source: Shi et al., Nature Medicine (2025), Fig. 2.

이 Figure는 논문의 핵심 설득 포인트다.

(a) coverage score와 실제 VE의 상관

왼쪽 위 산점도는 두 가지를 보여준다.

  • empirical coverage score는 실제 VE와 매우 강하게 맞물린다.
  • predicted coverage score도 실제 VE를 꽤 잘 반영한다.

즉, AI가 만든 점수가 “현실과 어느 정도 연결된 신호”라는 점을 시각적으로 보여준다.

(b) 연도별 H3N2 비교

오른쪽 위 패널에서
회색 분포는 모든 후보의 predicted coverage score,
주황색은 VaxSeer가 고른 균주,
초록색은 WHO가 고른 균주다.

핵심은 간단하다.

  • VaxSeer의 선택은 대체로 분포의 상단에 위치한다.
  • WHO 선택보다 empirical coverage score가 높은 해가 훨씬 많다.

(c)–(e) 2019 H3N2 사례

이 부분이 특히 흥미롭다.

  • WHO 선택은 새로 떠오른 3C.3a1 clade 쪽에 잘 맞는다.
  • 반면 VaxSeer 선택은 3C.2a1b.1a/b3C.2a1b.2b/a
    실제 더 넓게 퍼져 있거나 확장 중인 clade를 더 넓게 커버한다.

이 사례는 논문의 철학을 잘 보여준다.

“새로운 변이를 쫓는 것”보다, 미래 시즌 전체를 더 넓게 덮는 후보를 고르는 것이 중요하다.

블로그 본문에서는 이 부분을 “AI가 더 많은 clade를 동시에 본다”라는 식으로 풀면 읽기 쉽다.


8. Figure 3 - 왜 두 모델을 같이 써야 하는가

 

Figure 3. coverage score의 해석과 baseline 비교. Source: Shi et al., Nature Medicine (2025), Fig. 3.

Figure 3은 이 논문이 단순한 상관 분석이 아니라는 점을 보여준다.

(a) Dominance만으로는 부족하다

“지난 시즌에 그 백신 균주가 얼마나 흔했는가?”만 보는 baseline은
실제 백신 효과와 상관이 약했다.

  • r = 0.4920, P = 0.15

즉, “많이 보이는 서열”만 따라가면 충분하지 않다.

(a) Average antigenicity만으로도 부족하다

항원성만 평균 내는 단순 baseline도 어느 정도는 맞지만,
coverage score보다 약했다.

  • Average antigenicity: r = 0.8095, P = 0.0045
  • Coverage score (predict): r = 0.8611, P = 0.0014

핵심은 항원성 + 미래 dominance를 같이 봐야 한다는 점이다.

(b) 예측 점수로 고효율 백신과 저효율 백신이 구분된다

실제 VE가 40% 이상인 백신은 predicted coverage score가 더 높았다.
논문은 여기서 40%를 일종의 실용적 기준선으로 사용한다.

(c) 의료 방문 감소와의 연결

점수가 높을수록 실제로 백신으로 줄인 의료 방문 수도 많았다.

(d) Dominance predictor 자체도 baseline보다 우수

논문은 dominance 모델을 따로 떼어 비교해도 VaxSeer가 가장 좋았다고 보고한다.

  • VaxSeer: Spearman 0.8069
  • LM: 0.7021
  • Last season baseline: 0.6933
  • CSCS: 0.6680
  • EVEscape: 0.6148

즉, 이 논문의 기여는 단순히 antigenicity 예측뿐 아니라
시간에 따라 바뀌는 dominance를 모델링했다는 점에도 있다.


9. Extended Data Figure 1 - 왜 “미래 시즌 예측”이 필요한가

 

Extended Data Fig. 1. 백신 효과 저하, 입원 증가, 그리고 항원 드리프트의 예시. Source: Shi et al., Nature Medicine (2025), Extended Data Fig. 1.

이 그림은 논문의 문제의식을 가장 직관적으로 보여준다.

(a) 백신 효과가 안정적으로 높지 않다

미국 CDC 자료 기준으로, 독감 백신의 전체 효과는 여러 시즌에서 40% 아래로 내려갔다.

(b) 입원 부담도 높아졌다

백신 효과가 낮은 시즌에는 인플루엔자 관련 입원 부담도 커진다.

(c) 백신 선택 시점과 실제 시즌 사이에 clade가 바뀐다

가장 중요한 패널이다.
WHO가 백신 균주를 고를 때 보이던 우세 clade와,
실제 다음 시즌에 널리 퍼지는 clade가 달라질 수 있다.

이 패널 하나로 논문의 문제 정의를 설명할 수 있다.

“지금 잘 맞는 백신”이 아니라, “8개월 뒤에 잘 맞을 백신”을 골라야 한다.


10. Extended Data Figure 3 - H1N1에서도 비슷한 패턴이 보인다

 

Extended Data Fig. 3. H1N1에서의 결과와 disease burden 관련 분석. Source: Shi et al., Nature Medicine (2025), Extended Data Fig. 3.

메인 Figure 2가 H3N2 중심이라면, 이 확장 그림은 H1N1에서도 비슷한 경향이 나타난다는 점을 보여준다.

  • empirical coverage score가 높을수록
    백신으로 줄인 의료 방문 수, 줄인 증상성 질환 수가 더 많았다.
  • H1N1에서도 VaxSeer 선택이 WHO보다 높은 empirical coverage score를 보인 해가 적지 않았다.

즉, 논문의 결론이 H3N2 한 subtype에만 묶여 있지 않다는 점을 보완한다.


11. Extended Data Figure 5 - “왜 이 모델이 baseline보다 좋은가?”에 대한 답

 

Extended Data Fig. 5. dominance predictor와 antigenicity predictor의 비교. Source: Shi et al., Nature Medicine (2025), Extended Data Fig. 5.

이 그림은 성능의 출처를 분해해서 보여준다.

  • (a), (b) VaxSeer dominance predictor는 RMSE와 MAE에서 baseline보다 더 좋다.
  • (c) 미래 dominant sequence를 더 잘 찾아낸다.
  • (d) dominance predictor와 antigenicity predictor 조합 전체를 비교해도
    VaxSeer + VaxSeer 조합이 가장 높은 상관을 보인다.

즉, “운 좋게 결과가 나온 것”이 아니라
모델의 각 부품이 실제로 기여하고 있다는 해석이 가능하다.


12. 블로그에서 꼭 잡아줘야 할 핵심 포인트

포인트 1. 이 논문은 “백신 효과 자체”를 직접 예측하는 논문이 아니다

논문이 직접 예측하는 것은 VE 자체가 아니라,
VE와 강하게 연결된 항원 적합도(coverage score) 다.

이 차이를 분명히 해두면 글의 신뢰도가 높아진다.

포인트 2. 핵심은 “미래 우세 계통”을 예측한다는 점이다

기존 접근은 종종 현재 많이 보이는 strain이나, 일부 실험 strain에 대한 평균 항원성에 의존한다.
VaxSeer는 그보다 한 단계 더 나아가
“다음 시즌에 무엇이 많이 돌 것인가” 를 모델링한다.

포인트 3. WHO를 대체한다기보다, 후보 선별을 보완하는 도구다

논문도 이 모델을 WHO 의사결정을 보완하고, 실험 우선순위를 정하는 도구로 제시한다.
블로그에서 “AI가 전문가를 이겼다” 식으로 과장하면 논문의 뉘앙스를 놓치게 된다.

포인트 4. H3N2처럼 drift가 심한 subtype에서 특히 의미가 크다

Figure 2의 2019 H3N2 사례는
“새 clade 하나에 딱 맞는 백신”보다
“실제 크게 퍼질 clade들을 넓게 덮는 백신”이 중요할 수 있음을 보여준다.

포인트 5. 공중보건적으로도 흥미롭다

coverage score는 단순한 in silico 점수에 머물지 않고,
실제 VE, 의료 방문 감소, 증상성 질환 감소와 연결된다.


13. 이 논문을 비판적으로 볼 지점

논문은 인상적이지만, 그대로 받아들이면 안 되는 지점도 분명하다.

13-1. 후향 평가다

가장 큰 한계는 retrospective evaluation 이다.
즉, 실제로 VaxSeer가 추천한 백신을 사람에게 투여한 전향적 임상 결과는 아니다.

13-2. surrogate metric에 의존한다

선택되지 않은 백신 후보의 실제 VE는 알 수 없기 때문에,
논문은 empirical coverage score를 surrogate로 쓴다.
이 점수는 VE와 강한 상관을 보였지만, VE 그 자체는 아니다.

13-3. HA만 본다

모델은 기본적으로 HA 단백질 서열만 사용한다.
하지만 실제 바이러스 fitness나 면역 반응은 neuraminidase 등 다른 요소의 영향도 받는다.

13-4. 항원성 데이터의 한계가 있다

항원성은 한 WHO 협력센터의 HI assay 데이터를 중심으로 학습했다.
HI는 유용하지만,

  • 최근 H3 변이에서 한계가 있고,
  • ferret antisera 기반이며,
  • 인간 면역 반응을 완전히 대변하지 않는다.

13-5. 실제 백신 효과는 더 많은 요인의 영향을 받는다

논문도 인정하듯, 실제 VE에는

  • host immune history
  • 백신 플랫폼
  • adjuvant
  • egg adaptation
  • 접종 시기

같은 요소가 함께 작동한다.
VaxSeer는 이 중 항원 적합도 쪽에 초점을 맞춘 모델이다.

13-6. 새로운 미관측 바이러스에 대한 검증은 제한적이다

논문은 미래에 처음 등장할 서열까지 완전히 검증한 것은 아니다.
실제로 어떤 시즌에는 이전 해에 보지 못했던 HA 서열이 40% 이상 나타나기도 한다고 보고한다.


15. 결론

이 논문의 가치는 “AI가 WHO보다 낫다”는 자극적 메시지보다 더 정교한 곳에 있다.

  • 독감 백신 선택은 미래 예측 문제라는 점을 분명히 했고,
  • 그 예측을 dominance + antigenicity의 결합 문제로 수식화했으며,
  • 실제 10년치 데이터에서 WHO 권고안보다 더 나은 항원 적합도 후보를 자주 찾았고,
  • 그 점수가 실제 VE 및 질병 부담 감소와도 연결된다는 근거를 제시했다.

가장 좋은 블로그 포인트는 아마 이것이다.

백신 균주 선택은 “무슨 변이가 새로 나왔나”만 보는 문제가 아니라, “다음 시즌 전체 바이러스 지형을 누가 더 넓고 정확하게 덮는가”의 문제다. VaxSeer는 그 지형을 AI로 미리 그려보려는 시도다.


16. 참고 문헌

  1. Shi W, Wohlwend J, Wu M, Barzilay R. Influenza vaccine strain selection with an AI-based evolutionary and antigenicity model. Nature Medicine. 2025. DOI: 10.1038/s41591-025-03917-y.