독감 백신 선택은 늘 지금 많이 도는 바이러스가 아니라 다음 시즌에 살아남을 바이러스를 겨냥해야 한다. 실제 결정은 계절이 오기 훨씬 전에 내려지고, 그 사이 바이러스는 항체를 피하면서 계속 바뀐다. 이 논문은 그 간극을 메우기 위해, 유전서열·실제 유행 규모·혈청 실험·단백질 수준 특성을 한데 묶어 미래에 어떤 계통이 커질지와 어떤 백신 후보가 더 나은지를 함께 예측하는 방법을 제시한다.
핵심은 단순한 변이 카운팅이 아니다. 저자들은 바이러스를 유전적으로 가까운 묶음인 클레이드 단위로 추적하고, 사람 집단이 각 클레이드를 얼마나 잘 막는지를 집단 면역 지형으로 바꾼 뒤, 이 둘을 결합해 “누가 다음 라운드의 승자가 될 가능성이 높은가”를 계산한다. 그래서 이 논문은 단일 모델 소개라기보다, 바이러스 진화를 예측 가능한 운영 체계로 만드는 설계도에 가깝다.
먼저 핵심만
- 예측의 출발점은 서열 데이터 하나가 아니라 서열, 역학, 항원성, 분자 표현형의 동시 결합이다.
- 예측의 중심 변수는 “어떤 클레이드가 빨리 늘고 있는가”와 “현재 인구 집단이 그 클레이드를 얼마나 잘 못 막는가”다.
- 혈청 실험의 듬성듬성한 값을 그대로 쓰지 않고, 클레이드 수준의 교차 중화 지도와 집단 면역 프로필로 바꿔 쓴다.
- 최종 출력은 과거 설명이 아니라 향후 약 1년 범위의 클레이드 비중 예측과 선제적 백신 후보 순위화다.
왜 이 문제가 어려운가
독감은 빠르게 변하고, 특히 헤마글루티닌 표면의 항체 표적 부위가 자주 바뀐다. 문제는 이런 변화가 유전학만의 문제가 아니라는 점이다. 같은 돌연변이라도 어떤 지역에서 먼저 나타났는지, 그 지역 사람들의 최근 감염 이력이 무엇인지, 기존 면역이 그 변이를 얼마나 덜 알아보는지에 따라 실제 확산 속도가 달라진다.
그래서 이 논문은 진화 예측을 두 개의 질문으로 쪼갠다.
첫째, 바이러스 쪽에서 누가 늘고 있는가.
둘째, 숙주 쪽에서 누구에게 취약한가.
그리고 이 둘을 하나의 시간축 위에 올려놓는다.
이 접근 덕분에 “돌연변이가 있었다”는 사실을 넘어, 왜 어떤 계통은 살아남고 어떤 계통은 사라지는지를 더 일관되게 설명할 수 있다.
네 가지 데이터를 하나의 시스템으로 묶는다
| 입력 데이터 | 논문이 여기서 얻는 것 | 예측에서 맡는 역할 |
|---|---|---|
| 전 세계 바이러스 서열 | 계통도, 클레이드 구조, 돌연변이 이력 | 누가 누구의 후손인지, 어떤 계통이 커지는지 추적 |
| 국가·지역별 유행 자료 | 시간대별 발생 규모, 지역별 차이 | 표본 수 편향을 보정하고 면역 이력의 무게를 계산 |
| 항원성 실험 자료 | 어떤 면역이 어떤 바이러스를 얼마나 잘 막는지 | 면역 회피의 방향과 강도를 추정 |
| 단백질 안정성·수용체 결합 같은 분자 특성 | 면역 외적인 성장 이점 또는 비용 | 항원성만으로 설명되지 않는 증감 요인을 보완 |
저자들은 먼저 서열을 정제하고 정렬한 뒤, 최대우도 계통도와 시간 정보를 붙인 timed strain tree를 만든다. 독감은 유전체가 여러 조각으로 나뉘어 있고 서로 다른 바이러스가 같은 숙주에서 섞일 수 있으므로, 단순히 하나의 나무만 보는 것이 아니라 재분절 가능성도 함께 점검한다. 이 단계가 중요한 이유는, 백신 선택에 의미 있는 변화가 “새 점 하나”가 아니라 어떤 계통 전체가 세력을 넓히는 과정으로 나타나기 때문이다.

그림 1. 서열·역학·항원성·분자 표현형을 하나의 예측 파이프라인으로 묶는 전체 구조.
그림 1에서 볼 크롭 포인트
- 상단의 네 개 입력 상자: 이 논문의 가장 중요한 선언이다. 바이러스 진화 예측은 더 이상 서열만의 문제가 아니라는 뜻이다. 유전 변화만 보면 “무슨 변이가 생겼는지”는 알 수 있지만, 그 변이가 실제 유행으로 이어질지는 역학과 면역 데이터를 같이 봐야 한다.
- 가운데의 Evolutionary tracking 구역: 원시 데이터를 바로 예측에 쓰지 않고, 시간에 따라 변하는 상태 변수로 바꾼다. 클레이드 빈도, 계통별 발생 규모, 집단 면역, 표현형 변화가 모두 여기에 들어간다. 즉, 정적인 표본 모음을 움직이는 상황판으로 변환하는 단계다.
- 중앙의 Fitness model 상자: 논문의 진짜 엔진이다. 면역 회피에서 오는 이점과 단백질 기능에서 오는 이점을 하나의 성장 잠재력으로 합친다. 이 지점이 있어야 “현재의 관찰”이 “미래의 우세 계통”으로 이어진다.
- 하단의 vaccine ranking 출력: 목적이 단순 설명이 아니라 의사결정 지원이라는 점을 보여준다. 이 파이프라인의 끝은 멋진 그림이 아니라 다음 시즌에 더 맞는 백신 후보의 순위다.
유전계통도를 현재 상황판으로 바꾸는 법
이 논문이 좋은 이유 중 하나는, 계통도를 단순한 계보 그림으로 두지 않는다는 점이다. 저자들은 계통도에서 각 클레이드의 시간대별 점유율을 계산하고, 그 점유율이 얼마나 빨리 오르내리는지로부터 실제 경쟁력을 읽어낸다. 말하자면 “누가 존재하는가”가 아니라 “누가 점유율을 먹고 있는가”를 본다.
여기서 중요한 구분이 두 가지 나온다. 하나는 클레이드 빈도이고, 다른 하나는 서브라인리지 빈도다. 어떤 클레이드가 성공하면 그 안에서 또 새로운 하위 계통이 생긴다. 그래서 원래 클레이드 이름표 하나만 보면 100%를 먹는 장면이 잘 안 보이지만, 후손까지 합친 서브라인리지를 보면 사실상 한 계통이 경쟁자를 밀어낸 순간이 훨씬 선명해진다.
또 하나 중요한 점은 지역성이다. 독감은 전 세계에서 동시에 똑같이 움직이지 않는다. 어떤 변이는 특정 지역에서 먼저 커지고, 그 지역의 면역 이력이 이후 글로벌 확산에 영향을 준다. 그래서 저자들은 지역별 빈도와 발생 규모를 따로 추적해 샘플 수가 많은 지역이 전체 그림을 왜곡하지 않도록 보정한다.

그림 2. 계통도, 클레이드 점유율, 서브라인리지 점유율을 함께 놓고 보면 “누가 나타났는지”보다 “누가 이겼는지”가 보인다.
그림 2에서 볼 크롭 포인트
- 패널 A의 굵은 줄기가 좌상단에서 우하단으로 이어지는 흐름: 살아남은 계통의 주줄기다. 주변의 많은 가지는 생겼다가 사라지지만, 주줄기는 다음 우세 계통으로 이어진다. 블로그 독자는 이 부분에서 “진화는 모든 변이가 고르게 축적되는 과정이 아니라, 일부 계통만 다음 라운드로 넘어가는 경쟁”이라는 사실을 읽으면 된다.
- 패널 B의 넓은 색 면적이 시기별로 교체되는 구간: 특정 시기에는 몇 개의 큰 클레이드가 실제로 세계 점유율을 놓고 싸운다. 면적이 커지는 색은 성장 중인 계통이고, 급격히 줄어드는 색은 밀려나는 계통이다. 이 패널은 예측 대상이 개별 서열이 아니라 클레이드 간 점유율 이동임을 직관적으로 보여준다.
- 패널 C에서 1에 가까워지는 곡선들: 후손까지 포함하면 한 계통이 거의 전체 시장을 차지하는 순간이 나온다. 이 패널은 “원조 클레이드 이름은 사라져도, 그 계통의 유전 배경은 살아남아 후속 변이를 낳는다”는 점을 보여준다. 백신 선택에서는 바로 이 흐름이 중요하다.
어떤 돌연변이가 실제로 살아남는가
이 논문은 예측 파이프라인을 설명하는 데서 그치지 않고, 어떤 위치의 변화가 반복적으로 선택받는지도 보여준다. 방법의 핵심은 간단하다. 아미노산을 바꾸는 돌연변이가 어느 정도까지 빈도를 높이는지, 그리고 아무 의미 없는 기준선에 가까운 침묵 돌연변이는 어디까지 가는지를 비교한다. 이렇게 보면 단순히 “변이가 많다”가 아니라, 어떤 부위의 변이가 실제로 퍼져나갈 힘을 가졌는지가 드러난다.
결과는 매우 명확하다. 항체가 많이 보는 HA 머리 쪽 표적 부위, 특히 A·B·D 부위와 수용체 결합 부위는 반복적으로 양의 선택 신호를 보인다. 반대로 그 밖의 넓은 비표적 구간은 정화 선택이 강하다. 즉, 면역을 피하는 데 도움이 되는 자리의 변화는 살아남기 쉽고, 단백질 기능만 망가뜨리는 변화는 대부분 도중에 걸러진다.
특히 흥미로운 대목은, 선택 신호가 아주 높은 빈도까지 가기 전에 이미 강하게 보인다는 점이다. 계통 간 경쟁이 본격화되고 나면 좋은 돌연변이 하나만으로 결과가 결정되지 않는다. 더 좋은 배경을 탄 다른 계통이 나타나면 밀릴 수 있고, 많이 퍼진 계통은 그만큼 숙주의 면역을 더 빨리 끌어올려 스스로의 미래 이점을 깎아먹기도 한다. 이 논문이 단일 돌연변이보다 클레이드와 면역 지형의 상호작용을 보는 이유가 여기 있다.
| HA 영역 | 관찰된 선택 신호 | 해석 |
|---|---|---|
| 항원 표적 A·B·D | 가장 강한 양의 선택 | 항체 회피에 유리한 변화가 반복적으로 살아남음 |
| 항원 표적 C·E | 중간 수준의 양의 선택 | 면역 회피 효과는 있지만 중심 핫스폿보다는 약함 |
| 수용체 결합 부위 | 강한 양의 선택 | 면역 회피와 수용체 결합 제약이 동시에 작동 |
| 비표적 구간 | 강한 정화 선택 | 많은 변화가 기능 비용 때문에 사라짐 |

그림 3. 면역이 직접 보는 표면 부위와 그렇지 않은 부위의 운명이 어떻게 다른지 보여준다.
그림 3에서 볼 크롭 포인트
- 패널 A의 HA1 머리 영역과 A·B·D 표적 표시: 독자가 가장 먼저 봐야 할 곳이다. 항체가 자주 부딪히는 표면이 어디인지 시각적으로 보여주며, 왜 이 위치의 변화가 진화의 전면에 서는지 설명한다.
- 패널 B의 위쪽으로 올라가는 빨간색·주황색 곡선: 면역 표적 부위의 아미노산 변화가 기준선보다 훨씬 자주 살아남는다는 뜻이다. 특히 A·B·D 부위는 끝까지 살아남는 비율이 매우 높아, 독감 진화가 실제로 면역 회피 중심의 경쟁임을 뒷받침한다.
- 패널 B의 아래로 내려가는 회색 곡선: 비표적 구간의 변화는 대체로 손해라는 신호다. 이 부분은 “모든 변화가 진화를 돕는 것이 아니다”라는, 예측 모델 설계에서 매우 중요한 균형감을 준다.
듬성듬성한 혈청 데이터를 집단 면역 지도로 바꾸는 법
실험실의 항원성 데이터는 중요하지만 그대로 쓰기에는 거칠다. 어떤 혈청은 강하고 어떤 바이러스는 시험계에서 더 잘 붙으며, 측정 조합도 전체 공간을 촘촘히 덮지 못한다. 저자들은 이 문제를 클레이드 수준의 교차 중화 행렬로 바꾸는 방식으로 풀어낸다. 먼저 개별 혈청-바이러스 조합의 값을 클레이드끼리 묶어 노이즈를 줄이고, 그다음 계통도 구조를 이용해 비어 있는 칸을 채운다.
이 단계가 중요한 이유는 두 가지다. 첫째, “어떤 면역 배경이 어떤 새 클레이드를 잘 못 막는가”가 드러난다. 둘째, 이 값이 바로 이후 단계에서 집단 면역 압력으로 바뀐다. 즉, 혈청 실험이 예쁜 heatmap으로 끝나는 것이 아니라, 실제 진화 모델에 들어가는 입력이 된다.
논문은 이 보간이 단순한 시각화 트릭이 아니라는 점도 검증한다. 일부 데이터를 가리고 다시 맞혀보면 평균 오차가 일반적인 실험 오차 범위보다 더 작다. 다시 말해, 이 절차는 빈칸을 메우는 것뿐 아니라 개별 실험값보다 더 안정적인 집단 수준 신호를 만든다.
여기서 한 번 더 중요한 변환이 일어난다. 높은 중화값이 곧바로 같은 비율의 보호로 이어지는 것은 아니기 때문에, 저자들은 낮을 때는 거의 보호가 없다가 특정 구간에서 급격히 보호가 늘고, 이후에는 포화되는 형태로 해석한다. 이 덕분에 항원성 차이가 실제 감염 취약성 차이로 연결된다. 이후에는 과거 감염 자료를 이용해 “어떤 면역 배경을 가진 사람이 지금 얼마나 많은가”를 계산하고, 이를 클레이드별로 합쳐 현재 인구 집단의 면역 프로필을 만든다.

그림 4. 희소한 실험실 항원성 데이터를 예측 가능한 집단 면역 입력으로 바꾸는 핵심 단계.
그림 4에서 볼 크롭 포인트
- 패널 A의 듬성듬성한 원시 행렬: 실제 데이터의 출발점은 이렇게 불완전하다. 빈칸이 많고 조합도 고르지 않다. 블로그 독자는 여기서 “항원성 데이터가 중요하지만, 원자료만으로는 예측 모델을 만들기 어렵다”는 점을 읽어야 한다.
- 패널 B의 클레이드 수준 집계 결과: 개별 샘플을 바로 쓰지 않고 유전적으로 비슷한 묶음끼리 평균을 내면 잡음이 크게 줄어든다. 이 패널은 실험 데이터를 면역 계층 구조로 바꾸는 단계다.
- 패널 C의 완성된 heatmap: 최종적으로는 면역 배경과 바이러스 클레이드의 관계가 하나의 읽을 수 있는 지도로 정리된다. 진한 블록은 “이 조합에서는 잘 못 막는다”는 뜻이고, 이런 패턴이 미래 면역 회피 방향을 예측하는 출발점이 된다.
이 논문에서 fitness는 “빨리 느는 이유의 합”이다
저자들이 말하는 fitness는 추상적인 점수가 아니다. 실제로는 한 클레이드가 평균보다 얼마나 유리하게 늘 수 있는가를 뜻한다. 그리고 그 원인을 두 축으로 나눈다.
- 항원성 요인: 현재 인구 집단의 면역이 그 클레이드를 잘 못 막을수록 유리하다. 즉, 면역 회피가 크면 더 많은 감수성 숙주를 만난다.
- 비항원성 요인: 단백질 안정성, 수용체 결합, 세포 진입, 복제 효율처럼 면역 바깥의 요소도 성장 속도에 영향을 준다.
중요한 점은 이 둘을 더한 뒤, 지역별 실제 성장 데이터와 다시 맞춰본다는 것이다. 저자들은 모델이 설명하지 못하는 성장 차이가 있으면 보정 항을 둬서 흡수한다. 이 과정은 단순히 정확도를 높이기 위한 기술이 아니라, 모델이 놓친 생물학적 요인이 어디에 있는지 드러내는 탐지기이기도 하다. 예를 들어 표면 단백질 하나만 봐서는 놓칠 수 있는 효과가 실제 데이터에서 튀어나올 수 있다.
그리고 이 fitness를 바탕으로 미래 빈도를 예측한다. 직관은 간단하다. 지금 점유율이 높고, 앞으로도 평균보다 빨리 늘 클레이드가 다음 시즌에 유리하다. 다만 완전히 새로운 변이가 중간에 등장할 수 있으므로, 현실적인 예측 창은 길어야 약 1년 안팎이다. 저자들은 이 정도가 현재 방법론의 실용적인 범위라고 본다.
백신 평가는 “얼마나 막느냐”보다 “무엇을 추가로 막아주느냐”가 중요하다
백신 후보를 고를 때 흔히 빠지기 쉬운 함정이 있다. 백신이 바이러스를 잘 막는지 보는 것만으로는 부족하다는 점이다. 실제 사람들은 이미 여러 번 감염되었거나 백신을 맞은 상태다. 따라서 더 중요한 질문은 이 백신이 기존 면역 위에 무엇을 더 얹어주느냐다.
논문은 이를 두 단계로 나눈다.
- 순수 보호력: 면역이 전혀 없다고 가정했을 때, 특정 백신이 각 클레이드를 얼마나 잘 막는가.
- 차등 보호력: 이미 존재하는 집단 면역을 빼고 난 뒤, 그 백신이 실제로 추가해 주는 보호가 얼마인가.
이 두 번째 개념이 특히 중요하다. 겉으로는 백신이 넓게 듣는 것처럼 보여도, 인구 집단이 이미 비슷한 계통에 대한 면역을 충분히 갖고 있다면 추가 가치는 작을 수 있다. 반대로 기존 면역이 약한 구멍을 정확히 메우는 백신은 평균 보호력보다 실제 효용이 더 높을 수 있다.

그림 5. 새 백신 후보는 단순히 “더 최근 것”이 아니라, 실제로 다음 유행 계통을 더 잘 덮는 후보여야 한다.
그림 5에서 볼 크롭 포인트
- 패널 A와 B의 주사기 표시가 있는 가지: 백신 후보가 계통도 어디에 놓이는지 보여준다. 이 위치는 단순 라벨이 아니라, 어느 계통까지 비슷한 면역을 줄 수 있는지의 기준점이다.
- 패널 A와 B에서 노란색이 점점 붉은색으로 바뀌는 영역: 계통도가 백신 계통에서 멀어질수록 보호가 약해진다는 뜻이다. 이전 시즌 백신이 시간이 갈수록 붉게 물드는 장면은, 면역 회피가 실제로 백신 적합도를 깎아먹는다는 사실을 매우 직관적으로 보여준다.
- 패널 C와 D에서 서로 교차하는 평균 보호 곡선: 업데이트된 백신이 왜 필요한지를 한눈에 보여준다. 과거 백신의 평균 보호는 내려가고, 새 백신의 평균 보호는 다음 시즌 계통에 맞춰 올라간다.

그림 6. 실제 의사결정에 가까운 지표는 순수 보호력이 아니라, 기존 집단 면역 위에 덧붙는 차등 보호력이다.
그림 6에서 볼 크롭 포인트
- 패널 A와 B의 세 칸 비교: 왼쪽은 현재 인구가 이미 갖고 있는 면역, 가운데는 백신이 줄 수 있는 순수 보호, 오른쪽은 둘을 겹쳐본 뒤 남는 추가 이익이다. 이 세 장을 나란히 봐야 백신의 실전 가치가 읽힌다.
- 패널 A와 B의 오른쪽 차등 보호 지도: 바로 이 패널이 백신 선택의 핵심이다. 기존 면역으로는 비어 있는 구간에 새 백신이 얼마나 보호를 더해 주는지, 즉 면역의 빈틈을 얼마나 메우는지가 보인다.
- 패널 C와 D의 빨간 곡선: 추가 보호의 시간 추이다. 시간이 지나며 기존 감염이 누적되면 백신이 만들어 주는 추가 이익이 줄 수 있다. 그래서 백신 평가는 “현재 얼마나 넓게 듣는가”보다 다음 시즌까지 얼마나 의미 있는 이익을 유지하는가로 봐야 한다.
이 논문이 실제로 새롭게 보여주는 것
첫째, 진화 예측을 돌연변이 목록 문제가 아니라 면역 지형 위의 경쟁 문제로 재정의했다는 점이 크다. 어떤 변이가 있느냐보다, 그 변이가 놓인 계통 배경과 숙주 집단의 면역 공백이 더 중요하다는 메시지가 분명하다.
둘째, 항원성 데이터를 “새 변이가 얼마나 달라 보이느냐” 수준에서 끝내지 않고, 집단 수준 보호와 백신 가치로 연결했다는 점이 실용적이다. 이 연결 고리가 있어야 실험실 데이터가 실제 백신 회의의 언어로 번역된다.
셋째, 예측의 단위를 개별 변이보다 클레이드와 면역 클래스로 올려놓았다는 점이 강하다. 바이러스는 클레이드끼리 경쟁하고, 사람도 “최근에 어떤 계통을 만났는가”에 따라 크게 다른 면역 상태를 갖는다. 이 두 종류의 묶음을 동시에 세우는 순간, 서열과 역학과 혈청 실험이 한 좌표계 안에 들어온다.
넷째, 이 프레임은 독감에만 닫혀 있지 않다. 논문은 SARS-CoV-2에도 같은 논리를 적용할 수 있음을 보여주고, 사람 혈청 데이터와 딥 뮤테이셔널 스캐닝 같은 더 풍부한 입력이 붙으면 예측력이 더 좋아질 여지를 남긴다.
그래도 남는 한계는 분명하다
- 감시 데이터의 속도와 품질에 크게 의존한다. 새 계통을 늦게 발견하면, 그만큼 예측도 늦어진다.
- 동물 혈청을 사람 면역의 대리 변수로 쓰는 한계가 있다. 실제 사람은 감염과 접종 이력이 훨씬 복잡하다.
- 사람의 면역 이력을 거칠게 묶을 수밖에 없다. 최근 감염이나 접종을 중심으로 면역 클래스를 만들지만, 오래된 노출과 면역 각인은 완전히 복원하기 어렵다.
- 돌연변이 간 상호작용 문제가 남아 있다. 단일 변이의 효과를 더하는 방식만으로는 실제 유행주에서 나타나는 조합 효과를 다 설명하기 어렵다.
- 예측 창은 무한하지 않다. 완전히 새로운 고성장 변이가 등장하면, 기존 추적 정보의 가치가 빠르게 떨어진다.
정리
이 논문이 중요한 이유는, 바이러스 진화를 “나중에 설명하는 학문”에서 “조금이라도 먼저 읽어 의사결정에 쓰는 체계”로 밀어 올렸기 때문이다. 서열 계통도는 누가 누구의 후손인지 알려주고, 역학 데이터는 어디서 얼마나 크게 퍼졌는지 알려주며, 항원성 데이터는 누가 누구를 피하는지 알려준다. 저자들은 이 세 가지를 같은 시간축 위에 놓고, 여기에 분자 수준의 기능 정보를 더해 미래 우세 계통과 백신 후보의 상대적 가치를 동시에 평가하는 틀을 만들었다.
백신 선택을 정말 잘하려면 “현재 가장 많은 변이”가 아니라 다음 시즌에 면역 지형의 빈틈을 찌를 계통을 골라야 한다. 이 논문은 바로 그 문제를 풀기 위해, 진화 예측을 유전학·면역학·역학의 접점 위로 가져다 놓는다. 그래서 이 글의 결론도 단순하다. 앞으로의 바이러스 예측 경쟁력은 더 많은 서열을 모으는 데서 끝나지 않고, 서열을 면역과 유행 규모의 언어로 번역하는 능력에서 갈릴 가능성이 크다.
'AI 생성 글 정리 > bio' 카테고리의 다른 글
| Predicting genetic evolution of viruses to identify suitable vaccines using artificial intelligence 정리 (0) | 2026.04.07 |
|---|---|
| Predicting pathogen evolution and immune evasion in the age of artificial intelligence 정리 (0) | 2026.04.07 |
| Caduceus 논문 정리 (0) | 2026.04.06 |
| NucleusDiff 논문 정리 (0) | 2026.04.06 |
| GeneAgent 논문 정리 (0) | 2026.04.06 |