본문 바로가기
AI 생성 글 정리/bio

Charting the virosphere: computational synergies of AI and bioinformatics in viral discovery and evolution 논문 정리

by Honbul 2026. 4. 8.

한눈에 보기

  • 이 논문은 메타게놈 시대의 바이러스 탐색이 왜 기존 방식만으로는 한계에 부딪히는지, 그리고 AI가 그 병목을 어떻게 줄일 수 있는지를 정리한 리뷰 논문이다.
  • 하지만 결론은 단순한 “AI 만능론”이 아니다.
  • 저자들이 가장 강하게 밀어붙이는 메시지는 하나다.
    AI로 넓게 찾고, 전통적 생물정보학으로 깊게 검증하는 하이브리드 워크플로가 가장 현실적이다.

이 논문이 중요한 이유

이 리뷰는 새로운 모델 하나를 소개하는 논문이 아니다.
대신 바이러스 발견 분야 전체가 어디까지 왔고, 다음에 어디로 가야 하는지를 정리한다.

핵심 기여는 세 가지다.

  1. 기존 메타게놈 기반 바이러스 탐색의 병목을 분명하게 정리한다.
  2. CNN, RNN, Transformer, GNN, 구조 기반 AI가 각각 어디에 강한지 역할별로 나눠서 설명한다.
  3. 마지막에 AI + bioinformatics 통합 워크플로를 제시하며, “탐지”와 “해석”을 어떻게 연결할지 큰 그림을 준다.

즉, 이 논문은 도구 소개보다 한 단계 위에서,
“바이러스 발견 파이프라인을 어떻게 설계해야 하는가”를 묻는 글에 가깝다.


왜 바이러스 발견은 이렇게 어려운가

바이러스는 원래 찾기 어렵다. 이유는 단순하다.

  • 변이가 빠르다.
  • 유전체가 작고 압축적이다.
  • 숙주나 세균 유래 서열이 훨씬 많이 섞여 들어온다.
  • 이미 알려진 바이러스 데이터베이스 자체가 불완전하다.

특히 기존 도구는 대체로 이런 질문을 던진다.

  • “이 서열이 이미 알려진 바이러스와 얼마나 닮았는가?”

이 접근은 알려진 종을 찾는 데는 강하다.
하지만 매우 낯선 바이러스, 즉 데이터베이스에 가까운 친척이 거의 없는 바이러스에는 약하다.

그래서 논문은 메타게놈 시대의 핵심 병목을 이렇게 요약한다.

  • 유사성 기반 탐색의 한계
  • 바이러스 다크 매터(정체를 붙이기 어려운 거대한 미분류 영역)
  • 대규모 데이터 처리 비용
  • 해석 가능성과 재현성 문제

여기서 AI가 등장한다.


이 논문의 핵심 전환: 유사성 검색에서 패턴 학습으로

기존 bioinformatics가 주로 “닮은 서열을 찾는 일”에 강했다면,
AI는 “바이러스다운 패턴을 배우는 일”에 강하다.

이 차이는 꽤 본질적이다.

  • BLAST/HMMER 같은 전통 도구는 이미 알려진 기준점이 있어야 한다.
  • AI 모델은 서열이 완전히 똑같지 않아도,
    짧은 모티프의 조합, 서열 전체의 문맥, 구조적 공통성, 숙주와의 관계망 같은 신호를 보고 바이러스 후보를 추정할 수 있다.

이 논문의 관점을 한 줄로 줄이면 이렇다.

전통 도구는 “근거를 명확히 설명하는 데” 강하고, AI는 “기존 지식 밖에 있는 후보를 넓게 건지는 데” 강하다.


전통 생물정보학 vs AI vs 하이브리드

접근 잘하는 일 약한 지점
전통 생물정보학 계통학적 해석, 기능 주석, 결과 검증 알려지지 않은 바이러스 탐지에 약함
AI 기반 접근 고도로 발산된 서열 탐지, 대규모 데이터 처리, 후보 확장 블랙박스 성격, 데이터 편향, 거짓 양성
하이브리드 접근 탐지와 검증을 동시에 확보 파이프라인 설계가 복잡하고 계산 자원이 더 필요할 수 있음

이 표가 사실상 논문 전체의 결론이다.


AI 방법론을 어떻게 이해하면 좋은가

논문은 AI를 하나의 덩어리로 보지 않는다.
각 모델은 다른 질문에 답하도록 설계되어 있다.

1) 머신러닝(ML): 사람이 정한 특징으로 먼저 분류한다

초기 ML 계열 도구의 대표 예는 VirFinder다.

이 부류는 보통 서열을 일정 길이로 잘라 본 짧은 패턴 빈도(k-mer) 를 입력으로 사용한다.
쉽게 말하면, 바이러스 서열에서 자주 보이는 “문자 조각의 조합”을 통계적으로 학습하는 방식이다.

장점은 분명하다.

  • 비교적 가볍다
  • 해석이 쉽다
  • 데이터가 충분히 정리된 문제에서는 꽤 실용적이다

하지만 한계도 뚜렷하다.

  • 사람이 정한 특징에 많이 의존한다
  • 학습 데이터가 편향되면 결과도 쉽게 편향된다
  • 전혀 새로운 계통의 바이러스에는 일반화가 약해질 수 있다

즉, ML은 여전히 유용하지만,
“바이러스 발견의 최종 해법”이라기보다 출발점에 가까운 기술로 정리된다.

2) CNN: 짧은 구간의 반복 패턴을 잘 잡는다

CNN은 원래 이미지 처리에서 강했던 모델이지만, 바이러스 서열에서도 잘 작동한다.

직관은 단순하다.

  • 긴 서열 전체를 한 번에 보는 대신
  • 작은 창(window) 을 조금씩 움직이며
  • 그 안에서 반복적으로 나타나는 국소 모티프를 잡는다

그래서 CNN은 이런 상황에 강하다.

  • 특정 단백질 기능과 연결된 짧은 보존 패턴 탐지
  • 메타게놈 데이터에서 바이러스다운 서열 조각 선별
  • 기존 데이터베이스와 멀리 떨어진 서열의 1차 스크리닝

논문이 연결해 소개한 대표 예는 DeepVirFinder다.

이 계열의 의미를 보여주는 인상적인 숫자도 나온다.

  • 딥시(深海) 메타게놈 연구에서 85,059개의 vOTU가 보고되었고
  • 그중 98.28%가 미분류 상태였다

이 숫자는 두 가지를 동시에 말해 준다.

  1. AI가 정말 많은 후보를 건질 수 있다는 점
  2. 그런데 건진 뒤에 분류와 해석의 병목이 여전히 남는다는 점

CNN의 약점도 있다.

  • 한 번에 보는 범위가 제한적이어서
  • 서열의 멀리 떨어진 두 구간이 함께 의미를 만드는 경우를 놓치기 쉽다

예를 들어, 바이러스 RNA의 앞부분과 뒷부분이 멀리 떨어져 있어도 실제로는 같이 작동할 수 있는데,
CNN은 이런 장거리 관계를 구조적으로 다루기 어렵다.

3) RNN/LSTM: 서열의 흐름을 따라가며 기억한다

RNN, 특히 LSTM은 서열을 문장처럼 순서대로 읽는 모델로 이해하면 쉽다.

이 방식의 장점은 분명하다.

  • 앞에서 본 정보를 뒤로 넘기면서
  • 서열 전체 흐름을 따라가고
  • 단편화된 조립 결과에서도 문맥을 조금 더 유지할 수 있다

논문은 RNN-VirSeeker를 대표 사례로 든다.

특히 강조되는 지점은 다음과 같다.

  • 짧고 잘린 contig
  • 비선형적이거나 조각난 바이러스 유전체
  • 500 bp 이하의 짧은 서열 조각

이런 데이터에서는 단순 CNN보다 RNN/LSTM이 더 나은 회수율을 보일 수 있다.
핵심은 “짧은 패턴”만 보지 않고, 앞뒤 관계를 이어서 본다는 데 있다.

4) Transformer: 서열 전체 문맥을 한 번에 본다

Transformer는 이 논문에서 가장 큰 전환점으로 다뤄진다.

이 모델의 직관은 다음과 같다.

  • 서열을 앞에서 뒤로 한 칸씩 읽는 대신
  • 모든 위치가 서로를 동시에 참고하게 만든다
  • 그래서 멀리 떨어진 위치 사이의 연관성도 훨씬 자연스럽게 다룬다

이 점이 중요한 이유는, 바이러스 유전체에서 의미가 항상 “가까운 곳”에만 있지 않기 때문이다.
복제, 전사, 숙주 적응과 관련된 신호는 유전체 여러 부분에 흩어져 있을 수 있다.

논문이 가장 강하게 소개하는 예는 LucaProt다.

대표 숫자는 매우 크다.

  • 51 테라베이스 규모의 서열 데이터
  • 161,979개의 신규 바이러스 종 문서화

여기서 중요한 것은 단순히 “많이 찾았다”가 아니다.

  • 사람 손으로 정렬한 데이터에 덜 의존하고
  • 라벨이 충분치 않은 환경에서도 패턴을 학습하며
  • 서열, 단백질, 구조적 단서까지 폭넓게 연결할 수 있다는 점

다만 Transformer의 대가도 크다.

  • 학습과 추론 비용이 매우 높다
  • GPU/TPU 인프라가 필요하다
  • 결과가 왜 나왔는지 설명하기 어렵다

즉, Transformer는 강력하지만 공짜가 아니다.

5) 구조 기반 AI: 서열이 달라도 접힘은 남는다

이 논문이 특히 좋은 이유는,
AI를 단순 서열 분류기로만 보지 않고 구조 예측 도구까지 포함해 다룬다는 점이다.

핵심 논리는 이렇다.

  • 서열은 많이 달라질 수 있다
  • 하지만 단백질의 3차원 접힘 구조는 더 보존적일 수 있다

그래서 서열 유사성만 보면 놓치는 바이러스도,
구조를 보면 “아, 이건 중합효소 계열이네”, “캡시드 관련 단백질이네” 같은 기능적 힌트를 얻을 수 있다.

논문에서 언급하는 대표 도구는 다음과 같다.

  • AlphaFold
  • ESMFold
  • Foldseek

이 조합이 의미하는 바는 크다.

  • AlphaFold / ESMFold: 구조를 예측한다
  • Foldseek: 예측된 구조를 빠르게 비교한다

즉, “닮은 서열이 없어서 이름을 못 붙이던 단백질”을
“닮은 구조가 있어서 기능을 추정할 수 있는 단백질”로 바꿔준다.

6) XAI: 잘 맞히는 것만으로는 부족하다

논문은 성능만 이야기하지 않는다.
설명 가능한 AI(XAI) 를 꽤 비중 있게 다룬다.

이게 중요한 이유는 명확하다.

  • 공중보건 의사결정에 쓰일 수 있는 모델이라면
  • “왜 그렇게 예측했는지”를 어느 정도는 보여줘야 한다

XAI가 필요한 장면은 많다.

  • 특정 염기 구간이나 아미노산 구간이 왜 중요했는지
  • 모델이 진짜 바이러스 신호를 본 건지,
    아니면 데이터셋 특유의 잡음을 학습한 건지
  • 모델이 생물학적으로 납득 가능한 위치에 주목했는지

논문은 Integrated Gradients, DeepLIFT, SHAP, attention visualization 같은 접근을 언급한다.
핵심은 복잡한 모델을 완전히 단순하게 만들겠다는 게 아니다.
적어도 모델의 시선이 어디에 꽂혀 있었는지는 보여주자는 것이다.

7) GNN: 바이러스 하나가 아니라 관계망을 본다

바이러스는 혼자 존재하지 않는다.

  • 숙주가 있고
  • 생태적 맥락이 있고
  • 전파 경로가 있고
  • 다중오믹스 층위가 연결되어 있다

그래서 GNN은 “서열 하나만 보고 판단하는 방식”에서 벗어나,
바이러스-숙주-환경 데이터를 그래프로 묶어서 해석한다.

논문에서 대표 예로 드는 것은 PhaGCN이다.

이 계열의 강점은 다음과 같다.

  • 숙주 예측
  • 바이러스-숙주 상호작용 추정
  • 생태 네트워크 분류
  • 교차종 전파 가능성 평가

즉, GNN은 “이게 바이러스인가?”를 넘어서
“이 바이러스가 누구와 연결되어 있는가?”까지 보려는 시도다.

 

 

Figure 1. 논문 p.3의 Figure 1. 바이러스 분석에 쓰이는 딥러닝 아키텍처 개요.

 

이 그림에서 주목할 포인트

  • 좌상단 (A) CNN 패널을 크롭해서 보면, 입력층에서 시작해 작은 필터가 여러 번 겹치며 국소 패턴을 압축해 나가는 흐름이 보인다.
    이 그림은 CNN이 짧은 모티프 탐지기라는 점을 직관적으로 보여준다. 논문이 연결한 대표 성과는 DeepVirFinder 계열이며, 관련 사례로는 85,059개의 vOTU 발견, 그중 98.28% 미분류라는 숫자가 제시된다.
    즉, CNN은 “기존 데이터베이스에 없는 후보를 많이 건지는 능력”에서 강하다.
  • 우상단 (B) RNN 패널을 크롭해서 보면, 순환 고리가 눈에 들어온다.
    이 고리는 앞부분 정보를 뒤 단계로 넘겨 주는 설계를 뜻한다. 논문은 이 구조가 짧고 조각난 contig, 특히 500 bp 이하 서열 같은 까다로운 입력에서 의미가 크다고 설명한다.
    핵심은 “현재 위치만 보지 않고, 앞에서 읽은 맥락을 함께 들고 간다”는 점이다.
  • 좌하단 (C) Transformer 패널을 크롭해서 보면, 전체 서열 문맥을 동시에 엮는 구조가 강조된다.
    이 패널은 단순 도식이지만, 논문 본문에서 연결되는 대표 스케일은 매우 크다. LucaProt는 51 테라베이스 규모의 데이터에서 161,979개의 신규 바이러스 종을 문서화했다.
    즉, Transformer의 강점은 “서열 전체를 한 번에 본다”는 설계가 실제 대규모 발견으로 이어졌다는 데 있다.
  • 우하단 (D) GNN 패널을 크롭해서 보면, 더 이상 서열 하나를 분류하는 그림이 아니다.
    노드와 엣지, 이웃 예측, 시각화, 분류가 함께 나타난다. 이건 바이러스 연구의 질문이 “무엇인가?” 에서 “누구와 연결되는가?” 로 확장됐다는 신호다.
    논문은 이 구조가 숙주 예측, 생태 네트워크 분석, 교차종 전파 위험 해석에 특히 중요하다고 본다.

서열만으로 부족할 때: 구조 기반 AI가 왜 게임 체인저인가

바이러스 단백질은 서열 수준에서는 너무 많이 달라 보여서
기존 유사성 검색으로는 잡히지 않는 경우가 많다.

그런데 구조 수준으로 가면 이야기가 달라진다.

  • RNA 의존성 RNA 중합효소(RdRp)
  • 헬리케이스
  • 캡시드 단백질

이런 핵심 단백질은 서열이 많이 변해도
기능을 수행하는 큰 구조 틀은 어느 정도 남아 있을 수 있다.

그래서 구조 기반 AI는 다음 상황에서 특히 강하다.

  1. 유사한 서열이 전혀 안 보일 때
  2. 기능 주석을 붙이기 어려울 때
  3. 새로운 계통의 바이러스를 진화적으로 어디에 둘지 감이 없을 때

논문은 이 흐름을 단순 보조 수단이 아니라,
서열 기반 AI를 보완하는 두 번째 축으로 본다.

의미도 크다.

  • 조기 기능 추정
  • 수용체 결합 부위 힌트 확보
  • 항바이러스 표적 탐색
  • 완전히 미지의 단백질에 대한 구조적 실마리 제공

즉, 구조 기반 AI는
“이 서열이 누구와 닮았는가” 대신
“이 단백질이 어떤 일을 할 수 있는 모양을 갖고 있는가”를 묻는다.


다중오믹스 통합: 바이러스의 존재를 넘어서 기능과 상태까지 본다

이 논문은 바이러스 발견을 더 이상 유전체 문제만으로 보지 않는다.
저자들은 multi-omics를 적극적으로 끌어들인다.

각 층위가 주는 정보는 다르다.

  • Genomics: 무엇처럼 보이는가
  • Transcriptomics: 지금 무엇이 실제로 발현되고 있는가
  • Epi-transcriptomics: RNA 수식이 어떻게 조절을 바꾸는가
  • Proteomics: 어떤 단백질이 실제로 존재하며 무슨 기능을 할 가능성이 높은가
  • Functional annotation: 이 모든 층위를 묶어 기능적 해석으로 연결하는 단계

이 관점이 중요한 이유는,
바이러스 발견이 단순히 “있다 / 없다”의 문제가 아니기 때문이다.

실제로 연구자가 궁금한 질문은 대개 더 구체적이다.

  • 이 바이러스가 활성 복제 중인가
  • 숙주 반응과 어떻게 연결되는가
  • 어떤 단백질이 독성, 적응, 면역 회피에 관여하는가
  • 구조까지 포함해 보면 무슨 기능을 하는가

 

Figure 2. 논문 p.8의 Figure 2. 바이러스 분석에서 multi-omics가 어떤 역할 분담을 하는지 보여주는 개념도.

 

이 그림에서 주목할 포인트

  • 좌상단 Genomics 영역을 크롭해서 보면, 유전체 조성과 k-mer 서명이 계통 식별의 출발점으로 배치되어 있다.
    즉, 가장 먼저 하는 일은 “이 서열이 어떤 계통에 가까운가”를 보는 것이다. 여기서 AI는 기존 유사성 검색이 놓치는 패턴까지 더 넓게 잡아낸다.
  • 우상단 Transcriptomics 영역을 크롭해서 보면, 핵심 문구가 “replication kinetics and host response”다.
    존재 확인만으로는 부족하고, 실제로 복제가 일어나고 있는지, 숙주가 어떻게 반응하는지를 봐야 한다는 뜻이다.
    바이러스 탐색이 정적 분류에서 동적 해석으로 넘어가는 지점이다.
  • 오른쪽 Epi-transcriptomics 영역을 크롭해서 보면, RNA 수식이 안정성과 면역 회피에 연결되어 있다.
    이건 단순 분류 이상의 문제다. 같은 바이러스라도 RNA 수준의 조절 방식이 다르면 생물학적 의미가 달라질 수 있다.
  • 좌하단 Proteomics 영역을 크롭해서 보면, 단백질 abundance와 구조가 촉매 도메인, 독성 인자와 연결된다.
    즉, 서열만으로 모호하던 후보가 실제 단백질 수준에서 기능 후보를 얻게 된다. 구조 기반 AI가 여기서 강하게 연결된다.
  • 하단 Functional Annotation 영역을 크롭해서 보면, sequence + structure embeddings가 “beyond homology”라는 문구와 함께 놓여 있다.
    이 그림은 성능 그래프가 아니라 해석 범위의 확장도다. 논문이 이 층위에 연결해 제시한 대표 스케일은 LucaProt의 51 테라베이스 분석, 구조 기반 도구들의 대규모 단백질 비교 가능성이다.
    요점은 한 가지다. 서열만으로 설명이 안 될 때, 다른 오믹스와 구조 정보가 설명력을 만든다.

XAI와 윤리: 잘 맞히는 모델보다 믿을 수 있는 모델이 더 중요하다

바이러스 탐지 AI는 성능만 높다고 끝나지 않는다.

왜냐하면 이런 모델은 장차 다음 영역에 영향을 줄 수 있기 때문이다.

  • 감염병 감시
  • 신종 병원체 경보
  • 숙주 범위 예측
  • 정책 의사결정

이런 맥락에서는 틀리지 않는 것만큼이나
왜 그렇게 판단했는지 설명할 수 있는 것이 중요하다.

논문이 XAI를 강조하는 이유는 아래와 같다.

  • 모델이 실제 생물학적 신호를 본 것인지 확인해야 한다
  • 데이터셋 편향이나 시퀀싱 아티팩트를 학습했는지 밝혀야 한다
  • 실험 검증으로 이어질 수 있는 가설을 뽑아야 한다
  • 결과를 연구실 간에 재현 가능하게 만들어야 한다

이 부분은 특히 현실적이다.
AI가 바이러스 후보를 찾아도, 그 결과를 사람이 믿지 못하면 파이프라인에서 멈춘다.


숙주-바이러스 상호작용 예측: 다음 단계는 “발견”이 아니라 “관계 해석”이다

바이러스 연구의 다음 질문은 대체로 이쪽이다.

  • 이 바이러스는 어떤 숙주를 감염할까
  • 종간 장벽을 넘을 가능성이 있을까
  • 어떤 생태 네트워크 안에서 순환할까

논문은 이 문제를 GNN 쪽과 연결한다.

이 접근의 장점은 명확하다.

  • 서열만 보지 않는다
  • 숙주 정보, 생태 정보, 오믹스 정보, 관계망 구조를 함께 본다
  • 그래서 단순 유사성보다 더 풍부한 숙주 예측이 가능해진다

다만 이 역시 AI 단독으로 끝나지 않는다.

  • 수용체 결합 부위 비교
  • 계통학적 검증
  • 실험적 검증

같은 후속 단계가 반드시 필요하다.

즉, 숙주 예측은 AI가 먼저 신호를 올리고, bioinformatics와 실험이 그 신호를 검증하는 구조가 된다.


이 논문의 진짜 핵심: 하이브리드 워크플로

저자들이 가장 강하게 제안하는 것은 결국 이 부분이다.

제안된 흐름

  1. Raw metagenomic data 입력
  2. AI 기반 스크리닝
  3. 후보 viral contig 선별
  4. 기능 주석
  5. 계통학적 검증
  6. 최종 해석 및 출력

이 흐름이 중요한 이유는 간단하다.

  • AI는 후보를 빠르게 많이 찾는다
  • bioinformatics는 그 후보를 정확하게 설명한다

즉, AI는 발견 엔진이고,
전통적 생물정보학은 해석 엔진이다.

 

 

Figure 3. 논문 p.12의 Figure 3. AI와 전통적 생물정보학을 결합한 바이러스 탐색 파이프라인.

이 그림에서 주목할 포인트

  • 왼쪽의 Raw Metagenomic Data와 AI-Based Screening 구간을 크롭해서 보면, 저자들이 AI를 “최종 판정기”가 아니라 초기 선별기로 배치했다는 점이 보인다.
    즉, 원시 데이터 전체에 BLAST를 무차별적으로 돌리기보다, 먼저 AI가 바이러스 가능성이 높은 영역을 좁혀 준다. 이 설계는 대규모 데이터에서 계산량을 줄이는 현실적 선택이다.
  • 가운데 Candidate Identification 구간을 크롭해서 보면, AI의 역할이 ‘발견’에서 멈추지 않고 ‘후보 축소’까지 이어진다.
    다시 말해, AI는 노이즈를 걷어내고 다음 단계에서 더 비싼 분석을 받을 가치가 있는 contig를 골라내는 장치다.
  • 가운데 오른쪽 Functional Annotation 구간을 크롭해서 보면, HMMER, InterProScan, Pfam, AlphaFold가 함께 적혀 있다.
    이 조합이 중요하다. 서열 기반 도메인 탐색과 구조 기반 해석을 합쳐서, AI가 찾아낸 후보가 실제로 어떤 기능을 가질 법한지 설명하려는 단계이기 때문이다.
  • 오른쪽 Phylogenetic Validation 구간을 크롭해서 보면, 이 논문이 왜 하이브리드 전략을 밀어붙이는지 명확해진다.
    AI가 아무리 잘 찾아도, 최종적으로는 정렬과 계통수 기반 맥락이 있어야 “이 바이러스가 어디에 놓이는가”를 말할 수 있다.
    저자들의 입장은 분명하다. AI가 탐지를 확장하고, 계통학이 분류의 신뢰도를 보강한다.
  • 맨 오른쪽 Output 구간을 크롭해서 보면, 최종 산출물이 단순한 “바이러스 여부”가 아니라는 점이 드러난다.
    기능 라벨, 숙주 예측, 인수공통감염 표지, 분류 정보까지 붙은 해석 가능한 결과물이 목표다.

왜 하이브리드가 가장 설득력 있는가

이 논문을 다 읽고 나면 결론은 꽤 단순하다.

AI 단독 접근의 문제

  • 거짓 양성이 늘 수 있다
  • 학습 데이터 편향이 숨은 채 남을 수 있다
  • 결과를 설명하기 어렵다
  • 계산 자원 격차가 크다

전통 bioinformatics 단독 접근의 문제

  • 새로운 바이러스에 약하다
  • 데이터베이스 의존성이 크다
  • 대규모 메타게놈에서 병목이 심하다

하이브리드 접근의 장점

  • AI로 후보 공간을 넓힌다
  • 도메인 분석과 구조 예측으로 기능 단서를 붙인다
  • 계통 분석으로 진화적 맥락을 복원한다
  • 해석 가능성과 생물학적 타당성을 함께 끌어올린다

즉, 하이브리드는 절충안이 아니라
각 방법의 약점을 서로 보완하는 구조적 해법이다.

 

 

Figure 4. 논문 p.13의 Figure 4. 고전적 패러다임에서 AI 시대, 그리고 하이브리드 시대로 넘어가는 흐름을 시각화한 도식.

이 그림에서 주목할 포인트

  • 상단 (A) 왼쪽 보라색 Classical Era를 크롭해서 보면, 논문이 기존 패러다임을 어떻게 보는지가 드러난다.
    핵심 문구는 Limited discovery다. 즉, 전통 도구는 엄밀하지만 새로운 바이러스 발굴 범위에는 구조적 한계가 있다.
  • 상단 (A) 중앙 AI Era를 크롭해서 보면, “Expanding viral horizons”라는 문구가 배치되어 있다.
    이건 AI의 역할을 정확히 요약한다. AI는 바이러스 탐색의 경계를 넓힌다. 실제로 논문이 정리한 대표 수치인 85,059 vOTU, 161,979 신규 종 같은 대규모 발견은 이 구간의 의미를 뒷받침한다.
  • 상단 (A) 오른쪽 Hybrid Era를 크롭해서 보면, 메시지가 “Integrative rigor”로 바뀐다.
    여기서 중요한 것은 발견량 자체보다 검증의 엄밀성이다. 많이 찾는 것에서 끝나지 않고, 기능과 계통, 숙주 맥락까지 붙여야 진짜 지식이 된다는 뜻이다.
  • 하단 (B) 왼쪽에서 오른쪽으로 이어지는 흐름을 크롭해서 보면, 논문이 생각하는 이상적인 계산 파이프라인이 보인다.
    출발점은 genomic fragmentation and signal identification, 중간은 feature learning and contextual encoding, 도착점은 domain-level functional reconstruction and phylogenetic integration이다.
    즉, 조각난 신호를 먼저 건지고, 그 신호를 학습 기반으로 정리한 뒤, 마지막에 생물학적 의미를 복원하는 구조다.

이 논문에서 기억할 대표 숫자

아래 수치는 이 리뷰 논문이 정리한 대표 선행연구 사례다.
즉, 리뷰 자체의 신규 실험 결과라기보다, 저자들이 “왜 AI가 중요해졌는가”를 설명하기 위해 끌어온 근거들이다.

  • 85,059개의 vOTU
    딥시 메타게놈에서 CNN 기반 접근이 드러낸 대규모 바이러스 다양성
  • 98.28% 미분류
    발견은 되었지만 기존 분류 체계로는 이름을 붙이기 어려웠던 비율
  • 51 테라베이스 규모 데이터
    LucaProt가 다룬 초대형 서열 스케일
  • 161,979개의 신규 바이러스 종
    Transformer 기반 접근이 문서화한 규모
  • 500 bp 이하의 짧은 contig 문제
    RNN/LSTM 계열이 특히 강점을 보이는 까다로운 입력 조건

이 숫자들이 같이 말하는 바는 분명하다.

  • AI는 탐지 범위를 크게 넓혔다
  • 그러나 해석과 검증은 여전히 병목이다
  • 그래서 결국 하이브리드 전략이 필요하다

비판적으로 볼 지점

이 논문은 방향 제시에는 매우 강하지만, 몇 가지는 분리해서 볼 필요가 있다.

1) 리뷰 논문이지, 단일 벤치마크 논문은 아니다

즉, 여러 도구와 사례를 폭넓게 묶어 준다는 장점이 있는 반면,
모든 모델을 같은 조건에서 직접 맞붙인 논문은 아니다.

2) AI 성능은 데이터셋 품질에 크게 좌우된다

바이러스 레퍼런스 자체가 편향되어 있으면
AI도 그 편향을 학습한다.

이 문제는 특히 아래 상황에서 커진다.

  • 환경별 데이터 불균형
  • 특정 바이러스군 과대표집
  • 시퀀싱 플랫폼 차이
  • 라벨 품질 문제

3) 높은 민감도는 종종 높은 거짓 양성과 같이 온다

새로운 후보를 많이 건지는 것은 장점이다.
하지만 실제로 바이러스가 아닌 것을 바이러스로 오인할 가능성도 함께 커질 수 있다.

그래서 이 논문은 반복해서 다음 단계를 요구한다.

  • 기능 주석
  • 구조 비교
  • 계통학 검증
  • 필요시 실험 검증

4) 계산 자원 문제는 실제 장벽이다

Transformer나 구조 기반 AI는 강력하지만,
모든 연구실이 쉽게 돌릴 수 있는 수준은 아니다.

이 부분은 기술 문제가 아니라 연구 인프라의 격차 문제이기도 하다.

5) 설명 가능성은 아직 진행 중인 과제다

XAI가 중요하다는 데는 이견이 없지만,
“어느 수준의 설명이 충분한가”에 대한 합의는 아직 약하다.

즉, XAI는 해결책이면서 동시에 아직 해결해야 할 연구 분야다.


실무 관점에서 가져갈 포인트

이 논문을 실제 연구 파이프라인 관점에서 읽으면, 아래 다섯 줄로 정리할 수 있다.

  1. AI는 검색 공간을 줄이는 선별기로 가장 먼저 투입하는 것이 실용적이다.
  2. 기능 주석은 여전히 HMMER, Pfam, InterProScan 같은 전통 도구가 중요하다.
  3. 구조 기반 AI는 서열 유사성이 무너진 구간을 구조 정보로 복원해 준다.
  4. 최종 분류와 진화 해석에는 계통학이 필수다.
  5. 숙주 예측과 인수공통감염 해석은 관계망 데이터까지 묶어야 정확도가 올라간다.

즉, “AI가 bioinformatics를 대체한다”는 식으로 읽으면 이 논문을 반만 읽은 셈이다.
저자들의 메시지는 오히려 반대다.

AI가 발견을 확장할수록, bioinformatics의 검증 역할은 더 중요해진다.


결론

이 논문이 남기는 가장 중요한 메시지는 명확하다.

  • AI는 더 많이 찾게 해준다
  • 전통적 생물정보학은 더 정확하게 이해하게 해준다

둘 중 하나를 고르는 것이 답이 아니다.

정말 필요한 것은 아래의 연결이다.

  • AI로 후보를 넓게 발굴하고
  • 기능 주석과 구조 예측으로 의미를 붙이고
  • 계통학과 숙주 맥락으로 생물학적 타당성을 검증하는 것

바이러스 발견의 다음 단계는
“AI 시대” 자체가 아니라,
AI와 bioinformatics가 서로의 약점을 메우는 하이브리드 시대라고 보는 편이 더 정확하다.


Source

  • Sinno A, Baghdadi R, Narch R, El Rayes S, Tokajian S, Al Khoury C. Charting the virosphere: computational synergies of AI and bioinformatics in viral discovery and evolution. Journal of Virology. 2025;99(12):e01554-25.
  • DOI: https://doi.org/10.1128/jvi.01554-25
  • 이 글에서 언급한 주요 수치와 사례는 위 리뷰 논문이 정리한 대표 선행연구를 바탕으로 재구성했다.