본문 바로가기
AI 생성 글 정리/bio

Generative design of novel bacteriophages with genome language models 논문 정리

by Honbul 2026. 4. 26.

한 줄 요약

이 논문은 게놈 언어모델로 완전한 박테리오파지 게놈을 설계하고, 실제로 감염 가능한 파지를 만들어낸 연구다.

핵심은 단순한 유전자 설계가 아니다.

연구진은 전체 바이러스 게놈을 생성했다.
그중 16개는 실제 세균을 감염하고 증식했다.
일부는 원래 기준 파지인 ΦX174보다 더 높은 적응도나 빠른 용균 능력을 보였다.

 

왜 어려운 문제인가

게놈은 유전자 목록이 아니다.

하나의 게놈 안에는 다음 요소가 동시에 맞물린다.

  • 단백질을 만드는 유전자
  • 유전자의 방향과 순서
  • 겹쳐 있는 유전자
  • 조절 서열
  • 복제와 포장에 필요한 인식 부위
  • 게놈 밖 요소와의 상호작용

즉, 한 부분만 잘 설계해도 전체가 작동하지 않을 수 있다.
작은 변이 하나가 전체 게놈을 무력화할 수도 있다.

이 연구의 출발점은 여기다.

언어모델이 문장의 문맥을 배우듯, 게놈 언어모델도 게놈 전체의 문맥을 배울 수 있는가?

 

주목 포인트: 생성된 서열이 기존 자연 서열을 단순 복사하지 않으면서도 바이러스다운 구조와 단백질 특징을 유지하는 흐름을 보라.

사용한 모델: Evo 1과 Evo 2

연구진은 게놈 언어모델 Evo 1Evo 2를 사용했다.

이 모델들은 DNA 서열을 문자처럼 읽는다.
그리고 앞선 서열 문맥을 바탕으로 다음 서열을 예측한다.

여기서 중요한 점은 모델이 단일 유전자만 보는 것이 아니라는 점이다.
긴 DNA 문맥을 보고, 전체 게놈 수준의 패턴을 학습한다.

초기 실험에서 모델은 다양한 바이러스 영역에 해당하는 프롬프트를 받았다.
그 결과 일부 생성 서열은 실제 바이러스처럼 분류되었다.
또한 기존 자연 서열과 낮은 유사도를 보였다.

이는 모델이 단순 암기가 아니라, 바이러스 게놈다운 설계 공간을 일부 학습했음을 시사한다.

설계 대상: ΦX174

연구진은 설계 템플릿으로 ΦX174를 골랐다.

ΦX174는 박테리오파지다.
대장균을 감염하는 작은 바이러스다.

이 선택에는 이유가 있다.

  • 게놈이 약 5.4 kb로 작다.
  • 11개 유전자를 가진다.
  • 겹친 유전자와 조절 요소가 있어 충분히 복잡하다.
  • 분자생물학에서 오래 연구된 모델이다.
  • 비병원성 대장균을 숙주로 삼아 실험적으로 다루기 쉽다.

즉, ΦX174는 작지만 단순하지 않다.
전체 게놈 설계의 시험대가 되기에 적절하다.

 

주목 포인트: 설계 파이프라인은 “생성 → 필터링 → 실험 검증”으로 끝나지 않고, 숙주 특이성과 진화적 다양성을 동시에 제어한다.

설계 파이프라인

논문의 전체 절차는 다음과 같이 요약된다.

  1. 목표 숙주를 정한다.
  2. 그 숙주를 감염하는 기준 파지를 고른다.
  3. 관련 파지 게놈 데이터를 모은다.
  4. Evo 모델을 해당 계열에 맞게 미세조정한다.
  5. 기준 파지의 시작 서열을 이용해 생성을 유도한다.
  6. 생성된 게놈을 여러 조건으로 걸러낸다.
  7. 실제로 합성하고 감염 가능성을 시험한다.

여기서 필터링은 핵심이다.

연구진은 생성 서열을 세 단계로 평가했다.

1. 기본 품질

게놈 길이, 염기 조성, 반복 서열, 단백질 예측 가능성을 확인했다.

목표는 “DNA처럼 보이는 문자열”이 아니라, 실제 파지 게놈처럼 작동할 가능성이 높은 서열을 고르는 것이었다.

2. 숙주 지향성

파지가 어떤 세균을 감염하는지는 주로 표면 단백질과 관련된다.

연구진은 ΦX174의 주요 숙주 인식 단백질과 충분히 닮은 후보를 남겼다.
이 방식으로 생성 파지가 엉뚱한 숙주로 넓게 퍼지는 것을 줄였다.

3. 다양성

너무 ΦX174와 같은 후보는 제외했다.

목표는 “기존 파지 복제”가 아니었다.
기능을 유지하면서도 새로운 진화적 공간을 탐색하는 것이었다.

실험 결과: 16개 생성 파지가 살아났다

연구진은 최종적으로 302개 후보 게놈을 골랐다.
그중 285개를 실제 실험에 올렸다.

결과는 16개 성공이었다.

이 16개 생성 파지는 대장균 C에서 성장을 억제했다.
즉, 단순히 보기 좋은 서열이 아니라 실제 감염 가능한 파지였다.

 

또한 숙주 범위도 대체로 잘 통제되었다.

ΦX174와 다수 생성 파지는 대장균 C를 감염했다.
일부는 대장균 W에서도 활성을 보였다.
하지만 시험한 다른 여러 대장균 계통에서는 활성이 관찰되지 않았다.

이는 설계 단계의 숙주 지향성 필터가 어느 정도 작동했음을 보여준다.

 

주목 포인트: 실제 성장 억제 실험에서 일부 생성 게놈이 ΦX174처럼 숙주 세균의 성장을 무너뜨리는 부분이 핵심 증거다.

새로움은 어느 정도였나

성공한 생성 파지들은 ΦX174와 완전히 같지 않았다.

수백 개의 변이를 포함했다.
일부는 유전자 길이가 달라졌고, 일부는 유전자 배치가 바뀌었다.
특정 비암호화 영역도 확장되었다.

특히 Evo-Φ2147은 가장 가까운 자연 파지와의 유사도가 낮아, 자연 분류 기준으로는 새로운 종 수준에 가까운 차이를 보였다.

 

가장 흥미로운 사례 중 하나는 Evo-Φ36이다.

이 파지는 DNA 포장에 관여하는 J 단백질을 먼 친척 파지 G4에서 온 형태로 바꾼 것처럼 보인다.
과거 연구에서는 이런 교체가 ΦX174 배경에서 잘 작동하지 않는 것으로 알려져 있었다.

하지만 Evo-Φ36은 살아 있었다.

이 말은 모델이 단백질 하나만 바꾼 것이 아니라, 그 단백질이 주변 게놈 문맥과 맞도록 전체 조합을 만든 가능성을 뜻한다.

연구진은 cryo-EM 구조 분석으로 이를 확인했다.

 

Evo-Φ36의 짧은 J 단백질은 기존 ΦX174와 다른 방식으로 캡시드 내부와 맞물렸다.
그러면서도 전체 입자는 기능을 유지했다.

 

 

주목 포인트: Evo-Φ36의 구조 분석은 “새로운 서열”이 실제 입자 구조 안에서 호환 가능한 형태로 접힌다는 점을 보여준다.

일부 생성 파지는 ΦX174보다 강했다

기능이 있다는 것과 더 잘한다는 것은 다르다.

연구진은 생성 파지들과 ΦX174를 같은 대장균 C 집단 안에서 경쟁시켰다.
그 결과 여러 생성 파지가 ΦX174와 비슷하거나 더 높은 비율로 늘어났다.

가장 눈에 띄는 것은 Evo-Φ69다.

세 번의 경쟁 실험에서 모두 높은 성과를 보였고, ΦX174보다 우세한 후보로 나타났다.

또 다른 사례는 Evo-Φ2483이다.

이 파지는 세균 집단을 더 빠르게, 더 깊게 낮췄다.
즉, 용균 능력이 강했다.

다만 용균 속도만으로 전체 적응도를 설명할 수는 없다.
파지의 성공은 감염, 복제, 조립, 방출, 재감염이 모두 맞물린 결과다.

 

주목 포인트: 경쟁 실험에서 특정 생성 파지가 ΦX174보다 꾸준히 우세한 위치에 올라서는지가 핵심이다.

저항성 세균을 더 잘 넘을 수 있는가

파지 치료의 큰 문제는 세균의 저항성이다.

세균은 표면 구조를 바꾸어 파지가 붙지 못하게 만들 수 있다.
ΦX174에 저항성을 가진 대장균도 이런 방식으로 나타났다.

연구진은 ΦX174에 저항적인 대장균 C 세 계통을 만들었다.
이들에서는 LPS 합성과 관련된 유전자 영역에 변이가 발견되었다.

그다음 두 조건을 비교했다.

  • ΦX174 단독
  • ΦX174와 16개 생성 파지를 섞은 칵테일

결과는 뚜렷했다.

ΦX174 단독은 저항성 세균을 넘지 못했다.
반면 생성 파지 칵테일은 세 저항성 계통 모두에서 성장을 억제하는 방향으로 적응했다.

CR1은 한 번의 계대 후 억제되었다.
CR2는 두 번 후 억제되었다.
CR3은 다섯 번 후 억제되었다.

분석 결과, 저항성을 넘은 파지들은 여러 생성 파지 조각의 재조합과 추가 변이에서 나온 것으로 보였다.

즉, 생성 모델이 만든 다양성이 이후 적응의 재료가 된 것이다.

 

주목 포인트: ΦX174 단독과 달리 생성 파지 칵테일은 저항성 세균을 억제하는 새 조합을 만들어낸다.

이 논문의 의미

이 연구의 주장은 명확하다.

AI가 단일 단백질이나 유전자 수준을 넘어, 작동 가능한 전체 게놈을 설계할 수 있음을 보였다.

특히 중요한 성과는 세 가지다.

  • 완전한 박테리오파지 게놈을 생성했다.
  • 실제 감염 가능한 파지를 얻었다.
  • 일부 생성 파지는 원래 기준 파지보다 더 유리한 특성을 보였다.

이는 생성 생물학의 범위를 넓힌다.

단백질 설계에서 유전자 설계로,
유전자 설계에서 전체 게놈 설계로 넘어가는 사례이기 때문이다.

한계와 주의점

이 결과를 과장해서 해석하면 안 된다.

 

첫째, 이 논문은 preprint다.
동료심사를 거친 최종 논문은 아니다.

 

둘째, 대상은 작은 박테리오파지다.
더 큰 파지나 세포성 생명체의 게놈 설계는 훨씬 어렵다.

 

셋째, 실제 치료 적용까지는 거리가 있다.
숙주 범위, 안전성, 면역 반응, 제조, 규제 문제가 남아 있다.

 

넷째, 전체 게놈 생성은 바이오안전성 문제를 동반한다.
논문은 비병원성 숙주, 파지 중심 데이터, 모델 학습 데이터 제한, 실험실 containment를 안전 장치로 제시했다.

핵심 결론

이 논문은 게놈 언어모델이 단순히 DNA 서열을 그럴듯하게 생성하는 수준을 넘어섰음을 보여준다.

모델은 게놈 안의 유전자 배치, 단백질 호환성, 숙주 지향성, 기능적 제약을 어느 정도 함께 다룰 수 있었다.

그 결과 생성된 일부 파지는 실제로 살아 있는 시스템처럼 작동했다.

가장 중요한 메시지는 이것이다.

게놈 설계는 이제 “부분 설계”에서 “전체 시스템 설계”로 이동하고 있다.

Source

  • Samuel H. King, Claudia L. Driscoll, David B. Li, Daniel Guo, Aditi T. Merchant, Garyk Brixi, Max E. Wilkinson, Brian L. Hie. Generative design of novel bacteriophages with genome language models. bioRxiv preprint, posted September 17, 2025.
  • DOI: https://doi.org/10.1101/2025.09.12.675911
  • License noted in the preprint: CC-BY 4.0 International.
  • Figures: main figures 1-6 from the preprint.