본문 바로가기
AI 생성 글 정리/bio

Evo 2 논문 핵심 정리

by Honbul 2026. 4. 1.

Genome modelling and design across all domains of life with Evo 2

논문 한 줄 요약
Evo 2는 박테리아·고세균·진핵생물을 아우르는 대규모 유전체 데이터를 바탕으로, 유전변이 예측, 생물학적 특징 해석, 유전체 수준 생성, 표적 기능 설계까지 연결하려는 범용(genome foundation) 모델이다.

원문 정보

  • 제목: Genome modelling and design across all domains of life with Evo 2
  • 저자: Garyk Brixi, Matthew G. Durrant, Jerome Ku 외
  • 저널: Nature
  • DOI: 10.1038/s41586-026-10176-5

공개 블로그 게시 전 확인
원문은 CC BY-NC-ND 4.0 라이선스로 배포되며,
논문 본문에는 adapted material(변형물) 공유 제한 문구가 포함되어 있다.
아래의 crop 이미지는 검토용 정리 자료로는 유용하지만,
공개 블로그에 그대로 재게시하기 전에는 라이선스·권리 검토가 필요하다.
공개용 블로그에는 원문 figure 링크를 달거나,
핵심 메시지를 바탕으로 직접 재도식화한 자체 그림을 쓰는 편이 더 안전하다.


1. 이 논문의 핵심 메시지

이 논문의 진짜 포인트는 단순히 “DNA를 잘 읽는 모델을 만들었다”가 아니다.
저자들이 보여주려는 것은 다음이다.

  1. 하나의 모델로 생명 전 영역을 다루는 유전체 foundation model이 가능하다.
  2. 이 모델은 단순 생성이 아니라 zero-shot 예측에도 강하다.
  3. 내부 표현을 들여다보면, 모델이 실제로 생물학적 개념을 학습하고 있음을 어느 정도 해석할 수 있다.
  4. 더 나아가 예측 모델을 결합하면, 자연 서열을 흉내 내는 수준을 넘어 원하는 기능 방향으로 유전체를 설계할 수 있다.

즉, Evo 2는 “유전체 언어모델”을 예측 + 해석 + 생성 + 설계의 플랫폼으로 확장한 논문이라고 보는 것이 맞다.


2. 왜 중요한가

기존 생물학 AI 모델은 보통 다음 중 하나에 집중하는 경우가 많았다.

  • 특정 종(species-specific) 예측
  • 짧은 서열 기반 기능 예측
  • 단백질 또는 RNA 등 단일 모달리티 중심 학습
  • 생성은 가능하지만 해석/실험 검증은 약함

Evo 2는 이 한계를 한 번에 넓히려 한다.

  • DNA 단일 염기 수준(single-nucleotide resolution) 처리
  • 최대 1M token context로 장거리 유전체 문맥 반영
  • DNA, RNA, protein, organismal fitness까지 이어지는 평가
  • 사람 변이 예측부터 미토콘드리아/세균/효모 수준 생성까지 연결
  • Enformer/Borzoi 같은 예측기와 결합한 조건부 설계까지 실험 검증

3. 논문에서 꼭 잡아야 할 5가지 포인트

포인트 1) 스케일이 단순히 크기 자랑이 아니다

Evo 2는 7B와 40B 두 버전으로 학습되었고, 특히 40B 모델은 9.3T tokens 규모 학습과 1M context를 사용한다.
이 스케일은 “긴 유전체 문맥”과 “종 다양성”을 동시에 넣기 위한 것이다.

포인트 2) 예측 성능의 핵심은 zero-shot

저자들은 별도 태스크 미세조정 없이도,

  • 돌연변이 효과
  • exon/intron 구조
  • 임상 변이 병원성
  • BRCA1 기능 변화
    등을 꽤 잘 구분할 수 있음을 보여준다.

포인트 3) 특히 non-SNV에서 강점이 눈에 띈다

사람 변이 예측에서 Evo 2는 삽입/결실 같은 non-SNV 평가에서 강한 모습을 보인다.
이건 임상적으로도 의미가 크다. 많은 모델이 missense/SNV 중심으로 강하지만, 실제 해석이 어려운 변이는 insertions/deletions/duplications 쪽에도 많기 때문이다.

포인트 4) “블랙박스” 비판에 대한 정면 대응

Sparse autoencoder(SAE)를 붙여서 내부 특징을 해석했더니,

  • prophage 영역
  • CRISPR spacer 관련 패턴
  • ORF / intergenic / tRNA / rRNA
  • 단백질 2차 구조
  • exon/intron 경계
  • 전사인자 결합 모티프
    같은 생물학적 특징과 대응되는 feature가 나온다.

포인트 5) 생성의 끝을 “실험 검증”으로 밀어붙였다

이 논문의 후반부는 단순한 샘플 생성이 아니라,

  • 미토콘드리아 게놈 유사 서열 생성
  • M. genitalium 규모의 세균 게놈 생성
  • 효모 염색체 길이의 진핵 서열 생성
  • 원하는 chromatin accessibility 패턴을 만드는 guided design
    까지 가고, 일부는 ATAC-seq로 실제 검증한다.

4. Figure 1 — Evo 2의 전체 설계도

 

무엇을 보여주나
Figure 1은 이 논문의 전체 뼈대다.
데이터, 학습 전략, 아키텍처, 처리 가능한 생물학적 길이 스케일, long-context 능력까지 한 장에 담았다.

핵심 해석

  • Evo 2는 박테리아, 고세균, 진핵생물, 파지까지 포함하는 OpenGenome2로 학습된다.
  • 학습은 두 단계다.
    1) 상대적으로 짧은 context에서 기능 요소를 먼저 익히고
    2) 이후 1M context로 확장해 장거리 관계를 학습한다.
  • 아키텍처는 StripedHyena 2를 사용해 긴 문맥에서 Transformer 대비 효율을 높이려 한다.
  • 저자들은 needle-in-a-haystack 실험으로, 1M 길이에서도 필요한 정보를 회수할 수 있음을 점검한다.

블로그 포인트

“Evo 2의 첫 번째 혁신은 단순한 파라미터 수가 아니라,
‘생물학적 다양성 + 긴 유전체 문맥’을 동시에 다루는 훈련 전략이다.”


5. Figure 2 — Evo 2는 실제 생물학 제약을 배웠는가

 

무엇을 보여주나
Figure 2는 Evo 2가 유전변이가 생물학적으로 얼마나 치명적인지 확률 변화(Δlikelihood) 로 읽어낼 수 있음을 보여준다.

핵심 결과

  • 시작코돈, 정지코돈, 코돈 주기성 같은 기초 유전부호 구조를 모델이 반영한다.
  • synonymous보다 nonsynonymous, premature stop, frameshift를 더 해로운 변화로 본다.
  • tRNA, rRNA 같은 핵심 기능 RNA에 더 민감하다.
  • 종에 따라 다른 stop codon 사용도 어느 정도 구분한다.
  • Evo 2 임베딩으로 만든 exon classifier는 여러 종에서 강한 AUROC를 보인다.
  • 유전자 essentiality 예측도 가능하지만, 특히 인간 essentiality는 아직 modest 하다.

블로그 포인트

“Figure 2는 Evo 2가 단순히 DNA 철자를 외운 것이 아니라,
‘번역이 어떻게 시작되고, 어떤 변이가 더 치명적인지’ 같은
생물학적 제약을 통계적으로 내재화했다는 증거다.”


6. Figure 3 — 사람 변이 예측에서 왜 주목받는가

 

무엇을 보여주나
Figure 3는 Evo 2의 임상적으로 가장 인상적인 결과다.
ClinVar, SpliceVarDB, BRCA1 데이터를 이용해 사람 변이 효과를 평가한다.

핵심 결과

  • coding SNV에서는 최상위 supervised 모델을 모두 넘는 것은 아니지만, zero-shot 모델 중에서는 경쟁력이 있다.
  • coding non-SNV, noncoding non-SNV에서는 매우 강하다.
  • noncoding SNV도 unsupervised 모델 중 최상위권이다.
  • splice variant 예측에서도 unsupervised 기준으로 강하다.
  • BRCA1에서는 zero-shot으로도 강하고, Evo 2 embedding 위에 얹은 간단한 supervised 모델은 AUROC 0.95, AUPRC 0.88까지 올라간다.

왜 중요한가

  • 임상 유전체 해석에서 어려운 건 흔히 “아주 전형적인 missense”보다도,
    복합적이고 비정형적인 변이다.
  • Evo 2는 바로 이 지점, 특히 non-SNV에서 강점을 보인다.

블로그 포인트

“이 논문의 임상적 임팩트는 ‘사람 변이를 잘 본다’보다
‘기존 모델이 상대적으로 약했던 변이 종류까지 본다’에 더 가깝다.”


7. Figure 4 — Evo 2 내부에서 보이는 생물학적 개념

 

무엇을 보여주나
Figure 4는 SAE 기반 해석 결과다.
Evo 2 내부 활성에서 사람이 읽을 수 있는 feature를 찾아낸다.

보이는 feature 예시

  • prophage와 연관된 feature
  • CRISPR spacer와 연결되는 phage-like signal
  • ORF / intergenic / tRNA / rRNA 구분 feature
  • α-helix / β-sheet 같은 단백질 2차 구조 feature
  • frameshift / premature stop에 민감한 feature
  • 사람 promoter의 전사인자 motif와 닮은 활성
  • exon start / exon end / intron 같은 경계 feature

왜 의미가 큰가

  • foundation model이 “잘 맞춘다”에서 멈추지 않고,
  • 무엇을 근거로 보고 있는가를 일부라도 해석할 수 있다는 점을 보여준다.
  • 특히 유전체처럼 annotation이 불완전한 영역에서는, 이런 feature가 새로운 discovery 도구가 될 수 있다.

블로그 포인트

“Figure 4는 Evo 2를 ‘성능 좋은 블랙박스’가 아니라
‘생물학적 개념이 응축된 representation space’로 바라보게 만든다.”


8. Figure 5 — 유전체 수준 생성은 어디까지 가능한가

 

무엇을 보여주나
Figure 5는 Evo 2의 생성 능력을 보여준다.
짧은 gene completion을 넘어, 미토콘드리아·세균·효모 수준으로 길이를 밀어붙인다.

핵심 결과

  • 보존된 유전자 프롬프트를 주면 gene completion이 잘 된다.
  • 사람 미토콘드리아 프롬프트로 생성한 16 kb 서열은
    CDS / tRNA / rRNA 수와 synteny가 자연 서열과 유사하다.
  • M. genitalium 규모 생성에서는 생성 유전자의 약 70%가 유의한 Pfam hit를 가진다.
    (Evo 1 131k 대비 큰 개선)
  • 효모 chromosome III 길이 수준 생성에서는 gene, promoter, intron, tRNA 구조가 일부 나타난다.

하지만 여기서 과장하면 안 되는 점

  • 저자들도 명확히 말하듯, 이런 in silico 평가는
    실제 기능성·복제 가능성을 보장하지 않는다.
  • 생성된 genome-scale 서열에는 여전히 빠진 요소들이 있고,
    완전한 synthetic genome 설계로 보기에는 이르다.

블로그 포인트

“Figure 5의 의미는 ‘이제 바로 인공 생명을 만들 수 있다’가 아니라,
‘foundation model이 genome-scale 문법을 상당 부분 흉내 내기 시작했다’는 데 있다.”


9. Figure 6 — Evo 2를 ‘설계 엔진’으로 쓸 수 있는가

 

무엇을 보여주나
Figure 6은 이 논문의 가장 미래지향적인 파트다.
Evo 2를 그냥 생성기로 쓰지 않고, Enformer/Borzoi 같은 예측 모델로 점수화하며 beam search guidance를 걸어 원하는 chromatin accessibility 패턴을 만들게 한다.

핵심 아이디어

  • Evo 2가 128 bp 단위로 후보 서열을 생성
  • Enformer/Borzoi가 목표 접근성 패턴과 얼마나 맞는지 평가
  • 더 좋은 chunk만 이어 붙여 다음 생성으로 넘어감

핵심 결과

  • compute를 더 쓰면 디자인 품질이 좋아진다.
  • “EVO2”, “LO”, “ARC” 같은 Morse code 형태 접근성 패턴을 설계하고,
  • mESC에서 실제 ATAC-seq으로 AUROC 약 0.92–0.95 수준의 검증을 보인다.
  • 인간 세포(HEK293T/K562)에서도 많은 디자인이 높은 일치도를 보인다.
  • 단순 random/bigram proposal보다 Evo 2 proposal이 더 자연스럽고, ensemble predictor 사이 합의도 더 높다.

왜 중요한가
이건 “자연스러운 서열 생성”에서 한 걸음 더 나아가
예상 phenotype 방향으로 유전체를 탐색하는 방법을 보여준다는 점에서 의미가 크다.

블로그 포인트

“Figure 6는 Evo 2가 ‘유전체를 흉내 내는 모델’이 아니라
‘목표 기능을 향해 탐색 가능한 설계 모델’로 진화할 수 있음을 보여준다.”


10. 이 논문의 강점

1) 범용성

하나의 모델 프레임으로 DNA/RNA/protein/fitness를 폭넓게 다룬다.

2) long-context의 실질적 활용

1M context를 단순 스펙이 아니라,

  • 장거리 유전체 관계
  • genome-scale generation
  • design guidance
    같은 문제에 실제로 연결했다.

3) 예측과 생성을 따로 보지 않았다

많은 논문이 둘 중 하나에 집중하는 반면, Evo 2는

  • zero-shot prediction
  • representation learning
  • generative modeling
  • guided design
    을 하나의 서사로 묶는다.

4) interpretability를 논문 중심축으로 포함

SAE를 통해 “왜 이런 신호를 읽는가”를 함께 논한다는 점이 좋다.

5) 실험 검증이 있다

특히 chromatin accessibility 설계 파트는 이 논문의 신뢰도를 크게 높인다.


11. 한계와 주의할 점

1) 모든 태스크에서 최고 성능은 아니다

예를 들어 사람 regulatory variant처럼 sequence-to-function supervised 모델이 강한 영역에서는 Evo 2가 뒤처지는 부분이 있다.

2) genome generation = 기능 보장은 아니다

생성 서열이 자연스러워 보여도, 실제 세포에서 기능하는지는 다른 문제다.

3) guided design은 계산 비용이 크다

beam search guidance는 유연하지만 inference-time compute가 많이 든다.

4) 안전성 제한은 강점이자 제약

eukaryotic virus 데이터를 학습에서 제외해 안전성을 높였지만, 그 영역 성능은 의도적으로 떨어진다.

5) foundation model의 해석 가능성은 아직 부분적

SAE 결과가 인상적이지만, 이것이 곧 전체 내부 작동의 완전한 설명은 아니다.


12. 핵심 문장 5개

  1. Evo 2는 유전체를 읽는 모델이 아니라, 예측하고 설계하는 foundation model로 가려는 시도다.
  2. 이 논문의 가장 실용적인 장점은 사람 변이 예측, 특히 non-SNV 해석 경쟁력이다.
  3. 가장 학술적으로 인상적인 부분은 SAE를 이용해 생물학적 feature를 모델 내부에서 읽어낸 점이다.
  4. 가장 미래지향적인 결과는 Enformer/Borzoi guidance를 붙여 chromatin accessibility를 설계한 부분이다.
  5. 다만 genome-scale generation이 곧바로 기능성 synthetic genome을 뜻하는 것은 아니다.

13. 짧은 요약

Evo 2는 생명 전 영역의 유전체를 학습한 대규모 foundation model이다. 이 모델의 핵심은 단순 생성 능력이 아니라, 긴 유전체 문맥을 바탕으로 돌연변이 효과를 예측하고, 내부 표현에서 생물학적 개념을 해석하며, 더 나아가 원하는 기능 방향으로 서열을 설계할 수 있다는 데 있다. 특히 사람 변이 해석에서 non-SNV에 강점을 보이고, BRCA1 같은 데이터셋에서는 zero-shot과 embedding 기반 supervised 방식 모두 인상적인 성능을 보였다. 또한 SAE 해석을 통해 exon/intron 경계, 전사인자 모티프, prophage, 단백질 2차 구조 같은 feature가 드러났고, guided design 실험에서는 실제 ATAC-seq으로 목표 chromatin accessibility 패턴을 검증했다. 한마디로 Evo 2는 “유전체 언어모델”이 어디까지 갈 수 있는지를 보여주는 논문이다.


15. 개인적인 정리 포인트

이 논문을 읽고 나면 Evo 2를 이렇게 기억하면 된다.

  • 입력 스케일: 전 생명 영역, 초장문 유전체
  • 출력 스케일: 염기 수준 변이 효과부터 유전체 수준 생성까지
  • 과학적 의미: 예측·해석·설계를 하나의 모델 서사로 묶음
  • 실전 포인트: 사람 변이 해석과 guided biological design
  • 남은 과제: 기능성 검증, 계산 효율, 안전한 공개 활용

16. 참고

  • 원문 논문 PDF를 바탕으로 정리
  • 본 문서의 이미지 crop은 원문 Figure 1–6만 발췌
  • 공개 게시 전 figure 재사용 라이선스는 반드시 별도 확인