논문 정리: Benchmarking DNA Foundation Models: Biological Blind Spots in Evo2 Variant-Effect Prediction

한 줄 요약
이 논문은 Evo2의 zero-shot 변이 효과 예측(variant-effect prediction, VEP)이 전체 성능 지표만 보면 꽤 좋아 보이지만, 실제로는 코돈 사용 편향, 미토콘드리아 유전부호, tRNA의 구조적 국소성, NUMT 구분 같은 잘 알려진 생물학적 제약을 안정적으로 반영하지 못한다고 주장한다.

논문 메타

저자: Vihaan Mathur, Ravi Sachidanandam
상태: bioRxiv preprint (peer review 전 단계)
업로드된 PDF 기준 DOI: 10.64898/2026.03.10.710786
라이선스: CC-BY 4.0
이 문서의 figure 처리 방식: 제공된 PDF에서 그림 영역만 중심으로 crop했고, 캡션은 블로그용으로 다시 정리했다. 본문 캡션/페이지 번호도 함께 적어 두었다.

3분 요약

이 논문의 핵심 질문은 단순하다. DNA foundation model이 정말 “생물학을 이해”하는가, 아니면 단지 큰 서열 데이터에서 자주 보이는 통계 패턴만 잘 맞추는가?

저자들은 이 질문에 답하기 위해, Evo2를 단순 벤치마크 리더보드가 아니라 잘 알려진 biological ground truth 앞에 세운다. 예를 들어,

사람 핵 유전체의 코돈 사용 편향(codon usage bias) 을 반영하는지,
미토콘드리아 특유의 start/stop codon 규칙을 구별하는지,
tRNA 변이의 점수가 실제로는 무관해야 하는 주변 문맥(flanking context) 에 흔들리지 않는지,
NUMT(핵 유전체에 삽입된 mtDNA 조각)를 진짜 mtDNA와 구분하는지,
모델의 log-probability가 진화적 보존성(conservation) 과 맞물리는지 등을 본다.

결론은 꽤 날카롭다. aggregate metric은 나쁘지 않지만, 생물학적으로 꼭 알아야 할 신호들에서 blind spot이 반복적으로 드러난다. 따라서 이 논문은 “Evo2가 완전히 쓸모없다”기보다, 좋은 AUROC가 곧 biologically grounded model을 의미하지는 않는다는 점을 보여준다.

핵심 포인트 5가지

이 논문은 성능 자랑보다 “무엇을 놓치는가”를 묻는다.
평가 철학 자체가 중요하다.
Evo2는 전체 지표로는 괜찮아 보인다.
mtDNA pathogenicity prediction에서 test AUROC 0.896, balanced accuracy 87.6% 수준이다.
하지만 short-range biology에서 약점이 선명하다.
코돈 사용 편향을 거의 못 잡고, mtDNA 특유의 start/stop codon 규칙도 자주 틀린다.
가장 강한 증거는 tRNA permutation test다.
같은 tRNA 서열을 다른 위치로 옮기기만 했는데 sensitivity가 65.8%에서 5.1%로 붕괴한다.
핵심 결론은 “zero-shot alone is not clinic-ready”다.
임상용 해석기라면 confusion matrix와 category별 failure mode를 먼저 봐야 한다는 메시지다.

연구 질문과 평가 설계

저자들은 Evo2에 대해 세 층위의 질문을 던진다.

Short-range signals: 코돈, 단일 염기 치환, mtDNA 유전부호처럼 아주 짧은 범위의 생물학을 이해하는가?
Medium-range signals: tRNA 같은 구조적 요소를 주변 문맥과 분리해서 볼 수 있는가?
Long-range signals: gene completion, NUMT 구분, conservation 같은 더 긴 문맥을 biologically meaningful하게 통합하는가?

아래 표가 이 논문의 설계를 가장 압축적으로 보여준다.

테스트	생물학적으로 기대되는 행동	Evo2에서 본 결과	해석
Codon usage bias	선호되는 synonymous codon을 더 높은 확률로 봐야 함	거의 무작위에 가까움	코돈 수준 제약을 충분히 내재화하지 못함
mtDNA start/stop codon	미토콘드리아의 비정형 codon 규칙을 구별해야 함	많은 보존적 변이를 pathogenic으로 판정	핵/미토콘드리아 유전부호를 안정적으로 분리하지 못함
Overall mtDNA VEP	pathogenic vs benign을 어느 정도 구분해야 함	aggregate metric은 괜찮음	겉보기 성능은 준수
Region/class stratification	범주가 달라도 일관된 성능이 필요	D-loop, RNA, benign missense에서 약점	평균 지표가 범주별 실패를 가림
tRNA permutation	tRNA 내부 서열이 같으면 점수도 거의 같아야 함	sensitivity 65.8% → 5.1%	주변 문맥에 과도하게 끌림
Gene completion / NUMT	보존된 기능/진짜 compartment를 더 잘 반영해야 함	익숙한 서열, mtDNA reference 쪽으로 치우침	biology보다 sequence familiarity에 가깝다는 해석 가능
Conservation correlation	보존된 위치에 더 높은 likelihood를 줘야 함	ρ=0.77이지만 local alignment는 불안정	일부 신호는 잡지만 정교하게 일치하지 않음

방법 요약: 저자들이 실제로 어떻게 검증했나

모듈	설정
Codon bias test	사람 TTN exon 305의 966 codon에서 wobble base 분포를 예측하고, 실제 codon frequency와 Jensen–Shannon divergence(JSD) 비교
mtDNA VEP	pathogenic 130개, benign 623개의 mtDNA variant 세트 구성. `ΔL = MLL(alt) - MLL(ref)` 로 변이 disruption score 계산
Context sensitivity	flank 길이를 32~8192 bp까지 바꿔가며 점수 민감도 확인
tRNA permutation	mtDNA의 22개 tRNA 위치를 cyclic permutation. tRNA 내부 서열은 그대로, 주변 문맥만 변경
Gene completion	인간 포함 10개 종의 mtDNA 유전자에서 masked-middle / forward / backward completion 평가
NUMT test	chr1의 high-identity NUMT에 핵 upstream context를 붙여 continuation 생성. mtDNA와 NUMT 중 어느 쪽 염기를 따르는지 관찰
Conservation	mt-RNR1의 250 bp 구간에서 Evo2 log-probability와 PhyloP conservation의 Spearman 상관 계산

Figure로 읽는 핵심 결과

Figure 1. 이 논문의 평가 프레임워크: “성능”이 아니라 “어떤 생물학을 놓치나?”

원문 Figure 1, p.3. Short / medium / long context benchmark의 전체 개요.

이 그림은 논문의 문제의식을 가장 잘 보여준다. 저자들은 benchmark를 짧은 문맥–중간 문맥–긴 문맥으로 나누고, 각 길이 스케일마다 잘 알려진 biological signal을 배치한다. 즉, “모델이 점수가 높은가?”보다 “어느 길이 스케일에서 어떤 생물학을 놓치나?” 를 보겠다는 설계다.

블로그에서는 이 그림을 기준으로 글 전체를 잡으면 좋다.
핵심 메시지: 이 논문은 단일 점수 경쟁이 아니라 biological audit 에 가깝다.

Figure 2. 전체 mtDNA pathogenicity prediction은 꽤 좋아 보인다

원문 Figure 2, p.6. test set에서 benign/pathogenic의 ΔL 분포와 cutoff.

저자들은 mtDNA 변이에 대해 ΔL = MLL(alt) - MLL(ref) 를 사용한다.
즉, 변이 대립유전자(alt)가 reference보다 모델이 보기에는 얼마나 “덜 그럴듯한가” 를 수치화한 것이다. 값이 더 음수일수록 더 disruptive하다고 본다.

이 그림만 보면 결과는 나쁘지 않다.

True positive rate: 90.2%
True negative rate: 85.0%
Balanced accuracy: 87.6%

하지만 히스토그램을 자세히 보면 benign과 pathogenic 분포가 꽤 겹친다.
즉, 전반적으로는 구분이 되지만, threshold 하나로 안정적으로 나뉘는 수준은 아니다.

블로그 포인트:
“headline metric은 괜찮지만, 분포가 깨끗하게 갈라지지는 않는다.”

Figure 3. 범주별로 보면 약점이 훨씬 분명해진다

원문 Figure 3, p.8. D-loop, RNA, synonymous, missense로 나눈 confusion matrix.

이 그림이 중요한 이유는 aggregate metric이 숨기는 category-specific failure 를 보여주기 때문이다.

Protein-coding missense: pathogenic은 잘 잡지만 benign missense를 꽤 많이 pathogenic으로 오분류한다.
RNA (tRNA+rRNA): sensitivity가 낮아지고 false negative가 생긴다.
D-loop: benign을 pathogenic으로 잘못 부르는 비율이 높다.

저자들이 계속 강조하는 것도 이 지점이다.
AUROC가 높아도, 실제로는 특정 범주에서 clinically problematic한 error structure가 있을 수 있다.

블로그에서 쓸 만한 문장:
“Evo2는 평균적으로는 괜찮아 보이지만, category별 confusion matrix로 내려가면 약점이 드러난다.”

Figure 4. ROC 곡선만 보면 안 되는 이유

원문 Figure 4, p.9. ROC, OXPHOS complex별 성능, genomic category별 성능, disease severity별 판정률.

이 그림은 논문의 메시지를 한 번 더 밀어붙인다.

(A) ROC curve만 보면 “잘 되는 모델”처럼 보인다.
(B) OXPHOS complex별 정확도는 어느 정도 좋아 보인다.
(C) 하지만 genomic category별로 보면 D-loop가 가장 약하다.
(D) disease severity에 따른 결과도 직관적이지 않다.

이 부분은 블로그에서 꼭 짚을 만하다.
저자들은 캡션/본문에서 “severe variant에서 성능이 더 나쁘다”는 취지로 설명하지만, 패널 D 막대값 자체는 mild 100.0%, moderate 80.0%, severe 94.7% 로 보인다. 즉, 시각적으로는 moderate가 가장 낮다.

또 하나의 디테일: 패널 A 플롯 제목에는 AUC=0.928 이라고 보이지만, 캡션·본문·비교표(Table 2)에서는 AUROC=0.896 이라고 적는다.
블로그에서 이 점을 과하게 비판할 필요는 없지만, “figure/title와 caption/table 값이 완전히 일치하지 않는 대목이 있다” 정도는 메모해 둘 만하다.

핵심은 이것이다.
ROC 하나만 보고 biology를 이해했다고 말하기는 어렵다.

Figure 5. 이 논문의 가장 강한 장면: tRNA permutation test

원문 Figure 5, p.11. 같은 mt-tRNA 서열을 다른 위치로 옮겼을 때 confusion matrix가 어떻게 바뀌는지.

이 실험은 매우 깔끔하다.
mtDNA의 22개 tRNA 위치를 cyclic permutation 해서 tRNA 내부 서열은 그대로 두고, 오직 주변 문맥만 바꾼다. 생물학적으로 tRNA 변이의 효과는 주로 tRNA 자체의 구조와 기능에 의해 결정되므로, 이 조작은 거의 null test 에 가깝다.

그런데 결과는 극적이다.

원래 문맥: sensitivity 65.8%
위치 permutation 후: sensitivity 5.1%

즉, 같은 tRNA인데 주변에 어떤 서열이 붙어 있느냐 에 따라 병원성 판정이 무너진다.
저자들의 해석은 분명하다. Evo2가 tRNA의 intramolecular structure 보다 flanking context 에 과도하게 끌리고 있다는 것이다.

블로그에서 이 결과는 강하게 써도 된다.
이 논문 전체에서 가장 설득력 있는 blind-spot 증거는 Figure 5다.

Figure 6. Gene completion도 biology보다 familiarity 쪽에 가깝다

원문 Figure 6, p.12. 종/유전자 클래스별 completion accuracy와 human OXPHOS complex별 비교.

이 그림이 말하는 바는 두 가지다.

첫째, 인간 서열에서 가장 잘 맞춘다.
저자들은 이것을 “보존성(conservation) 때문”이라기보다 training data familiarity 의 가능성으로 읽는다.
실제로 인간이 가장 잘 맞는다고 해서, 그것이 가장 생물학적으로 제약된 영역이라는 뜻은 아니다.

둘째, 기능적으로 더 제약된 complex가 항상 더 잘 맞는 것도 아니다.
예를 들어 저자들은 Complex III가 가장 constraint가 강한데도 completion accuracy가 가장 낮다고 지적한다.
즉, completion 성능이 꼭 biological constraint 를 따라가지 않는다.

추가로, 이 figure는 블로그에서 언급할 만한 편집상 포인트가 하나 더 있다.
시각적으로는 (A), (B), (C) 세 패널이 보이지만, 캡션 본문은 A와 B만 설명한다. 패널 C는 그림상으로는 OXPHOS amino-acid similarity by species 를 보여주지만, 캡션 설명은 생략되어 있다.

Figure 7. Conservation과 어느 정도는 맞지만, 정교하게 맞는 것은 아니다

원문 Figure 7, p.14. mt-RNR1 250 bp 구간에서 Evo2 log-probability와 PhyloP conservation 비교.

저자들은 Spearman 상관 ρ = 0.77 을 보고 “완전히 무관한 것은 아니다”라고 본다.
즉, Evo2가 보존된 위치에 더 높은 가능도를 주는 경향은 어느 정도 있다.

하지만 그림을 보면 문제가 남는다.

local conservation peak와 Evo2 log-probability peak가 깔끔하게 맞물리지 않는다.
sustained conservation region을 모델이 매끈하게 따라간다고 보기 어렵다.
오른쪽 아래의 PhastCons vs PhyloP 비교가 오히려 baseline처럼 보일 정도로, Evo2의 대응은 거칠다.

따라서 이 결과는 “보존성을 일부 반영한다”는 뜻이지,
“보존성이라는 생물학을 정교하게 이해한다” 는 뜻은 아니다.

Supplementary Figure 8. 왜 tRNA permutation test가 타당한가를 보여주는 보충 그림

원문 Supplementary Figure 8, p.19. MT-TL1 tRNA의 MELAS 관련 변이 위치.

이 보충 그림은 본문 Figure 5의 논리를 받쳐 준다.
저자들은 MELAS 관련 변이인 m.3243A>G 와 m.3252A>G 를 예로 들며, 병원성의 핵심이 주변 게놈 문맥이 아니라 tRNA 내부 구조 에 있다는 점을 보여주려고 한다.

즉, Figure 5의 permutation 실험은 억지 조작이 아니라,
“진짜 causal biology가 무엇인가?” 를 정면으로 찌르는 설계라고 볼 수 있다.

Supplementary Figure 9. Forward만으로는 충분하지 않다

원문 Supplementary Figure 9, p.22. masked-middle completion에서 forward vs backward가 어느 쪽이 더 잘 맞는지.

이 그림은 중심 메시지와 직접 연결되는 핵심 figure는 아니지만, gene completion 해석에는 중요하다.
저자들은 forward direction이 더 자주 이기지만, 상당수 유전자에서는 backward direction이 더 잘 맞는다고 말한다.
이는 upstream context만으로는 충분하지 않고, downstream context도 정보가 있다는 뜻이다.

그림 밖에서 꼭 봐야 할 표와 숫자

1) Codon usage bias 결과는 생각보다 더 약하다

Mean JSD: 0.254
선호 wobble base를 top prediction으로 맞힌 비율: 24.4%
선호 codon에 준 평균 확률: 28.5%

해석은 분명하다.
사람 코돈 사용 편향을 거의 반영하지 못했다는 것이다. 24.4%는 4개 염기 중 하나를 고르는 거의 균등 분포(25%)에 가까운 수준이다.

2) mtDNA start/stop codon 보존 변이도 자주 pathogenic으로 본다

Variant class	Total	Pred. pathogenic	Pred. benign	Pred. pathogenic 비율
Start codon preserving	26	26	0	100%
Stop codon preserving	22	16	6	72.7%

이 표는 Evo2가 핵의 표준 유전부호와 mtDNA의 특수 규칙을 충분히 분리하지 못한다는 증거로 제시된다.

3) Evo2는 모든 면에서 SOTA가 아니다

Metric	Evo2	APOGEE2	우위
MCC	0.631	0.569	Evo2
Precision	0.500	0.431	Evo2
auPRC	0.674	0.716	APOGEE2
auROC	0.896	0.950	APOGEE2
Balanced accuracy	0.846	0.888	APOGEE2
Specificity	0.825	0.903	APOGEE2

저자들이 강조하는 포인트는 이렇다.
zero-shot foundation model이 인상적인 면은 있지만, mtDNA 전용 supervised predictor(APOGEE2)가 대부분의 핵심 지표에서는 더 낫다.

4) 그래도 완전히 아무 biological signal도 못 잡는 것은 아니다

Mutation type	Count	Mean `ΔL`	Median `ΔL`
Transition	727	-0.00599	-0.00528
Transversion	46	-0.01131	-0.00993

transversion이 더 negative한 ΔL 를 받는다.
이는 자연 변이에서 transition이 transversion보다 더 흔하다는 사실과 어느 정도 맞는다. 즉, Evo2가 염기 수준의 mutational bias 는 일부 포착하고 있다는 뜻이다.

5) NUMT에서는 mtDNA reference 쪽으로 끌린다

NUMT continuation accuracy는 prefix 길이에 따라 달라지지만, 중요한 포인트는 따로 있다.
NUMT와 mtDNA가 갈라지는 위치에서 Evo2가 반복적으로 mtDNA allele을 택한다는 점이다.
저자들의 해석대로라면, Evo2는 NUMT를 진짜 mtDNA처럼 취급하는 경향 이 있다.

이 논문의 핵심 주장, 한 문장씩 정리하면

좋은 aggregate metric ≠ 좋은 biological grounding
confusion matrix를 category별로 봐야 실제 failure mode가 보인다
Evo2는 일부 low-level mutation statistics는 잡지만, 핵심 biological constraint를 안정적으로 내재화하지 못했다
특히 tRNA와 mtDNA genetic code 관련 결과는 임상 적용 주장에 직접적인 의문을 제기한다
zero-shot DNA foundation model은 standalone clinical classifier라기보다 supervised pipeline의 한 요소로 보는 편이 낫다

이 논문이 중요한 이유

이 논문이 흥미로운 이유는 “Evo2를 이겼다/졌다”가 아니라, genomic foundation model을 어떻게 평가해야 하는가에 대한 기준을 제안하기 때문이다.

기존에는 대개 큰 downstream benchmark에서 AUROC나 accuracy를 보고 “잘 된다”고 말하기 쉽다.
그런데 저자들은 다음과 같은 질문을 던진다.

이 모델은 생물학적으로 반드시 불변이어야 할 것에 불변적인가?
이 모델은 잘 알려진 causal mechanism 을 반영하는가?
이 모델은 기능적 서열과 비기능적 복제본(NUMT, pseudogene-like context) 을 구별하는가?
평균 지표 말고 어디서 어떤 오류를 내는가?

이 질문들은 Evo2 하나를 넘어, 앞으로의 DNA foundation model benchmarking에서도 그대로 중요하다.

해석할 때 주의할 점

이 논문은 preprint다.
아직 peer review를 거치지 않았다.
평가의 중심이 mtDNA에 많이 놓여 있다.
그래서 결과를 모든 genomic task로 곧바로 일반화하면 안 된다.
비판적이지만 완전히 부정적이지는 않다.
저자들도 transition/transversion bias나 일부 conservation signal처럼 Evo2가 포착한 부분은 인정한다.
논문 내부의 수치/캡션 정합성은 조금 더 확인해 볼 만하다.
Figure 4A의 AUC 표기, Figure 4D 설명, Figure 6의 패널 설명 누락 등은 블로그에서 “세밀하게 읽었다”는 포인트로 활용할 수 있다.

6문장 요약

이 논문은 Evo2의 zero-shot 변이 효과 예측이 실제 생물학을 얼마나 반영하는지 따져 묻는다.
전체 성능만 보면 Evo2는 꽤 좋아 보이지만, 코돈 사용 편향이나 미토콘드리아 특유의 유전부호 같은 기본적인 biological constraint에서는 약점이 드러난다.
특히 같은 tRNA 서열의 위치만 바꿨을 뿐인데 pathogenicity sensitivity가 65.8%에서 5.1%로 무너지는 결과는, 모델이 causal biology보다 주변 문맥에 과도하게 끌린다는 강한 신호다.
NUMT 실험에서도 Evo2는 핵 유전체 안의 mtDNA 조각을 실제 mtDNA처럼 다루는 경향을 보였다.
즉, 좋은 AUROC가 곧 biologically grounded model을 의미하지는 않는다.
이 논문은 DNA foundation model을 평가할 때 평균 점수보다 어떤 생물학을 놓치는지를 먼저 봐야 한다는 기준을 제시한다.

최종 총평

이 논문은 Evo2를 단순히 “성능이 좋다/나쁘다”로 재단하지 않는다.
대신 foundation model의 서열 통계 능력과 실제 biological understanding 사이에 간극이 있음을 보여준다.

블로그에서 가장 강하게 살릴 만한 문장은 이것이다.

Evo2는 zero-shot VEP에서 꽤 좋은 수치를 내지만, 그 수치가 곧 생물학적 이해를 보장하지는 않는다.

이 한 문장이 논문 전체를 가장 잘 요약한다.

참고 정보

원문 제목: Benchmarking DNA Foundation Models: Biological Blind Spots in Evo2 Variant-Effect Prediction
출처: 제공된 PDF 원문 기준
DOI: 10.64898/2026.03.10.710786
라이선스 표기: 원문 PDF에 CC-BY 4.0으로 표기되어 있음
이 문서에 포함된 그림: 제공된 PDF에서 직접 crop한 원문 figure 이미지

'AI 생성 글 정리 > bio' 카테고리의 다른 글

Enformer 논문 핵심 정리 (0)	2026.04.03
DNABERT-2 논문 핵심 정리 (0)	2026.04.03
PATH-ORACLE 논문 핵심 정리 (0)	2026.04.03
Universal Cell Embeddings(UCE) 논문 정리 (1)	2026.04.02
논문 정리: Benchmarking zero-shot single-cell foundation model embeddings for cellular dynamics reconstruction (0)	2026.04.02

Honbul과 컴퓨터