Nucleotide Transformer 논문 정리

한눈에 보는 결론

이 논문은 DNA를 “언어”처럼 다루는 대형 사전학습 모델, Nucleotide Transformer(NT)를 제안한다.

핵심은 단순하다.

DNA 염기서열을 짧은 단어처럼 쪼갠다.
일부를 가리고 맞히게 하며 모델을 사전학습한다.
학습된 표현을 유전체 예측 작업에 재사용한다.
적은 라벨 데이터에서도 좋은 성능을 낸다.

연구진은 최대 25억 개 파라미터 규모의 모델을 만들었다.

학습 데이터도 넓다.

인간 기준 유전체
1000 Genomes 기반 3,202명 인간 유전체
850종의 다양한 생물 유전체

가장 중요한 메시지는 두 가지다.

첫째, 다양한 종의 유전체로 사전학습한 모델이 인간 유전체 작업에서도 강했다.

둘째, 모델을 크게만 만드는 것보다 좋은 데이터, 긴 학습, 효율적인 구조가 더 중요할 수 있다.

왜 이 문제가 중요한가

유전체 분석의 난점은 라벨이다.

DNA 서열은 방대하다.

하지만 “이 서열이 어떤 기능을 하는가”에 대한 실험 라벨은 제한적이다.

예를 들면 다음과 같다.

이 위치가 promoter인가?
splicing site인가?
enhancer인가?
어떤 변이가 병적 영향을 줄 수 있는가?
어떤 염기서열이 특정 epigenetic mark와 관련되는가?

전통적인 딥러닝 모델은 작업마다 새로 학습해야 했다.

라벨이 적으면 성능이 흔들렸다.

NT의 접근은 다르다.

먼저 라벨 없는 대량의 DNA를 읽힌다.

그다음 각 작업에 맞게 조금만 조정한다.

이는 자연어 처리에서 BERT나 GPT 계열 모델이 보여준 전략과 닮아 있다.

DNA를 언어처럼 읽는 방법

NT는 DNA를 문자 하나씩만 보지 않는다.

여섯 개 염기를 하나의 작은 단위로 묶어 읽는다.

쉽게 말해, DNA 문장을 짧은 단어들의 나열로 바꾸는 방식이다.

사전학습 과정은 빈칸 채우기와 유사하다.

모델은 일부 DNA 단위를 가린 입력을 받는다.

그리고 가려진 부분에 어떤 염기 조합이 들어갈지 맞힌다.

이 과정을 반복하면 모델은 다음을 익힌다.

특정 위치 주변의 염기 패턴
유전자 구조의 규칙성
조절 영역의 특징
종 사이에서 보존되는 생물학적 신호

이렇게 얻은 표현은 downstream task에 재사용된다.

여기서 핵심은 전체 모델을 매번 새로 학습하지 않는다는 점이다.

논문은 가벼운 fine-tuning 방식을 사용한다.

기존 transformer의 큰 가중치는 대부분 고정한다.

대신 각 층의 정보를 다시 조절하는 작은 가중치와 작업별 예측 헤드만 학습한다.

Crop 포인트: 사전학습 단계와 fine-tuning 단계가 분리되어 있으며, 같은 DNA 표현을 여러 유전체 예측 작업에 재사용하는 흐름이 핵심입니다.

실험 설계: 18개 작업으로 넓게 검증

연구진은 NT를 단일 작업에만 맞추지 않았다.

총 18개 유전체 예측 작업을 구성했다.

작업 범위는 넓다.

histone modification 예측
enhancer 예측
promoter 예측
TATA / non-TATA promoter 구분
splice acceptor / donor 예측

비교 대상도 다양하다.

BPNet 계열 supervised CNN
DNABERT-2
HyenaDNA
Enformer
NT의 여러 크기와 학습 데이터 버전

평가는 10-fold cross-validation으로 수행했다.

분류 성능은 주로 MCC로 비교했다.

MCC는 데이터가 한쪽 라벨로 치우쳐 있을 때도 비교적 안정적인 지표다.

결과 1: NT는 범용 모델로도 강했다

Fine-tuning된 NT는 18개 작업 중 다수에서 BPNet 기준 모델을 앞섰다.

논문에서 가장 강한 초기 모델은 Multispecies 2.5B였다.

이 모델은 여러 종의 유전체를 학습했다.

흥미로운 점은 인간 작업에서도 좋은 성능을 보였다는 것이다.

이는 종 다양성이 인간 유전체 예측에도 도움이 될 수 있음을 보여준다.

단지 인간 데이터만 많이 넣는 전략보다, 더 넓은 생물학적 변이를 배우는 전략이 유리할 수 있다.

전용 모델과의 비교에서도 경쟁력이 있었다.

DeepSEA와 chromatin profile 예측에서 거의 비슷한 수준
SpliceAI-10k와 splicing 예측에서 비슷한 수준
DeepSTARR와 enhancer activity 예측에서 일부는 근접, 일부는 소폭 차이

즉, NT는 특정 작업 하나에 최적화된 모델은 아니다.

그럼에도 여러 작업에서 강한 기본 성능을 보였다.

Crop 포인트: 전체 막대 비교와 splicing 패널을 함께 보면, NT가 범용 사전학습 모델이면서도 전용 모델 수준에 접근한다는 주장이 드러납니다.

결과 2: 모델은 라벨 없이도 유전체 요소를 배웠다

이 논문의 강점은 성능 비교에만 있지 않다.

연구진은 모델 내부 표현도 분석했다.

질문은 다음이었다.

“NT가 정말 생물학적 구조를 배웠는가?”

결과는 긍정적이었다.

모델의 embedding은 다음 영역을 어느 정도 구분했다.

intergenic region
intron
coding sequence
5′ UTR
3′ UTR

특히 깊은 층으로 갈수록 여러 유전체 요소가 더 잘 분리됐다.

Attention 분석도 수행했다.

일부 attention head는 특정 유전체 요소에 집중했다.

예를 들어 enhancer, promoter, exon, 5′ UTR 같은 영역이다.

이 점이 중요하다.

모델은 “여기가 promoter다” 같은 라벨을 사전학습에서 직접 받은 것이 아니다.

그런데도 반복적인 빈칸 맞히기 과정만으로 기능적 요소의 신호를 포착했다.

Crop 포인트: embedding 분리와 attention heatmap은 NT가 단순한 문자열 통계가 아니라 유전체 기능 단위의 신호를 학습했음을 보여줍니다.

결과 3: 변이 우선순위화에도 쓸 수 있다

유전체 분석에서 중요한 문제는 변이 해석이다.

모든 변이가 질병이나 표현형에 영향을 주지는 않는다.

따라서 어떤 변이가 중요할 가능성이 높은지 우선순위를 매겨야 한다.

NT는 이 작업에도 활용됐다.

방식은 직관적이다.

하나의 변이에 대해 두 서열을 만든다.

기준 염기를 가진 서열
대체 염기를 가진 서열

그다음 두 서열이 모델 내부에서 얼마나 다르게 표현되는지 본다.

차이가 크면, 모델이 그 변이를 더 중요한 변화로 본다는 뜻이다.

이 방식은 별도의 라벨 없이도 가능하다.

논문은 이를 zero-shot score로 평가했다.

결과적으로 NT의 zero-shot score는 변이 심각도와 어느 정도 연관됐다.

또한 다음 변이 집합을 분류하는 데 활용됐다.

eQTL
meQTL
ClinVar 병적 변이
HGMD 변이

특히 병적 변이와 기능성 비암호화 변이에서 의미 있는 성능을 보였다.

이는 NT가 단순히 “염기서열을 복원하는 모델”을 넘어, 변이 영향의 힌트를 제공할 수 있음을 시사한다.

Crop 포인트: 기준 서열과 변이 서열의 표현 차이를 비교하는 흐름이 variant prioritization의 핵심 아이디어입니다.

결과 4: 더 작은 NT-v2가 더 효율적이었다

논문 후반부는 모델 최적화에 집중한다.

연구진은 NT-v2를 만들었다.

변경점은 크게 세 가지다.

더 효율적인 transformer 구조 사용
입력 문맥 길이를 12 kb로 확장
더 긴 사전학습 수행

결과가 인상적이다.

NT-v2 250M은 초기 Multispecies 2.5B보다 작다.

파라미터 수는 10분의 1 수준이다.

그런데 평균 benchmark 성능은 더 높았다.

또한 NT-v2 500M은 splicing 예측에서 SpliceAI-10k보다 높은 top-k 정확도를 보였다.

여기서 중요한 교훈은 명확하다.

모델 크기는 중요하다.

하지만 전부는 아니다.

데이터 다양성, 학습량, 구조 개선, 문맥 길이가 함께 작동할 때 더 좋은 효율이 나온다.

Crop 포인트: NT-v2 성능 막대는 더 작은 모델이 더 큰 이전 모델을 넘는 지점을 보여주며, 효율적 foundation model 설계의 의미를 압축합니다.

이 논문의 핵심 기여

1. DNA foundation model의 체계적 benchmark

논문은 단순히 새 모델 하나를 제시하지 않는다.

여러 모델, 여러 크기, 여러 데이터셋을 같은 절차로 비교했다.

이 점은 후속 연구에 중요하다.

유전체 foundation model은 모델마다 입력 길이, 학습 데이터, 평가 방식이 다르다.

따라서 공정한 benchmark가 필요하다.

NT 논문은 그 기준점을 제공한다.

2. 종 다양성의 효과를 보여줌

가장 중요한 실험 축 중 하나는 학습 데이터다.

인간 기준 유전체만 학습한 모델보다, 여러 인간 유전체나 여러 종을 학습한 모델이 더 강했다.

특히 multispecies 모델의 성능은 주목할 만하다.

이는 기능적으로 중요한 DNA 패턴이 종 사이에서 공유되거나 보존될 수 있음을 활용한 결과다.

3. 가벼운 fine-tuning의 실용성

논문은 전체 모델을 매번 다시 학습하지 않았다.

대부분의 가중치는 고정하고, 작은 조절 가중치와 예측 헤드만 학습했다.

이 방식은 저장 공간과 계산 비용을 크게 줄인다.

대형 유전체 모델을 실제 연구자가 더 쉽게 사용할 수 있게 만든다.

4. 해석 가능성 분석

NT가 어떤 유전체 요소에 주목하는지도 분석했다.

Embedding, attention, token probability 분석을 통해 모델이 gene structure와 regulatory element를 포착함을 보였다.

이는 생물학 연구에서 중요하다.

모델이 예측만 잘하는 블랙박스에 그치지 않을 가능성을 보여준다.

한계와 주의점

NT가 모든 문제를 해결하는 것은 아니다.

가장 큰 한계는 문맥 길이다.

NT-v2는 12 kb까지 확장됐지만, 유전자 발현 조절에는 더 먼 거리의 상호작용이 중요할 수 있다.

예를 들어 distal enhancer는 transcription start site에서 훨씬 멀리 떨어져 있을 수 있다.

이 영역에서는 Enformer처럼 긴 문맥을 고려하는 모델이 강점을 가진다.

또 다른 주의점도 있다.

라벨이 충분하고 특정 작업에 최적화된 supervised 모델은 여전히 강력하다.

NT의 장점은 범용성, 전이학습, 적은 데이터 상황에서 더 두드러진다.

또한 Enformer 비교에서는 원래 학습 데이터와 benchmark 데이터 사이의 잠재적 overlap 가능성도 논문이 언급한다.

따라서 수치 비교는 모델 구조와 데이터 조건을 함께 보고 해석해야 한다.

실무적으로 무엇이 달라지나

이 논문이 제안하는 방향은 명확하다.

앞으로 유전체 예측 모델은 작업별로 처음부터 학습하는 방식에서 벗어날 가능성이 크다.

대신 다음 흐름이 더 일반화될 수 있다.

대규모 unlabeled genome으로 foundation model을 학습한다.
연구자가 가진 작은 라벨 데이터로 fine-tuning한다.
promoter, enhancer, splicing, variant prioritization 같은 작업에 재사용한다.

특히 다음 상황에서 유용하다.

라벨 데이터가 적은 질환 연구
비암호화 변이 해석
인간 외 생물종 분석
새로운 regulatory element 탐색
빠른 benchmark와 모델 비교가 필요한 경우

요약

NT는 DNA 서열을 언어처럼 학습한 foundation model이다.

이 모델은 여러 유전체 예측 작업에서 강한 성능을 보였다.

특히 multispecies 학습이 인간 유전체 예측에도 도움이 됐다.

모델 내부 분석에서는 promoter, enhancer, exon, UTR 같은 생물학적 요소를 포착하는 신호가 확인됐다.

변이 해석에서도 zero-shot 방식의 가능성을 보였다.

마지막으로 NT-v2는 더 작은 모델이 더 큰 이전 모델을 넘을 수 있음을 보여줬다.

결론적으로 이 논문은 유전체 AI의 방향을 잘 보여준다.

더 큰 모델만이 답은 아니다.

더 다양한 유전체, 더 효율적인 구조, 더 좋은 fine-tuning 방식이 함께 필요하다.

Source

Paper: Hugo Dalla-Torre, Liam Gonzalez, Javier Mendoza-Revilla, Nicolas Lopez Carranza, Adam Henryk Grzywaczewski, Francesco Oteri, Christian Dallago, Evan Trop, Bernardo P. de Almeida, Hassan Sirelkhatim, Guillaume Richard, Marcin Skwark, Karim Beguir, Marie Lopez & Thomas Pierrot. “Nucleotide Transformer: building and evaluating robust foundation models for human genomics.” Nature Methods 22, 287–297 (2025). https://doi.org/10.1038/s41592-024-02523-z
Published online: 28 November 2024.
Code and model weights: https://github.com/instadeepai/nucleotide-transformer
Hugging Face model and dataset collection: https://huggingface.co/collections/InstaDeepAI/nucleotide-transformer-65099cdde13ff96230f2e592
Benchmark leaderboard: https://huggingface.co/spaces/InstaDeepAI/nucleotide_transformer_benchmark
Figures are sourced from the original paper. The article is distributed under the Creative Commons Attribution-NonCommercial-NoDerivatives 4.0 International License.

'AI 생성 글 정리 > bio' 카테고리의 다른 글

GSFM 논문 정리 (0)	2026.05.29
An AI system to help scientists write expert-level empirical software 논문 정리 (0)	2026.05.29
RFdiffusion3 논문 정리 (0)	2026.05.18
RFdiffusion2 논문 정리 (0)	2026.05.18
Latent-Y: A Lab-Validated Autonomous Agent for De Novo Drug Design 논문 정리 (0)	2026.04.27

Honbul과 컴퓨터