본문 바로가기
AI 생성 글 정리/bio

HyenaDNA 논문 핵심 정리

by Honbul 2026. 4. 2.

100만 토큰 컨텍스트에서 DNA를 읽는 모델

논문 정보
Eric Nguyen, Michael Poli, Marjan Faizi, Armin W. Thomas, Callum Birch Sykes, Michael Wornow, Aman Patel, Clayton Rabideau, Stefano Massaroli, Yoshua Bengio, Stefano Ermon, Stephen A. Baccus, Christopher Ré.
HyenaDNA: Long-Range Genomic Sequence Modeling at Single Nucleotide Resolution
arXiv:2306.15794v2, 2023

한 줄 요약
HyenaDNA는 DNA를 k-mer로 뭉개지 않고 염기 하나(A/C/G/T) 단위로 유지한 채, 최대 1M 토큰 컨텍스트까지 다루는 long-range genomic foundation model이다.

이 문서는 블로그용 초안으로 바로 활용할 수 있도록 구성했다.
핵심 주장, 실험 결과, 해석 포인트를 빠르게 잡을 수 있게 정리했고, 원문 figure는 문맥에 맞게 다시 crop해서 넣었다.


1. 왜 이 논문이 중요한가

이 논문의 문제의식은 분명하다.

DNA는 단순히 짧은 서열 분류 문제가 아니다.
현실의 유전체에서는 수만~수십만 염기 떨어진 위치의 상호작용이 의미를 가지기도 하고, 반대로 단 하나의 염기 변화(SNP, mutation) 가 기능을 크게 바꾸기도 한다.
즉, 유전체 모델링에서는 보통 다음 두 조건이 동시에 필요하다.

  1. 긴 문맥(long-range context) 을 봐야 한다.
  2. 단일 염기(single nucleotide) 해상도 를 잃지 말아야 한다.

그런데 기존 Transformer 기반 genomic foundation model들은 attention의 계산량 때문에 대체로 512~4,096 토큰 정도의 문맥에 머물렀고, 긴 길이를 처리하려고 하면 보통 k-mer 토크나이저, 다운샘플링, dilation 같은 방식으로 해상도를 희생했다.

논문이 던지는 핵심 질문은 이것이다.

DNA에서는 “멀리 보는 것”과 “정밀하게 보는 것”을 동시에 달성할 수 없을까?


2. 이 논문의 전체 그림: 문제 정의와 해결 전략

 

 

Figure 1.1 해설
이 그림 하나로 논문의 서사가 거의 끝난다.
왼쪽은 sequence length warm-up, 가운데는 single-nucleotide pretraining, 오른쪽은 soft prompting 기반의 downstream adaptation 이다.
즉, HyenaDNA는 단순히 아키텍처 하나를 제안한 논문이 아니라, 모델 구조 + 학습 스케줄 + 적응 방식을 함께 제시한 “full-stack recipe”에 가깝다.

블로그 관점에서 이 그림에서 꼭 짚어야 할 포인트는 세 가지다.

  • 토큰을 더 크게 묶지 않는다.
    DNA를 6-mer나 BPE처럼 덩어리로 바꾸지 않고, A/C/G/T를 그대로 쓴다.
  • 긴 길이를 감당할 수 있는 mixing 연산을 쓴다.
    attention 대신 Hyena operator를 쓴다.
  • 긴 문맥을 downstream adaptation까지 연결한다.
    단지 pretraining perplexity를 낮추는 데서 끝나지 않고, soft prompt를 넣어 새로운 태스크 적응으로 이어간다.

3. HyenaDNA는 무엇을 제안했나

3.1 단일 염기 토큰화

HyenaDNA는 DNA를 “문자” 수준으로 본다.
즉, A, C, G, T, N(불명확 염기)과 몇 개의 special token만 사용한다.
이 선택이 중요한 이유는 유전체에서는 문자 하나 차이가 곧 기능 차이일 수 있기 때문이다.

자연어에서는 철자 하나가 조금 달라도 의미가 보존되는 경우가 많지만, DNA는 다르다.
논문의 메시지는 명확하다.

유전체에서는 subword나 k-mer보다 single nucleotide resolution이 더 본질적이다.

3.2 Hyena operator 기반 아키텍처

 

Figure 1.3 해설
HyenaDNA의 블록은 크게 보면 Hyena operator + MLP 구조다.
Hyena operator는 긴 컨볼루션(long convolution)data-controlled gating 을 결합한다.
필터는 작은 MLP가 암묵적으로 생성하고, 실제 컨볼루션은 FFT를 이용해 계산한다. 그래서 attention의 (O(L^2)) 대신, 대략 (O(L \log L)) 수준의 비용으로 긴 시퀀스를 처리할 수 있다.

이 구조가 의미 있는 이유는 두 가지다.

첫째, 각 레이어가 전역 문맥(global receptive field) 을 볼 수 있다.
둘째, attention처럼 길이가 길어질수록 비용이 급격히 폭증하지 않는다.

그래서 HyenaDNA는 “attention을 조금 가볍게 만든 모델”이라기보다,
긴 서열을 다루기 위한 다른 설계 철학을 택한 모델로 보는 편이 맞다.

3.3 Sequence length warm-up

 

 

Figure 3.2 해설
논문에서 꽤 중요한 실전 포인트다.
HyenaDNA는 처음부터 초장문 시퀀스로 학습하지 않고, 짧은 길이에서 시작해 길이를 단계적으로 두 배씩 늘리는 warm-up 스케줄을 사용한다.
논문에서는 이 방법이 450k 길이에서 학습 시간을 40% 줄이고, 종 분류 태스크에서 정확도를 7.5포인트 높였다고 보고한다.

이 부분이 중요한 이유는, long-context 모델의 성패가 단순히 연산 복잡도만의 문제가 아니라는 점을 보여주기 때문이다.
학습 안정성(stability)학습 스케줄이 실제 성능에 매우 크게 작용한다.

3.4 Soft prompting과 “genomics에서의 in-context learning”

 

Figure 4.2 해설
논문은 긴 컨텍스트를 단순히 “멀리 본다”는 용도로만 쓰지 않는다.
입력 시퀀스 앞에 학습 가능한 soft prompt token 을 길게 붙이고, 본체 모델은 고정한 채 prompt만 튜닝하는 방식으로 새로운 태스크에 적응한다.

여기서 중요한 해석 포인트는 다음과 같다.

  • DNA는 자연어처럼 “class label”을 바로 텍스트로 붙이기 어렵다.
  • 그래서 이 논문은 pure zero-shot ICL 보다는,
    짧은 튜닝 단계를 포함한 soft prompting / instruction-tuning 변형을 사용한다.
  • 결과적으로, 긴 컨텍스트 창 자체가 새로운 적응 인터페이스가 될 수 있음을 보여준다.

즉, 이 논문에서 말하는 in-context learning은 “아무 학습 없이 바로 된다”는 의미가 아니라,
긴 입력창을 활용해 가볍게 태스크를 주입할 수 있다는 의미에 더 가깝다.


4. 실험에서 확인된 것들

4.1 긴 문맥은 실제로 도움이 된다

 

 

Figure 1.2 해설
긴 문맥으로 pretraining할수록 human reference genome에서 perplexity가 더 낮아진다.
즉, 모델이 다음 nucleotide를 더 잘 예측한다는 뜻이다.
다만 논문도 분명히 말하듯, 이 이득은 더 많은 학습 시간과 토큰을 요구하고, 모델이 너무 얕으면 오히려 긴 길이를 제대로 활용하지 못해 성능이 꺾일 수 있다.

이 그림은 “무조건 길게 보면 된다”가 아니라,
길이 자체가 하나의 scaling dimension 이라는 점을 보여준다.

4.2 효율성: 1M 토큰에서 Transformer보다 훨씬 빠르다

 

 

Figure 4.1 해설
논문 설정(2 layers, width 128, gradient checkpointing, batch size 1, A100 80GB)에서
1M 토큰 길이에서 HyenaDNA는 Transformer보다 160배 빠르다고 보고한다.

이 결과가 말해주는 것은 단순한 speedup 그 이상이다.
유전체처럼 길이가 본질적으로 큰 도메인에서는,
“조금 빠르다”가 아니라 애초에 실험 가능하냐 불가능하냐의 차이를 만든다.

4.3 다운스트림 결과 요약

아래 표는 논문에서 가장 기억할 만한 결과만 추린 것이다.

항목 핵심 결과 읽는 포인트
GenomicBenchmarks 8개 중 7개 데이터셋 SOTA 짧은 서열 태스크에서도 single nucleotide 설계가 강함
GenomicBenchmarks 최고 개선폭 enhancer 식별에서 최대 +20 accuracy points “길기만 한 모델”이 아니라 fine-grained task도 강함
Nucleotide Transformer 벤치마크 18개 중 12개 데이터셋 SOTA 500M~2.5B급 모델과 비교해도 경쟁력 있음
모델/데이터 효율 HyenaDNA는 1.6M params, pretraining은 인간 reference genome 1개 더 작은 모델과 훨씬 적은 사전학습 데이터로도 강한 성능
Chromatin profile prediction 919-way multi-task에서 BigBird와 경쟁적 long-range 기능 예측에도 적용 가능
Species classification 5-way 종 분류에서 1M 길이로 99.5% accuracy 초장문 컨텍스트가 실제 난문제를 푸는 데 쓰임
Biotype embeddings 10개 biotype 분류에서 weighted F1 = 72.0 representation quality도 강함

4.4 왜 species classification 결과가 인상적인가

종 분류 실험은 이 논문의 long-context 가치를 가장 직관적으로 보여준다.
사람, 여우원숭이, 쥐, 돼지, 하마 같은 종을 구분할 때, 짧은 서열만 보면 종 특유의 돌연변이 패턴이 충분히 드러나지 않는다.
그래서 길이가 길어질수록 성능이 크게 오른다.

논문에서 HyenaDNA는 다음과 같은 성능을 보인다.

  • 1k 길이: 61.1%
  • 32k 길이: 93.4%
  • 250k 길이: 97.9%
  • 450k 길이: 99.4%
  • 1M 길이: 99.5%

이 결과는 “긴 컨텍스트를 쓸 수 있다”는 수준을 넘어서,
긴 컨텍스트가 있어야만 풀리는 태스크가 실제로 존재한다는 논지의 근거가 된다.

4.5 표현 학습 관점에서도 의미가 있다

 

 

Figure 4.3 해설
이 그림은 pretrained embedding을 t-SNE로 시각화한 것이다.
HyenaDNA 임베딩은 biotype 기준으로 더 잘 분리되는 군집을 보여주며, 정량적으로도 weighted F1 72.0으로 비교 모델들보다 높다.

이 결과가 주는 의미는 두 가지다.

  1. HyenaDNA는 분류 head를 얹었을 때만 잘하는 모델이 아니다.
  2. pretraining 자체가 생물학적으로 유의미한 표현 공간을 학습하고 있음을 시사한다.

5. 이 논문을 읽을 때 꼭 잡아야 할 포인트

포인트 1. 이 논문은 “긴 문맥”만의 논문이 아니다

겉으로 보면 1M 토큰이 가장 눈에 띄지만, 진짜 메시지는 long context와 single nucleotide resolution을 동시에 잡아야 한다는 주장이다.
유전체에서는 둘 중 하나만 만족하면 충분하지 않다는 문제 설정이 핵심이다.

포인트 2. tokenizer 선택이 성능의 일부다

논문은 ablation에서 k-mer 토크나이저가 다수 데이터셋에서 성능을 떨어뜨린다고 보고한다.
즉, 유전체에서는 토크나이징이 단순한 전처리가 아니라 모델링 가정 그 자체다.

포인트 3. HyenaDNA는 “architecture paper”이면서 동시에 “training recipe paper”다

Hyena operator만으로 끝나지 않는다.
warm-up scheduling, gradient checkpointing, downstream soft prompting까지 묶여 있어야 이 결과가 나온다.
실무 관점에서는 이 조합 전체를 받아들여야 한다.

포인트 4. 긴 컨텍스트는 새로운 태스크 설계를 가능하게 한다

species classification, soft prompting, long-range chromatin profile 같은 실험은
긴 문맥이 단지 score 향상 수단이 아니라 태스크 공간 자체를 넓힌다는 점을 보여준다.

포인트 5. 큰 모델만이 답은 아니라는 메시지도 강하다

이 논문은 500M~2.5B 규모의 기존 모델과 비교하면서도,
상대적으로 작은 1.6M 파라미터 모델로 강한 성능을 보여준다.
즉, 이 논문은 “스케일만 키우자”보다 도메인에 맞는 inductive bias와 효율적인 설계의 가치를 강조한다.


6. 한계와 조심해서 볼 부분

이 논문이 강한 결과를 보여주긴 하지만, 블로그에서는 아래 지점도 함께 짚는 편이 좋다.

6.1 사전학습 데이터가 매우 제한적이다

HyenaDNA는 인간 reference genome 1개로 pretraining했다.
논문도 스스로 인정하듯, 여러 인간 개체와 다양한 종의 genome을 포함했다면 일반화 성능과 편향 문제에서 더 나은 결과가 나올 가능성이 있다.

6.2 “in-context learning”이라는 표현은 조금 넓게 쓰였다

자연어 LLM의 zero-shot/few-shot ICL을 기대하면 안 된다.
논문에서는 soft prompt tuning 혹은 brief instruction tuning 이 들어간다.
따라서 엄밀히는 “긴 문맥을 이용한 parameter-efficient adaptation”에 더 가깝다.

6.3 모든 유전체 태스크가 1M 문맥을 필요로 하지는 않는다

짧은 regulatory element 분류 같은 문제에서는 long context의 이득이 제한적일 수 있다.
따라서 이 논문의 가치는 “모든 문제에서 무조건 1M이 최고”가 아니라,
long-range가 중요한 문제를 다룰 수 있는 길을 열었다는 데 있다.

6.4 비교가 완전히 동등한 세팅은 아니다

비교 대상 중에는 BERT류 masked language model, sparse attention, CNN 등이 함께 있다.
모델 목적함수와 사전학습 데이터, 토크나이저가 완전히 같지는 않기 때문에,
결과를 읽을 때는 절대적인 우열보다 설계 방향의 유효성에 무게를 두는 편이 적절하다.


7. 결론

HyenaDNA의 핵심은 단순히 “Transformer보다 빠른 DNA 모델”이 아니라,
유전체에서는 long context와 single nucleotide resolution을 동시에 포기하지 말아야 한다는 문제 설정을 전면에 밀어붙였다는 데 있다.

이 논문은 attention-free 아키텍처가 유전체처럼 초장문 도메인에서 충분히 경쟁력이 있을 뿐 아니라,
오히려 그런 도메인에서는 더 자연스러운 선택일 수 있음을 보여준다.
그리고 그 결과는 단순한 perplexity 개선을 넘어서, 규제 요소 분류, chromatin profile prediction, 종 분류, embedding quality까지 이어진다.

가장 짧게 정리하면 이렇게 쓸 수 있다.

HyenaDNA는 DNA를 문자 단위로 유지한 채 100만 염기 길이까지 보는 모델이며,
이 논문은 유전체 foundation model의 핵심 병목을 “attention 비용”과 “토큰화로 인한 해상도 손실”로 정확히 짚고, 둘을 동시에 해결하려는 방향을 제시한다.


8. 핵심 문장 3개

  1. HyenaDNA의 진짜 포인트는 1M 컨텍스트 자체보다, 긴 문맥과 단일 염기 해상도를 동시에 포기하지 않았다는 데 있다.
  2. 이 논문은 유전체 모델링에서 tokenizer가 단순한 구현 세부사항이 아니라, 생물학적 의미 보존과 직결된다는 점을 잘 보여준다.
  3. 가장 인상적인 부분은 효율성 숫자보다도, 긴 컨텍스트를 species classification과 soft prompting 같은 새로운 설정으로 연결했다는 점이다.

9. 참고 정보

  • 원문 제목: HyenaDNA: Long-Range Genomic Sequence Modeling at Single Nucleotide Resolution
  • 주요 본문 범위: p.1–10
  • 부록 실험 세부: p.16–24
  • figure 출처: 원문 Figure 1.1, 1.2, 1.3, 3.2, 4.1, 4.2, 4.3을 블로그용으로 crop하여 사용

10. 원문에서 바로 기억할 숫자

  • 최대 컨텍스트 길이: 1M nucleotides
  • 기존 dense attention genomic FM 대비: 최대 500배 긴 컨텍스트
  • 1M 길이에서 Transformer 대비 런타임: 160배 빠름(논문 설정 기준)
  • GenomicBenchmarks: 7/8 SOTA
  • Nucleotide Transformer benchmark: 12/18 SOTA
  • Species classification: 1M 길이에서 99.5% accuracy
  • Biotype embedding quality: weighted F1 72.0

참고 문헌

Nguyen, E., Poli, M., Faizi, M., Thomas, A. W., Sykes, C. B., Wornow, M., Patel, A., Rabideau, C., Massaroli, S., Bengio, Y., Ermon, S., Baccus, S. A., & Ré, C. (2023). HyenaDNA: Long-Range Genomic Sequence Modeling at Single Nucleotide Resolution. arXiv:2306.15794v2.