본문 바로가기
AI 생성 글 정리/bio

CrisprPr 논문 정리

by Honbul 2026. 4. 1.

CRISPR/Cas9 off-target 예측에서 prior knowledge + deep learning을 함께 업데이트하는 방식

원문 제목: CrisprPr: a hybrid-driven framework for CRISPR/Cas9 off-target prediction with analysis of prior-information updates


한 문장 요약

CrisprPr는 문헌 기반 생물학적 prior(MTP, DRICS)를 딥러닝 안에 “고정 feature”가 아니라 “학습 중 함께 업데이트되는 embedding”으로 넣어, CRISPR/Cas9 off-target prediction의 성능과 안정성을 높이고, 동시에 업데이트 패턴을 통해 생물학적 해석까지 시도한 프레임워크다.


먼저, 이 논문이 다루는 문제

CRISPR/Cas9는 원하는 유전체 위치를 편집할 수 있다는 점에서 강력하지만, 의도한 표적이 아닌 다른 위치까지 잘리는 off-target effect가 큰 문제다.
실제로는 sgRNA와 완벽히 일치하지 않는 DNA 위치에서도 절단이 일어날 수 있고, 이 때문에 안전성, 임상 적용성, 실험 설계 효율이 모두 영향을 받는다.

이 문제를 예측하려는 기존 접근은 크게 두 가지였다.

  • 가설/규칙 기반 방법: mismatch tolerance 같은 실험 지식을 점수화해 예측
  • 딥러닝 기반 방법: sequence pattern을 데이터로부터 자동 학습

하지만 저자들은 이 둘 모두 한계가 있다고 본다.

  • 규칙 기반은 너무 단순해서 복잡한 조합 효과를 놓치기 쉽다.
  • 딥러닝 기반은 표현력이 높지만, 중요한 생물학적 prior 없이 랜덤 초기화에 의존하기 쉽다.
  • 특히 off-target는 mismatch 위치와 조합이 매우 복잡해서, 단일 접근만으로는 결정요인을 충분히 잡기 어렵다.

논문의 핵심 문제의식은 여기서 나온다.

“prior knowledge와 data-driven learning을 따로 보지 말고, 같은 프레임워크 안에서 같이 최적화하면 더 낫지 않을까?”


이 논문의 핵심 기여 3가지

1) Hybrid-driven 패러다임

기존처럼 prior를 고정 규칙으로 쓰거나, 반대로 딥러닝만으로 끝내지 않는다.
생물학적 prior와 딥러닝 representation을 함께 학습 신호로 쓴다.

2) 두 종류의 prior를 병렬로 통합

CrisprPr는 서로 다른 정보를 담는 두 prior를 사용한다.

  • MTP (Mismatch Tolerance Profile)
    위치별/염기쌍별 mismatch tolerance 정보를 담는다.
  • DRICS (DNA-RNA Interaction Contribution Scores)
    RNA-DNA 상호작용의 기여도를 반영한다.

즉, 하나는 경험적 mismatch tolerance, 다른 하나는 분자 상호작용 특성에 더 가깝다.

3) “왜 그렇게 학습됐는가”를 embedding update로 해석

이 논문이 흥미로운 이유는 정확도 비교에서 끝나지 않는다는 점이다.
저자들은 초기 prior embedding이 학습 후 어떻게 바뀌는지를 분석해서,

  • 어떤 위치가 특별한지
  • 어떤 mismatch 유형끼리 비슷한지
  • 데이터셋마다 업데이트 패턴이 어떻게 다른지

를 따로 해석한다.


CrisprPr를 가장 쉽게 이해하는 방법

아래처럼 생각하면 된다.

sgRNA-DNA pair
  -> MTP prior embedding branch
  -> DRICS prior embedding branch
  -> Inception + BiLSTM
  -> 각 branch에서 off-target probability 예측
  -> 두 결과를 평균 내어 최종 확률 출력

 

여기서 중요한 포인트는 다음이다.

  • prior 정보가 입력 feature로 한 번만 들어가는 것이 아니다.
  • prior embedding 자체가 trainable하다.
  • 즉, 문헌 기반 초기값을 데이터가 다시 수정하면서 더 현실적인 방향으로 업데이트한다.

이것이 논문이 말하는 synchronous updating strategy다.


Figure 1. 전체 프레임워크

 

Figure 1 해석 포인트

  • 위쪽 branch는 MTP prior, 아래쪽 branch는 DRICS prior를 사용한다.
  • 두 prior 모두 각각 trainable embedding layer로 들어간다.
  • 이후 각 branch는 Inception -> BiLSTM -> Prediction Head를 거쳐 예측값을 낸다.
  • 마지막에는 평균(average fusion) 으로 최종 off-target probability를 만든다.
  • 아래쪽 analysis module은 초기 embedding과 업데이트 후 embedding의 차이를 분석해, 위치/염기쌍/데이터셋 수준의 패턴을 해석한다.

이 그림이 보여주는 가장 중요한 메시지는 단 하나다.

prior를 “고정된 규칙”으로 쓰지 않고, 딥러닝 안에서 같이 학습시키는 것이 CrisprPr의 본질이다.


데이터와 평가 설계

논문은 학습과 평가를 꽤 엄격하게 분리하려고 한다.

  • 학습(train): CHANGEseq
  • 검증(validation): TTISS-CT
  • 테스트(test): 7개 데이터셋

특히 6개의 독립 테스트셋은 학습 데이터와 sgRNA 중복/유사도를 최대한 줄여서 cross-dataset generalization을 보려는 설계다.
또한 평가 단위도 샘플 전체가 아니라 single sgRNA 기준으로 잡는다.
즉, sgRNA별 AUROC/AUPRC를 구한 뒤 평균낸다.

이 논문에서 핵심 평가지표는 AUPRC다.
그 이유는 off-target 데이터가 불균형하고, 진짜 양성 off-target를 잘 찾는 것이 더 중요하기 때문이다.

데이터셋 개요

역할 데이터셋 sgRNA 수 총 샘플 수 비고
Train CHANGEseq 110 2,873,517 대규모 학습셋
Val TTISS-CT 59 669,648 하이퍼파라미터 조정
Test HEK293T 16 128,635 단일 cell type, 복수 detection technology
Test K562 11 17,785 단일 cell type, 복수 detection technology
Test Guide-CT 30 320,544 복수 cell type, 단일 technology
Test CRISPOR 26 368,476 복수 cell type, 복수 technology
Test II/6 22 385,441 복수 cell type, 단일 technology
Test PDH 7 245,419 복수 cell type, 복수 technology
Test GUIDEseq 57 1,456,872 보완적 test set

성능에서 무엇이 핵심인가

이 논문은 “모든 데이터셋에서 압도적 우위”를 주장하지는 않는다.
대신 더 신중하게 이렇게 읽는 것이 맞다.

  • 7개 테스트셋 전체에서 최고이거나 통계적으로 비슷한 수준
  • 4개 데이터셋에서는 통계적으로 유의한 개선
  • 5개 데이터셋에서는 AUPRC variance가 더 낮아 안정성도 좋음

즉, 이 논문의 주장은 “항상 압도적 SOTA” 보다는
“다양한 데이터셋에서 경쟁력 있고, prior를 넣어 일반화와 안정성을 개선했다” 에 가깝다.

본문에 제시된 AUPRC 비교

데이터셋 CrisprPr strongest competing DL 해석
HEK293T 0.5450 0.4359 유의한 개선
K562 0.4931 0.4341 유의한 개선
Guide-CT 0.6328 0.6252 유의한 개선
CRISPOR 0.4334 0.3846 유의한 개선
II/6 0.5778 0.5649 수치상 개선, 통계적 유의성은 경계선
GUIDEseq 0.5641 0.5626 사실상 comparable
PDH 0.6693 0.6765 comparable, 약간 낮음

이 표가 중요한 이유는, 이 논문이 “좋은 경우만 골라 보여주는 논문”이 아니라는 점을 보여주기 때문이다.
잘 되는 경우와 비슷한 경우를 함께 드러내기 때문에, 오히려 주장 범위를 더 정확히 파악할 수 있다.


Figure 2. SOTA 방법들과의 벤치마크 비교

 

Figure 2 해석 포인트

  • 각 패널은 하나의 테스트셋이다.
  • 빨간색이 CrisprPr, 다른 색은 기존 방법들이다.
  • 핵심은 “항상 압도적 1등”이 아니라, 대부분의 데이터셋에서 상단권에 안정적으로 위치한다는 점이다.
  • 논문 본문 기준으로 HEK293T, K562, Guide-CT, CRISPOR에서는 유의한 개선이 보고된다.
  • GUIDEseq와 PDH에서는 comparable 수준으로 읽는 것이 맞다.

블로그에서 이 그림을 소개할 때는 이렇게 요약하면 좋다.

CrisprPr의 강점은 특정 데이터셋에서만 잘 맞는 모델이 아니라, 다양한 cell type과 detection technology 변화에도 비교적 안정적으로 버틴다는 데 있다.


이 논문의 진짜 포인트: “prior를 넣었더니”가 아니라 “prior를 같이 업데이트했더니”

많은 논문이 prior knowledge를 feature engineering 수준에서 사용한다.
하지만 CrisprPr는 한 단계 더 간다.

  • 초기 prior distribution 자체는 완전하지 않다.
  • 그래서 이를 그대로 고정하면 오히려 실제 off-target 분포와 어긋날 수 있다.
  • 대신 학습 중에 prior embedding을 같이 업데이트하면,
    문헌 기반 지식 + 데이터 기반 보정이 동시에 일어난다.

이 주장을 가장 직접적으로 보여주는 것이 ablation 실험이다.


Figure 3. synchronous updating이 실제로 중요한가?

 

Figure 3 해석 포인트

  • CrisprPr는 ensemble 모델이다.
  • M-model, D-model은 각각 MTP branch와 DRICS branch 단독 버전이다.
  • Noupdate-M-model / Noupdate-D-model은 prior embedding을 업데이트하지 않게 만든 버전이다.
  • 결과를 보면 업데이트를 끈 모델은 전반적으로 성능이 크게 떨어진다.

이 그림이 말하는 바는 명확하다.

prior를 쓰는 것만으로는 부족하고, 그 prior를 데이터에 맞게 같이 보정하는 과정이 중요하다.

또 하나의 포인트는,
CrisprPr ensemble이 M-model과 D-model 단독보다 대체로 좋다는 점이다.
즉, 서로 다른 prior source를 평균 결합한 전략도 꽤 효과적이다.


Figure 4. Inception과 BiLSTM은 각각 무슨 역할을 하나?

 

Figure 4 해석 포인트

  • 각 branch에서 Inception 제거, BiLSTM 제거 실험을 따로 한다.
  • 전반적으로는 원본 모델이 ablation 버전보다 낫다.
  • 특히 BiLSTM 제거가 Inception 제거보다 더 큰 성능 저하를 만드는 경우가 많다.

이 해석은 꽤 중요하다.

  • Inception은 local feature extraction에 강하다.
  • BiLSTM은 long-range dependency를 잡는다.
  • 오프타깃은 단순히 “한 위치 mismatch”만의 문제가 아니라,
    멀리 떨어진 mismatch 조합까지 함께 작동할 수 있다는 뜻이다.

즉, 이 논문은 사실상 이렇게 말하고 있다.

오프타깃 예측은 local motif 문제이면서 동시에 sequence-wide dependency 문제다.

다만 저자들도 논의하듯, 일부 데이터셋에서는 Inception 제거가 항상 나쁜 것만은 아니다.
이 부분은 곧바로 “모든 모듈이 모든 상황에서 필수”라고 읽기보다,
데이터셋의 mismatch 거리 분포에 따라 local modeling의 효율이 달라질 수 있다는 정도로 이해하는 것이 좋다.


이 논문이 더 흥미로운 이유: 해석 모듈

대부분의 예측 논문은 “성능이 올랐다”에서 끝난다.
그런데 이 논문은 학습 전후 embedding을 비교해서 어디가 어떻게 바뀌었는지를 본다.

이건 단순 feature importance와 조금 다르다.
중요도를 뽑는 대신,

  • 어떤 위치들의 분포가 더 조밀해졌는지
  • 어떤 mismatch pair들끼리 더 비슷해졌는지
  • 어떤 구간이 더 특이하게 업데이트됐는지

를 본다.

이 접근은 “모델이 뭘 배웠는가”를 조금 더 구조적으로 보여준다.


Figure 5. 업데이트 패턴 분석

 

Figure 5에서 읽어야 할 핵심

1) seed vs non-seed 구간 차이

업데이트된 MTP embedding에서 positions 11-20 구간은 더 compact해지고,
positions 1-10과 분명히 다른 양상을 보인다.

이건 기존에 알려진 PAM-proximal seed regionPAM-distal non-seed region의 차이를 다시 지지한다.

2) positions 1-2는 seed 안에서도 별도 취급할 만하다

업데이트 후 positions 1, 2의 분산이 크게 줄어들어,
다른 seed position과는 다른 mismatch tolerance 패턴을 보인다.

3) positions 13-14는 특이한 구간이다

13, 14번 위치는 인접 위치보다 분산이 더 커지고,
논문은 이를 Cas9 cleavage modulation과 연결해 해석한다.

4) positions 19와 20도 같지 않다

많은 설명에서 19, 20을 비슷하게 보지만,
이 논문은 업데이트 후 두 위치의 분포 차이가 더 커진다고 보고한다.

5) mismatch similarity에도 구조가 있다

MTP 쪽에서는 같은 gRNA base를 공유하는 mismatch group 안에서 유사성이 더 또렷해지고,
DRICS 쪽에서는 TC(rU-dG)GA(rG-dT) 가 다른 base-pair들과 유사성이 낮게 나타난다.
저자들은 이를 wobble-like 구조와 연결해 해석한다.

이 부분이 중요한 이유는 다음과 같다.

CrisprPr는 단순히 예측 점수만 잘 내는 모델이 아니라, 학습된 embedding 변화 자체가 기존 생물학적 지식과 꽤 잘 맞아떨어진다.


이 논문을 한 문장으로 다시 정리하면

이 논문이 정말 보여준 것은
“biological prior를 딥러닝에 넣는 방법” 자체라기보다,

“prior를 고정된 지식이 아니라, 데이터와 상호작용하며 재조정되는 표현 공간으로 볼 수 있다”는 모델링 관점이다.

이게 중요한 이유는 CRISPR off-target뿐 아니라,
다른 생물학 문제에도 그대로 확장될 수 있기 때문이다.

예를 들면,

  • motif prior가 있는 sequence prediction
  • structure prior가 있는 RNA/DNA interaction modeling
  • literature-derived score가 있는 multi-modal biology task

같은 곳에서도 같은 발상이 적용될 수 있다.


이 논문의 강점

1) 성능 주장 범위가 비교적 정직하다

모든 데이터셋에서 압도적 우위를 주장하지 않는다.
대신 경쟁력 + 안정성 + 일반화를 중심으로 메시지를 만든다.

2) prior 사용 방식이 한 단계 진화했다

prior를 “입력 feature”가 아니라 업데이트되는 embedding으로 다뤘다는 점이 가장 강하다.

3) 해석 가능성도 함께 챙겼다

Figure 5 같은 분석 덕분에
“왜 이런 성능이 나왔는가”를 생물학적 위치/염기쌍 수준에서 논의할 수 있다.

4) 서로 다른 prior source를 병렬 통합했다

MTP와 DRICS는 완전히 같은 정보를 담지 않기 때문에,
두 branch를 함께 쓰는 전략이 설득력이 있다.


읽을 때 주의할 점 / 한계

1) 모든 데이터셋에서 큰 폭 개선은 아니다

GUIDEseq와 PDH에서는 comparable 수준이다.
즉, 항상 큰 성능 이득이 나는 만능 모델로 읽으면 과하다.

2) 해석은 “정합적”이지만 곧바로 “인과적”이라고 보긴 어렵다

업데이트 패턴이 문헌과 잘 맞는다는 것은 강점이지만,
그 자체가 곧 새로운 생물학 기전을 실험적으로 증명한 것은 아니다.

3) prior의 질과 데이터셋 구성에 여전히 의존한다

논문도 인정하듯, 초기화 방식이나 데이터셋 조성에 따라 sub-model 최적화가 달라질 수 있다.

4) 일부 모듈의 효용은 데이터셋 의존적일 수 있다

예를 들어 Inception 제거가 일부 경우에는 큰 손해가 아니거나, 오히려 비슷한 결과를 보이는 부분도 있다.
따라서 구조적 컴포넌트를 보편 법칙처럼 이해하면 안 된다.


결론

CrisprPr는 CRISPR/Cas9 off-target prediction에서 “prior knowledge와 deep learning을 어떻게 결합할 것인가”에 대한 꽤 좋은 답을 제시한 논문이다. 기존 연구가 규칙 기반과 데이터 기반으로 나뉘어 있었다면, 이 논문은 문헌에서 얻은 mismatch tolerance와 RNA-DNA interaction 정보를 trainable embedding으로 넣고, 이를 학습 과정에서 함께 업데이트하는 방식을 택한다. 그 결과 다양한 독립 테스트셋에서 경쟁력 있는 AUPRC와 안정성을 보였고, 단순한 성능 비교를 넘어 embedding update 패턴을 통해 seed/non-seed 구간 차이, 특정 위치의 특이성, mismatch 유형 간 유사성까지 해석하려 했다. 정확도 향상 자체도 의미 있지만, 더 본질적인 기여는 생물학적 prior를 고정 규칙이 아니라 함께 학습되는 표현 공간으로 다뤘다는 점에 있다.


아주 짧은 요약 버전

  • 무슨 문제?
    CRISPR off-target는 mismatch 조합이 복잡해서 예측이 어렵다.
  • 무슨 아이디어?
    문헌 기반 prior(MTP, DRICS)를 trainable embedding으로 넣고, 딥러닝과 함께 업데이트한다.
  • 무슨 결과?
    7개 테스트셋 전체에서 최고이거나 comparable한 성능을 보였고, 여러 데이터셋에서 유의한 AUPRC 개선을 보고했다.
  • 왜 흥미로운가?
    성능뿐 아니라, embedding이 어떻게 바뀌는지 분석해 생물학적 패턴 해석까지 시도했다.
  • 핵심 한 줄
    이 논문은 “prior를 어떻게 넣을까?”보다 “prior를 어떻게 같이 학습시킬까?”에 대한 논문이다.

Figure 사용 메모

이 논문은 원문 1페이지에 명시된 바와 같이 CC BY 4.0 라이선스로 공개된 오픈액세스 논문이다.
따라서 출처를 명확히 표기하면 블로그에서 figure 재사용이 가능하다.

권장 표기 예시:

Figures cropped from Wu et al., Briefings in Bioinformatics (2026), “CrisprPr: a hybrid-driven framework for CRISPR/Cas9 off-target prediction with analysis of prior-information updates”, CC BY 4.0.


참고문헌

Wu Y, Qi Y, Chen Y, Liu D, Liu Q, Shang X.
CrisprPr: a hybrid-driven framework for CRISPR/Cas9 off-target prediction with analysis of prior-information updates.
Briefings in Bioinformatics. 2026;27(2):bbag140.
DOI: 10.1093/bib/bbag140

코드/데이터 저장소(논문 본문 기재): mochew/CrisprPr


메모

  • 본 문서는 블로그 초안 용도로 정리한 버전이다.
  • figure는 원문 PDF의 본문 헤더/캡션을 제외하고 잘린 crop 이미지를 사용했다.
  • 필요하면 이 문서를 더 짧은 블로그 버전, 발표용 버전, 슬라이드용 버전으로 다시 압축할 수 있다.