Novae 논문 정리

한 줄 요약

Novae는 공간 전사체 데이터를 위한 그래프 기반 파운데이션 모델입니다.

세포 하나만 보지 않습니다.
그 세포가 놓인 주변 미세환경까지 함께 봅니다.

핵심 목표는 명확합니다.

여러 슬라이드에서 공통으로 보이는 공간 도메인을 찾기
서로 다른 gene panel과 기술을 함께 다루기
batch effect를 모델 내부에서 줄이기
학습 없이도 새 데이터에 바로 적용하기
공간 도메인을 기반으로 downstream analysis까지 연결하기

이 논문은 Novae를 약 2,900만 개 세포, 18개 조직, Xenium, MERSCOPE, CosMX 데이터에 학습했습니다.

왜 이 문제가 중요한가

공간 전사체 분석은 단순한 유전자 발현 분석이 아닙니다.

어떤 유전자가 발현되는지도 중요하지만,
그 세포가 조직 안에서 어디에 있는지가 더 중요할 때가 많습니다.

예를 들어 암 조직에서는 다음 질문이 중요합니다.

암세포가 면역세포와 가까이 있는가?
특정 stromal 영역이 암세포를 둘러싸고 있는가?
서로 다른 환자 슬라이드에서 같은 미세환경이 반복되는가?
질병 진행에 따라 조직 구조가 어떻게 바뀌는가?

이런 질문을 풀려면 세포를 개별 점으로만 보면 부족합니다.

세포 주변의 이웃 관계를 함께 봐야 합니다.

기존 방법의 한계

기존 공간 도메인 분석 모델은 좋은 성능을 보였지만, 대규모 다중 슬라이드 분석에서는 몇 가지 문제가 있습니다.

첫째, gene panel이 다르면 분석이 어려워집니다.
서로 다른 기술이나 실험 버전은 측정한 유전자 목록이 다를 수 있습니다. 기존 모델은 보통 공통 유전자만 남기고 분석합니다. 이 과정에서 정보가 크게 줄어듭니다.

둘째, batch effect에 민감합니다.
슬라이드, 장비, 실험 조건이 다르면 실제 생물학적 차이가 아닌 기술적 차이가 생깁니다. 기존 방법은 Harmony 같은 외부 보정 도구를 추가로 써야 하는 경우가 많습니다.

셋째, 클러스터링을 반복해야 합니다.
분석자는 공간 도메인의 개수를 바꿔 가며 결과를 봅니다. 기존 방법은 해상도를 바꿀 때마다 clustering을 다시 실행해야 할 수 있습니다.

넷째, 공통 도메인보다 슬라이드별 도메인이 강조될 수 있습니다.
이 경우 여러 슬라이드에서 반복되는 조직 미세환경을 비교하기 어렵습니다.

Novae의 핵심 아이디어

Novae는 조직을 그래프로 봅니다.

세포 또는 spot은 그래프의 노드입니다.
가까운 세포끼리는 엣지로 연결됩니다.
각 세포 주변의 작은 부분 그래프가 하나의 미세환경이 됩니다.
모델은 이 미세환경을 하나의 표현 벡터로 압축합니다.

이 표현은 단순한 세포 타입 표현이 아닙니다.

세포가 어떤 공간적 맥락 안에 있는지를 담은 표현입니다.

논문은 이 표현을 이용해 공간 도메인을 직접 예측합니다.
또한 도메인을 여러 해상도로 묶을 수 있도록 계층 구조를 만듭니다.

Crop 포인트: 아래쪽 학습 흐름에서 주변 subgraph가 prototype으로 연결되는 부분을 보면 Novae가 세포 주변 미세환경을 공간 도메인으로 바꾸는 방식을 파악할 수 있습니다.

수식 없이 보는 학습 방식

Novae의 학습은 self-supervised 방식입니다.

즉, 사람이 정답 라벨을 붙이지 않아도 됩니다.

모델은 가까운 위치의 두 세포 주변 환경을 뽑습니다.
그리고 두 환경이 비슷한 공간 도메인에 속한다고 가정합니다.

학습 과정은 다음 직관으로 이해할 수 있습니다.

데이터를 일부러 흔듭니다.
batch effect처럼 보이는 노이즈를 넣고, gene panel 일부를 무작위로 줄입니다. 모델이 장비나 panel 차이에 덜 흔들리게 만들기 위한 장치입니다.
유전자 발현을 panel-invariant embedding으로 바꿉니다.
측정한 유전자 목록이 달라도, 세포를 같은 표현 공간으로 보낼 수 있게 합니다.
Graph Attention Network가 주변 세포 정보를 모읍니다.
모든 이웃을 똑같이 보지 않습니다. 현재 미세환경을 설명하는 데 중요한 이웃에 더 집중합니다.
prototype이 기본 공간 도메인 역할을 합니다.
prototype은 모델이 학습하는 대표 미세환경입니다. 세포 주변 환경은 이 prototype 중 어디에 가까운지로 해석됩니다.
optimal transport가 쏠림을 막습니다.
모든 세포가 하나의 prototype으로 몰리는 현상을 막고, batch-specific한 가짜 도메인이 생기는 것도 줄입니다.

결국 Novae는 “가까운 공간 맥락은 비슷한 도메인으로 묶여야 한다”는 원리를 학습합니다.

Pan-tissue spatial domains: 조직을 넘어 반복되는 미세환경

Novae의 중요한 특징은 한 조직 안에서만 도메인을 찾지 않는다는 점입니다.

논문은 사람과 마우스의 여러 조직에서 공간 도메인을 비교합니다.

결과는 두 가지를 보여줍니다.

일부 도메인은 특정 조직에 가깝습니다.
일부 도메인은 서로 다른 조직이나 질병 맥락에서 반복됩니다.

예를 들어 lymph node와 tonsil은 유사한 도메인 분포를 보였습니다.
또 breast와 lung 같은 다른 조직에서도 일부 공통 도메인이 관찰됩니다.

이는 자연스러운 결과입니다.

조직 이름은 다르더라도, 암 관련 미세환경이나 면역 관련 구조는 여러 조직에서 반복될 수 있습니다.

Crop 포인트: 왼쪽 heatmap의 검은 영역과 밝은 영역의 대비를 보면 모든 도메인을 무리하게 공유하지 않으면서도, 반복되는 도메인은 여러 슬라이드에서 함께 잡는다는 점이 보입니다.

Whole mouse 예시가 보여주는 의미

Figure 2의 whole mouse 예시는 직관적입니다.

Novae는 전신 단면에서 다음과 같은 영역을 구분했습니다.

간에 해당하는 도메인
장에 해당하는 도메인
폐엽에 해당하는 도메인
뼈와 늑연골에 해당하는 도메인

이 결과는 Novae가 단순히 색을 예쁘게 나누는 모델이 아니라는 점을 보여줍니다.

공간 도메인이 실제 해부학적 구조와 맞물립니다.

중요한 점은 균형입니다.

Novae는 모든 슬라이드에서 모든 도메인을 억지로 찾지 않습니다.
반대로 각 슬라이드마다 완전히 다른 도메인만 만들지도 않습니다.

이 균형이 multi-slide spatial analysis에서 핵심입니다.

Benchmark: Novae는 어디서 좋아졌나

논문은 Novae를 네 가지 기존 모델과 비교합니다.

STAGATE
GraphST
SEDR
SpaceFlow

비교는 세 가지 상황에서 진행됩니다.

1. Breast dataset

두 개의 breast slide를 사용했습니다.
두 슬라이드는 서로 다른 기술과 gene panel을 가집니다.

기존 모델은 공통 유전자만 사용할 수 있었습니다.
논문에서는 185개 공통 유전자로 제한했습니다.

Novae는 두 panel을 함께 다룹니다.

2. Colon dataset

다섯 개의 colon slide를 사용했습니다.
세 가지 gene panel이 섞여 있습니다.

기존 모델은 panel intersection이 작아 슬라이드별로 따로 학습했습니다.
이후 외부 batch correction과 clustering을 붙였습니다.

Novae는 하나의 shared model로 처리했습니다.

3. Synthetic dataset

정답 공간 도메인을 알고 있는 합성 데이터를 사용했습니다.
여기서는 clustering 정확도를 직접 비교할 수 있습니다.

Crop 포인트: 위쪽 breast와 colon benchmark에서 Novae 점들이 오른쪽 위에 가까운 위치를 차지하는지 보면, 도메인 연속성과 cross-slide homogeneity가 함께 개선된 방향을 확인할 수 있습니다.

평가 지표를 쉽게 해석하기

논문은 세 가지 지표를 사용합니다.

FIDE score는 공간 도메인의 연속성을 봅니다.
이웃한 세포들이 너무 자주 다른 도메인으로 갈라지면 도메인이 조각난 것입니다. 높은 FIDE는 더 매끄러운 도메인을 뜻합니다.

JSD score는 여러 슬라이드 간 도메인 분포가 얼마나 비슷한지 봅니다.
값이 낮을수록 cross-slide homogeneity가 좋습니다.

ARI는 합성 데이터에서 정답 도메인과 예측 도메인이 얼마나 잘 맞는지 봅니다.
값이 높을수록 정답에 가깝습니다.

결과적으로 Novae는 breast, colon, synthetic benchmark에서 모두 강한 성능을 보였습니다.
특히 zero-shot 설정에서도 좋은 결과를 냈다는 점이 중요합니다.

속도와 메모리 효율

Novae는 추론 이후의 작업이 빠릅니다.

공간 도메인 배정은 이미 학습된 prototype 구조를 이용합니다.
따라서 해상도를 바꾸더라도 전체 clustering을 매번 다시 실행하지 않아도 됩니다.

batch correction도 도메인 정보를 이용해 표현 공간을 정렬하는 방식입니다.
복잡한 외부 보정 도구를 매번 실행하는 방식보다 가볍습니다.

논문은 6백만 개 이상 세포 규모에서 차이를 보여줍니다.

기존 pipeline은 Harmony와 clustering 조합에 따라 몇 시간에서 며칠까지 걸릴 수 있습니다.
Novae는 같은 후처리 작업을 초 단위로 수행합니다.

또한 Novae는 전체 슬라이드 그래프를 한 번에 메모리에 올리지 않습니다.
필요한 local subgraph를 그때그때 만드는 lazy loading 방식을 사용합니다.

이 설계 덕분에 약 2,900만 개 세포 데이터로 학습할 수 있었습니다.

Breast slide 시각 비교

Figure 4는 성능 차이를 직관적으로 보여줍니다.

같은 breast dataset에서 Novae와 기존 모델을 나란히 비교합니다.

Novae 결과에서는 두 슬라이드에서 공통으로 해석 가능한 도메인이 보입니다.
UMAP에서도 MERSCOPE와 Xenium 샘플이 더 잘 섞입니다.

반면 일부 기존 방법은 슬라이드별로 분리된 표현을 보입니다.
이 경우 같은 생물학적 구조를 여러 슬라이드에서 비교하기 어렵습니다.

Crop 포인트: 오른쪽 UMAP 열에서 파란색과 주황색이 얼마나 섞이는지 보면, batch correction이 공간 도메인 비교 가능성에 어떤 영향을 주는지 빠르게 읽을 수 있습니다.

논문은 Novae가 찾은 breast domain에 대해 생물학적 해석도 제시합니다.

D498과 D499는 stromal region으로 해석됩니다.
D504는 glandular cell이 풍부한 영역으로 해석됩니다.
Xenium sample에서는 D503 확장이 관찰됩니다.
D485는 immune cell-rich region으로 해석됩니다.

특히 D503이 stromal 영역 안에 들어가면서 immune-rich region을 피하는 패턴은 immune-excluded tumor phenotype과 연결해 해석됩니다.

이 부분은 Novae가 단순 clustering 도구가 아니라, 조직 미세환경 해석에 연결될 수 있음을 보여줍니다.

Downstream task: 공간 도메인 이후에 무엇을 할 수 있나

Novae의 장점은 도메인 예측에서 끝나지 않는다는 점입니다.

학습된 공간 표현과 도메인 assignment를 이용해 여러 분석을 이어갈 수 있습니다.

대표적인 downstream task는 세 가지입니다.

1. Spatially variable genes

공간 도메인마다 발현이 달라지는 유전자를 찾습니다.

이 분석은 “어떤 유전자가 특정 위치 구조에서 활성화되는가”를 보여줍니다.

2. Spatial pathway analysis

각 세포의 pathway score를 계산한 뒤, 공간 도메인별로 평균을 냅니다.

그러면 특정 pathway가 어느 미세환경에서 활성화되는지 볼 수 있습니다.

3. Slide architecture analysis

도메인 사이의 연결 구조를 분석합니다.

단순히 도메인 비율만 보는 것이 아니라, 도메인들이 조직 안에서 어떻게 배치되고 이어지는지를 봅니다.

Crop 포인트: 가운데 PAGA graph와 아래쪽 pathway heatmap을 함께 보면, Novae 도메인이 조직 구조 변화와 pathway 활성 차이를 연결하는 단위로 쓰인다는 점이 드러납니다.

Lymph node 예시

논문은 non-diseased lymph node와 reactive lymph node를 비교합니다.

Novae는 두 슬라이드에서 공간 도메인을 찾고, 각 도메인의 비율과 연결 구조를 비교합니다.

관찰된 변화는 다음과 같습니다.

reactive lymph node에서 도메인 비율이 달라집니다.
D500과 D501의 비율이 뒤집히는 패턴이 보입니다.
D500은 germinal center와 관련된 mature B cell 영역으로 해석됩니다.
D498은 CXCL12가 풍부한 영역으로, inflammatory cell recruitment와 연결됩니다.

즉, Novae는 “어떤 세포가 많아졌는가”뿐 아니라
“조직 구조가 어떻게 재편되었는가”를 보여줍니다.

Mouse brain 예시

두 번째 downstream 예시는 mouse brain입니다.

논문은 control mouse와 Alzheimer-like pathology를 보이는 TgCRND8 mouse를 시간대별로 비교합니다.

공간 구조 자체의 큰 변화는 강하지 않았지만, pathway 수준에서는 차이가 보였습니다.

특히 17.9개월 TgCRND8 mouse에서 brain aging pathway enrichment가 높았습니다.
D494와 D481 같은 특정 공간 도메인에서 더 뚜렷했습니다.

D494는 Neurod6 발현이 높은 영역으로 제시됩니다.
Neurod6는 brain aging 관련 gene signature와 연결됩니다.

또한 2.5개월 control mouse brain에서는 Neurod6, Slc17a7, Trbc2 같은 spatially variable genes가 확인됩니다.

이 결과는 pathway 분석과 유전자 분석이 공간 도메인을 기준으로 더 해석 가능해질 수 있음을 보여줍니다.

이 논문의 기여

Novae의 기여는 모델 성능 하나로만 정리하기 어렵습니다.

더 큰 변화는 분석 단위의 이동입니다.

기존 접근은 대체로 슬라이드별 clustering에 가깝습니다.
Novae는 여러 슬라이드와 여러 panel을 같은 표현 공간으로 가져옵니다.

그래서 다음 작업이 쉬워집니다.

서로 다른 기술의 데이터를 함께 분석하기
여러 조직에서 반복되는 미세환경 찾기
질병 특이적 공간 도메인 찾기
공간 도메인의 계층 구조 탐색하기
도메인 기반 pathway와 gene analysis 수행하기

특히 foundation model로 공개되어 있다는 점이 중요합니다.

새 데이터에 대해 처음부터 큰 모델을 학습하지 않아도 됩니다.
pre-trained model을 불러와 zero-shot으로 적용하거나, 필요할 때 fine-tuning할 수 있습니다.

주의해서 읽어야 할 점

이 논문은 bioRxiv preprint입니다.
아직 peer review를 거친 논문은 아닙니다.

또한 몇 가지 한계가 있습니다.

학습 데이터는 공개 vendor dataset 중심입니다.
segmentation 품질은 공간 전사체 분석 결과에 큰 영향을 줍니다.
저자들도 segmentation 개선과 multi-omics 확장을 향후 방향으로 제시합니다.
protein modality를 함께 쓰는 spatial multi-omics model로 확장할 여지가 있습니다.
실제 임상적 해석에는 독립 검증이 필요합니다.

따라서 Novae는 강력한 분석 프레임워크로 볼 수 있지만, 특정 질병 결론을 바로 확정하는 도구로 보기는 어렵습니다.

결론

Novae는 공간 전사체 분석에서 중요한 문제를 직접 겨냥합니다.

문제는 단순 clustering이 아닙니다.

진짜 문제는 다음입니다.

여러 슬라이드를 비교할 수 있는가?
panel이 달라도 쓸 수 있는가?
batch effect에 덜 흔들리는가?
조직 구조와 생물학적 의미를 함께 해석할 수 있는가?

Novae는 이 질문에 대해 그래프 기반 foundation model이라는 답을 제시합니다.

세포 주변 미세환경을 표현으로 바꾸고,
그 표현을 prototype 기반 공간 도메인으로 연결합니다.

그 결과 zero-shot inference, batch correction, hierarchical domains, downstream analysis가 하나의 프레임워크 안에 들어옵니다.

공간 전사체 데이터가 점점 커지는 상황에서, Novae의 핵심 가치는 명확합니다.

개별 슬라이드 분석을 넘어, cohort-level spatial biology를 가능하게 하는 모델입니다.

Source

Quentin Blampey, Hakim Benkirane, Nadège Bercovici, Fabrice André, Paul-Henry Cournède. Novae: a graph-based foundation model for spatial transcriptomics data. bioRxiv preprint. Posted September 13, 2024. DOI: https://doi.org/10.1101/2024.09.09.612009
Code: https://github.com/MICS-Lab/novae
Benchmark code: https://github.com/MICS-Lab/novae_benchmark

'AI 생성 글 정리 > bio' 카테고리의 다른 글

SPATIA 논문 정리 (0)	2026.04.26
scGPT 논문 정리 (0)	2026.04.26
Generative design of novel bacteriophages with genome language models 논문 정리 (0)	2026.04.26
ProteinMPNN: 논문 정리 (0)	2026.04.14
Charting the virosphere: computational synergies of AI and bioinformatics in viral discovery and evolution 논문 정리 (0)	2026.04.08

Honbul과 컴퓨터