논문 정리: Benchmarking zero-shot single-cell foundation model embeddings for cellular dynamics reconstruction

한 줄 결론
현재의 zero-shot single-cell foundation model(scFM) 임베딩은 세포 동역학 재구성에서 HVG-PCA baseline을 안정적으로 넘지 못했다.
저자들은 그 핵심 원인을 시간축 정보와 branching 구조를 과도하게 압축하는 “temporal compression”으로 해석한다.

짧은 요약

이 논문은 single-cell foundation model의 zero-shot cell embedding이 시간축이 있는 scRNA-seq trajectory reconstruction에서도 기존의 HVG-PCA보다 좋은지를 체계적으로 비교한 벤치마크다. 결론은 의외로 보수적이다. 전반적으로 HVG-PCA가 더 강했고, 특히 보이지 않은 시점의 세포 분포를 복원하는 능력에서 차이가 컸다. 저자들은 scFM이 정적인 cell identity에는 강하지만, 짧고 미묘한 전이 신호나 branching divergence를 압축해 버리는 경향이 있다고 해석한다.

먼저 이해해야 할 질문

이 논문이 묻는 질문은 단순하다.

“대규모 사전학습을 거친 scFM 임베딩이, 시간에 따라 변하는 세포 상태를 복원하는 문제에서도 정말 더 좋은가?”

기존에는 scFM이 cell annotation, clustering, batch correction 같은 정적(static) 과제에서 많이 논의되었다.
하지만 이 논문은 동적(dynamic) 문제, 즉 시간에 따라 세포가 어디서 어디로 이동하는지 복원하는 문제를 정면으로 테스트한다.

Figure 1. 이 논문의 벤치마크는 어떻게 설계되었나

읽는 포인트

입력은 time-series snapshot scRNA-seq이다. 즉 같은 세포를 계속 추적한 데이터가 아니라, 서로 다른 시점에서 채취한 세포 집단이다.
비교 대상 임베딩은 총 6개다.
Geneformer, GeneCompass, scGPT, UCE, scFoundation 그리고 HVG-PCA baseline.
다운스트림 trajectory inference는 DOT, UOT, Dynamical Schrödinger Bridge, RUOT 네 가지 optimal transport 계열 방법을 썼다.
태스크는 세 가지다.
Backtracking: 뒤 시점만 보고 초기 progenitor 상태를 복원
Interpolation: 중간 시점을 가려놓고 복원
Extrapolation: 앞 시점만 보고 미래 시점을 예측
평가는 세 지표를 쓴다.
Wasserstein-1 distance(W1 / EMD): 예측 분포와 실제 분포의 거리, 낮을수록 좋음
Pseudotime correlation: 시간 순서 복원력, 높을수록 좋음
Velocity coherence: 국소적인 방향 일관성, 높을수록 좋음

중요한 설계 포인트

이 논문이 좋은 이유는 “임베딩의 질”과 “동역학 추론 모델의 질”을 분리해서 보려고 했다는 점이다.
즉, “OT 모델이 약해서 못 맞춘 것인가?”가 아니라 “애초에 embedding space가 동역학에 적합했는가?”를 보겠다는 설계다.

핵심 결과 1. 전체적으로는 HVG-PCA가 이겼다

이 논문의 가장 중요한 결과는 Figure 2 하나로 거의 요약된다.

1) 분포 복원(W1)은 HVG가 가장 강하다

Figure 2a를 보면, backtracking / interpolation / extrapolation 전체에서 HVG의 W1이 가장 낮은 편이다.
즉, 가려놓은 시점의 세포 분포를 실제에 가깝게 복원하는 능력이 HVG-PCA에서 가장 안정적이었다.

2) pseudotime도 전반적으로 HVG 쪽이 우세하다

Figure 2b에서는 pseudotime correlation을 비교한다.
EMT에서는 HVG가 매우 높게 나왔고, branching이 복잡한 데이터에서는 pseudotime 자체가 완전한 정답 역할을 하지는 못하므로 보조 지표로 해석해야 한다.

3) velocity coherence도 HVG가 대체로 더 낫다

Figure 2c는 방향성이 얼마나 부드럽고 일관적인지를 본다.
여기서도 전체적으로 HVG가 우세하다. 다만 GeneCompass나 scFoundation이 일부 셋업에서 경쟁력 있는 경우는 있다.

4) 가장 어려운 문제는 backtracking과 extrapolation이다

Figure 2d의 EMT 예시를 보면, HVG에서는 예측 점이 실제 점 군집과 잘 겹치는데, scFoundation에서는 겹침이 제한적이다.
즉 안 보이는 과거를 복원하거나, 아직 오지 않은 미래를 예측하는 문제에서 격차가 더 크게 드러난다.

정리하면
이 논문은 “scFM이 아예 쓸모없다”는 얘기를 하지 않는다.
하지만 zero-shot 상태에서는, 적어도 trajectory reconstruction만 놓고 보면 HVG-PCA가 더 믿을 만하다는 결론을 낸다.

핵심 결과 2. 이 결론은 정렬 방식이나 차원 수를 바꿔도 크게 흔들리지 않았다

이 결과가 우연이 아니라는 점을 확인하기 위해 저자들은 민감도 분석을 했다.

Figure 3에서 봐야 할 것

Alignment를 안 하면 모델별 좌표계가 달라져 비교가 불공정해질 수 있다.
하지만 어떤 reference space를 쓰는지, 어떤 alignment strategy를 쓰는지, latent dimensionality를 몇 차원으로 두는지를 바꿔도
“대체로 HVG가 더 낫다”는 순위는 크게 달라지지 않는다.
즉, 이 결론은 특정 세팅에서 우연히 나온 것이 아니라 상대적으로 robust한 결과다.

블로그 포인트

이 부분은 꽤 중요하다.
foundation model 벤치마크는 종종 “정렬 방법 바꾸면 뒤집히는 거 아니냐”는 반론을 받기 쉬운데,
이 논문은 그 반론을 미리 점검했다.

핵심 결과 3. 왜 scFM이 약했나? — 시간축과 branching 구조를 압축했기 때문

이 논문의 가장 흥미로운 부분은 “왜 성능이 떨어지는가”를 메커니즘 수준에서 해석한 Figure 4다.

1) scFM 임베딩에서는 시간축 분리가 약하다

저자들은 TVR(Time Variance Ratio)라는 지표를 정의했다.
쉽게 말하면, embedding 전체 분산 중에서 시간 정보가 차지하는 비율이다.

Figure 4a를 보면 HVG는 시간대별 분리가 상대적으로 잘 되는데, scFM은 시점들이 서로 더 가까워지고 겹친다.
즉 temporal separability가 줄어든다.

2) 시간 정보가 압축될수록 동역학 복원은 대체로 나빠진다

Figure 4b에서는 TVR과 W1의 관계를 본다.
대체로 시간 분리가 잘 될수록 분포 복원이 잘 된다.
이건 직관적이다. 시점별 상태가 embedding에서 제대로 구분되어야 trajectory도 복원할 수 있기 때문이다.

3) branching도 흐려진다

Figure 4c와 4d는 human pancreatic differentiation에서 SC-β와 SC-EC 가지를 본다.
HVG에서는 두 fate가 잘 분리되는데, Geneformer 쪽에서는 두 가지가 더 가까워진다.

Figure 4e와 4f의 mouse HSPC에서도 비슷하다.
Neutrophil과 Monocyte 같은 갈라지는 fate가 scFM 공간에서는 더 비슷하게 보인다.

4) 저자들의 해석: batch correction처럼 너무 많이 평탄화한다

이 논문은 scFM이 기술적 변이만 제거하는 것이 아니라,
동역학적으로 의미 있는 시간/분기 신호까지 batch-like noise처럼 눌러버리는 것 아니냐고 본다.

이게 이 논문의 핵심 개념인 temporal compression이다.

핵심 결과 4. 전체 랭킹을 모아봐도 HVG 우세는 유지된다

Figure 5는 모든 조합을 한 장으로 요약한 heatmap이다.

해석 포인트

데이터셋, 태스크, inference method를 모두 합쳐서 봐도 HVG가 상위권을 가장 자주 차지한다.
scFM 중에서는 Geneformer가 분포 복원 쪽에서 상대적으로 선전하고,
scFoundation은 일부 설정에서 velocity coherence가 높게 나오는 경우가 있다.
하지만 어떤 scFM도 모든 지표와 모든 태스크에서 일관되게 가장 좋지 않다.

즉, “어떤 모델이 제일 좋다”보다 더 중요한 메시지는
현재 zero-shot scFM은 동적 문제에서 안정적인 우위를 보여주지 못한다는 점이다.

Figure 6. 저자들이 제안하는 큰 그림

Figure 6은 저자들의 해석을 개념도로 정리한 그림이다.

핵심은 이렇다.

현재 scFM은 self-supervised pretraining 과정에서 지속적이고 일반적인 신호(general signals)를 더 잘 잡는다.
반면 짧고 맥락 의존적인 전이 신호(specific signals)는 약해질 수 있다.
그 결과 embedding space가 너무 “예쁘고 평탄한” 공간이 되면서,
시간 차이와 branching이 줄어들고,
downstream에서는 noisy velocity, ambiguous trajectory, weak transport가 나타난다.

이 부분은 단순한 결과 보고를 넘어서,
왜 foundation model이 static task에는 강해도 dynamic task에는 약할 수 있는지를 설명하는 논리다.

이 논문에서 꼭 잡아야 할 핵심 포인트 7가지

좋은 static embedding이 좋은 dynamic embedding은 아니다.
clustering이나 annotation에 강한 표현이 trajectory inference에도 강하다는 보장은 없다.
이 논문은 zero-shot benchmark다.
즉, scFM을 동역학 과제에 맞게 fine-tuning한 것이 아니라, 그대로 가져다 썼을 때를 본다.
trajectory reconstruction에서는 “시간 분리”가 중요하다.
embedding이 시간을 잘 나눠주지 못하면 OT도 잘 작동하기 어렵다.
branching 구조 보존이 매우 중요하다.
세포 fate가 갈라지는 순간이 합쳐져 보이면, trajectory 해석 자체가 왜곡된다.
HVG-PCA는 단순하지만 강하다.
이 논문은 “복잡한 foundation model이 항상 baseline보다 낫다”는 가정을 반박한다.
scFM의 약점은 과소표현된 transient signal일 수 있다.
pretraining objective가 안정적인 identity signal을 우선하기 때문이다.
미래 방향은 dynamics-aware representation learning이다.
저자들이 말하는 핵심은 “foundation model을 버리자”가 아니라,
시간 구조를 보존하도록 학습 목표를 다시 설계하자에 가깝다.

논문을 읽을 때의 한계와 주의점

1) 이 논문은 preprint다

아직 peer review를 거치지 않은 bioRxiv preprint라는 점은 감안해야 한다.

2) zero-shot만 본다

fine-tuning이나 task-specific adaptation이 들어가면 결과가 달라질 가능성은 있다.
따라서 이 논문의 결론은 “현재 zero-shot scFM은 trajectory reconstruction에서 baseline을 넘지 못했다”로 읽는 것이 정확하다.

3) 특정한 동역학 프레임워크 안에서의 비교다

trajectory inference를 optimal transport 계열로 통일해서 본 것은 장점이지만,
반대로 말하면 이 결론은 해당 벤치마크 프레임워크 안에서의 결론이기도 하다.

4) pseudotime은 일부 데이터에서 보조 지표다

저자들도 인정하듯, branching이 복잡한 데이터에서는 pseudotime correlation이 절대적 지표가 아니다.

5) 블로그에 원본 figure를 공개 재사용할 때는 권리 확인이 필요하다

원문 PDF 상단에는 “All rights reserved. No reuse allowed without permission.”라고 표기되어 있다.
따라서 공개 블로그에 원본 figure를 그대로 재게시하려면 저작권/재사용 허용 범위를 먼저 확인하는 것이 안전하다.
이 문서에는 정리 편의를 위해 figure를 포함했지만, 공개 배포 시에는 반드시 권리 범위를 점검하는 편이 좋다.

마무리 문장

이 논문이 던지는 메시지는 단순하다.
foundation model이 크고 범용적이라고 해서, 시간에 따라 갈라지는 생물학적 과정을 더 잘 표현하는 것은 아니다.
오히려 현재의 zero-shot scFM은 동역학적으로 중요한 차이를 평탄화할 수 있다.
따라서 다음 세대 single-cell foundation model이 넘어야 할 과제는 더 큰 모델이 아니라, temporal and branching structure를 잃지 않는 representation learning일 가능성이 크다.

좋은 문구

이 논문은 “zero-shot scFM이 single-cell dynamics에서도 baseline보다 좋은가?”라는 질문에 대해, 아직은 아니라고 답한다.
핵심 병목은 representation quality 자체보다, representation 안에서 시간축과 분기 구조가 얼마나 보존되느냐에 있다.
정적 과제에서 좋은 임베딩이 동적 과제에서도 좋은 것은 아니다.
이 벤치마크는 scFM의 실패보다, dynamics-aware foundation model 설계의 필요성을 보여준다.

출처 메모

논문: Benchmarking zero-shot single-cell foundation model embeddings for cellular dynamics reconstruction
저자: Xueya Zhou, Zihan Wang, Yue Ling, Qinxue Tian, Zhenyi Zhang, Yongge Li, Luonan Chen, Peijie Zhou
형식: bioRxiv preprint
DOI: 10.64898/2026.03.10.710748

'AI 생성 글 정리 > bio' 카테고리의 다른 글

PATH-ORACLE 논문 핵심 정리 (0)	2026.04.03
Universal Cell Embeddings(UCE) 논문 정리 (0)	2026.04.02
Geneformer 논문 핵심 정리 (0)	2026.04.02
HyenaDNA 논문 핵심 정리 (0)	2026.04.02
Boltz-2 논문 핵심 정리 (0)	2026.04.01

Honbul과 컴퓨터

논문 정리: Benchmarking zero-shot single-cell foundation model embeddings for cellular dynamics reconstruction

짧은 요약

먼저 이해해야 할 질문

Figure 1. 이 논문의 벤치마크는 어떻게 설계되었나