scGPT 논문 정리

핵심 요약

scGPT는 단일세포 생물학을 위한 파운데이션 모델이다.

핵심 아이디어는 단순하다.

문장이 단어로 이루어지듯, 세포는 유전자 발현 패턴으로 설명할 수 있다.
유전자를 토큰처럼 다룬다.
세포 하나의 유전자 발현 값을 모델 입력으로 넣는다.
대규모 세포 아틀라스에서 먼저 학습한다.
이후 세포 타입 주석, 배치 보정, 멀티오믹스 통합, 유전자 교란 예측, 유전자 네트워크 추론에 맞게 미세조정한다.

저자들은 정상 인간 세포 3,300만 개 이상을 활용해 scGPT를 사전학습했다.
그 결과, 여러 downstream task에서 기존 방법보다 강한 성능을 보였다고 보고한다.

왜 이 논문이 중요한가

단일세포 RNA 시퀀싱은 세포 하나하나의 유전자 발현 상태를 읽는다.

이를 통해 다음 질문을 다룰 수 있다.

이 세포는 어떤 타입인가?
질병 상태에서 어떤 세포군이 달라지는가?
서로 다른 실험 배치의 데이터를 어떻게 합칠 것인가?
RNA, ATAC, 단백질 데이터를 함께 해석할 수 있는가?
특정 유전자를 조작하면 세포 상태가 어떻게 바뀌는가?

문제는 데이터 규모가 빠르게 커진다는 점이다.
Human Cell Atlas와 CELLxGENE 같은 대규모 세포 아틀라스에는 수천만 개 세포가 축적되고 있다.

하지만 기존 분석 모델은 작업별로 흩어져 있었다.

세포 타입 주석용 모델.
배치 보정용 모델.
교란 예측용 모델.
유전자 네트워크 추론용 모델.

scGPT는 이 흐름을 바꾸려는 시도다.
하나의 큰 모델을 먼저 학습시키고, 필요한 작업에 맞게 조정한다.

Crop 포인트: 상단의 pre-train/fine-tune 흐름과 하단의 3,300만 세포 UMAP을 함께 보면, 대규모 사전학습 표현이 여러 단일세포 분석 작업으로 이동하는 구조가 드러난다.

scGPT의 기본 발상

scGPT는 자연어 모델의 관점을 단일세포 데이터에 가져온다.

비유하면 다음과 같다.

단어: 유전자
문장: 세포
문장 의미: 세포 상태
단어 간 문맥: 유전자 간 상호작용
문장 임베딩: 세포 임베딩
단어 임베딩: 유전자 임베딩

다만 중요한 차이가 있다.

문장은 순서가 있다.
유전자 발현 목록에는 자연스러운 순서가 없다.

그래서 scGPT는 일반 GPT처럼 “다음 단어”를 예측하지 않는다.
대신 일부 유전자 발현 값을 가리고, 이미 관측된 유전자 정보를 바탕으로 가려진 값을 생성하도록 학습한다.

이 방식의 의도는 명확하다.

모델이 단순히 유전자 이름을 외우는 것이 아니라,
세포 안에서 어떤 유전자들이 함께 작동하는지 배우게 만드는 것이다.

Crop 포인트: 파란색으로 가려진 영역은 모델이 보지 못하는 정보이며, 단계가 진행될수록 이전 예측을 다음 예측의 단서로 쓰는 구조가 보인다.

입력은 무엇인가

scGPT 입력은 세 가지 층으로 구성된다.

1. 유전자 토큰

각 유전자를 하나의 토큰으로 본다.
자연어 모델에서 단어를 숫자 ID로 바꾸는 것과 비슷하다.

이렇게 하면 서로 다른 데이터셋의 유전자 목록을 하나의 공통 vocabulary로 맞출 수 있다.

2. 발현 값

유전자 발현 값은 실험마다 스케일이 다르다.
시퀀싱 깊이, 플랫폼, 샘플 처리 방식이 다르기 때문이다.

scGPT는 발현 값을 절대 수치 그대로 쓰기보다,
각 세포 안에서 상대적으로 어느 정도 강하게 발현되는지를 구간화해 입력한다.

핵심 의도는 다음과 같다.

“이 유전자가 전체적으로 얼마나 큰 숫자인가?”보다
“이 세포 안에서 이 유전자가 얼마나 중요한 신호인가?”를 보려는 것이다.

3. 조건 토큰

배치, 오믹스 종류, 교란 조건 같은 부가 정보를 함께 넣는다.

예를 들어 한 입력이 RNA인지, ATAC인지, 단백질인지 알려줄 수 있다.
또 특정 유전자가 교란되었는지도 표시할 수 있다.

결과 1: 세포 타입 주석 성능

세포 타입 주석은 단일세포 분석의 기본 작업이다.
새로 얻은 세포가 T cell인지, B cell인지, neuron인지 등을 예측한다.

scGPT는 hPancreas, multiple sclerosis, tumor-infiltrating myeloid 데이터셋에서 평가됐다.

논문이 강조하는 지점은 세 가지다.

원본 유전자 발현을 직접 입력으로 받는다.
사전학습 규모가 커질수록 예측 정확도가 좋아진다.
scBERT, TOSICA 같은 transformer 기반 비교 모델보다 여러 지표에서 앞선다.

특히 multiple sclerosis 데이터셋에서 사전학습 세포 수를 늘렸을 때 성능이 단계적으로 개선됐다.
30K 세포로 학습한 모델보다 33M 세포로 학습한 모델이 더 안정적으로 세포 타입을 구분했다.

Crop 포인트: 가운데의 30K→33M 성능 변화와 하단의 benchmark 라인을 보면, 사전학습 데이터 규모가 downstream 분류 성능으로 이어지는 패턴이 보인다.

결과 2: 보지 못한 유전자 교란을 예측

유전자 교란 실험은 강력하다.
특정 유전자를 억제하거나 활성화한 뒤, 세포 상태가 어떻게 바뀌는지 본다.

하지만 가능한 유전자 조합은 폭발적으로 많다.
모든 조합을 실험으로 확인하기는 어렵다.

scGPT는 이미 수행된 교란 실험을 학습한 뒤,
아직 실험하지 않은 유전자 교란의 결과를 예측한다.

논문에서는 Adamson Perturb-seq와 Norman Perturb-seq 데이터를 사용했다.
비교 대상은 GEARS와 CPA였다.

핵심 결과는 다음과 같다.

scGPT는 두 데이터셋에서 가장 높은 상관 기반 성능을 보였다.
예측된 발현 변화는 실제 교란 후 발현 변화와 유사한 방향을 보였다.
전체 교란 조합 공간 중 실험된 일부만으로도 나머지 조합의 반응 공간을 확장해 탐색했다.

저자들은 역방향 교란 예측도 제시했다.

즉, “이런 세포 상태를 만들려면 어떤 유전자를 교란해야 하는가?”라는 질문이다.
20개 유전자 조합 공간에서 scGPT는 테스트 사례 7개 중 5개를 상위 5개 후보 안에서 맞혔다고 보고한다.

Crop 포인트: 중앙의 예측 교란 UMAP과 우하단의 TopK hit rate를 보면, scGPT가 미실험 조합을 단순 보간이 아니라 구조화된 반응 공간으로 확장하고 있음을 볼 수 있다.

결과 3: 배치 보정과 멀티오믹스 통합

단일세포 데이터는 실험실, 장비, 시퀀싱 프로토콜에 따라 흔들린다.
이를 배치 효과라고 한다.

좋은 통합 모델은 두 가지를 동시에 해야 한다.

기술적 배치 차이는 줄인다.
실제 생물학적 차이는 보존한다.

scGPT는 scRNA-seq 배치 통합에서 scVI, Seurat, Harmony와 비교됐다.
PBMC 10K 데이터에서는 scGPT가 여러 세포 타입을 더 명확히 분리했다고 보고된다.

멀티오믹스 통합에서도 테스트됐다.

RNA + ATAC
RNA + protein
RNA + ATAC + protein의 mosaic setting

특히 mosaic setting은 어렵다.
어떤 배치는 RNA와 단백질만 있고, 다른 배치는 ATAC와 단백질만 있을 수 있다.
모든 세포가 같은 종류의 데이터를 갖고 있지 않기 때문이다.

scGPT는 이런 상황에서도 공동 표현 공간을 학습했다.

Crop 포인트: 각 행의 왼쪽 scGPT 결과를 비교 모델과 나란히 보면, 세포 타입 구조를 유지하면서 배치 또는 modality 차이를 줄이는 방향이 나타난다.

결과 4: 유전자 네트워크를 읽어내는 능력

scGPT는 세포 임베딩만 만드는 모델이 아니다.
유전자 임베딩도 함께 학습한다.

이 점이 중요하다.

유전자 임베딩이 의미 있게 학습되었다면,
기능적으로 가까운 유전자들이 표현 공간에서도 가까워져야 한다.

논문은 HLA gene network와 CD gene network를 sanity check로 사용했다.
사전학습 모델은 HLA class I과 class II를 구분하는 구조를 보였다.
미세조정 모델은 면역세포 데이터에서 CD3, CD79, CD8 같은 기능적 연결을 더 잘 드러냈다.

또한 scGPT가 추출한 gene program은 co-expression 기반 방법보다 더 많은 Reactome pathway를 포착했다.
특히 adaptive immune system, TCR signaling, PD-1 signaling, MHC class II presentation 같은 면역 관련 경로가 scGPT에서 더 뚜렷하게 나타났다.

Crop 포인트: 하단의 pathway enrichment와 Venn diagram은 scGPT가 단순 공발현보다 더 넓은 면역 관련 기능 경로를 잡아낸다는 주장을 뒷받침한다.

attention map은 해석 가능성을 제공한다

Transformer의 attention은 “어떤 입력이 어떤 입력을 참고했는가”를 보여준다.
scGPT는 이를 유전자 간 영향 관계를 추정하는 데 사용했다.

저자들은 교란 전후의 attention 변화를 비교했다.
그 뒤 특정 전사인자 억제가 어떤 유전자 네트워크 변화를 유도하는지 분석했다.

예시는 두 가지다.

DDIT3 억제
BHLHE40 억제

DDIT3의 경우, scGPT가 고른 상위 영향 유전자 20개가 ChIP-Atlas에서 DDIT3 target으로 확인됐다고 보고한다.
BHLHE40도 상위 20개 중 19개가 예측 target과 겹쳤다.

이는 scGPT의 attention이 단순 시각화가 아니라,
세포 상태별 유전자 조절 단서를 제공할 수 있음을 시사한다.

Crop 포인트: 상단의 교란 전후 attention 처리 흐름과 하단의 target/pathway 검증을 연결해 보면, attention 변화가 유전자 조절 해석으로 이어지는 과정을 볼 수 있다.

전이학습에서 중요한 두 가지

논문은 scGPT의 전이학습 특성을 추가로 분석했다.

1. 데이터가 커질수록 좋아진다

30K, 300K, 3M, 33M 세포로 각각 사전학습한 모델을 비교했다.
다운스트림 성능은 대체로 데이터 규모가 커질수록 개선됐다.

이는 자연어 모델에서 관찰되는 scaling law와 비슷한 패턴이다.
다만 저자들은 모델 크기도 함께 커져야 더 큰 데이터의 이점을 충분히 활용할 수 있다고 본다.

2. 사전학습 맥락이 맞으면 더 좋다

모든 세포를 섞어 학습한 whole-human 모델은 범용성이 높았다.
하지만 특정 task에서는 맥락이 맞는 조직 특이 모델도 강했다.

COVID-19 통합 실험에서는 혈액과 폐 모델이 유리했다.
이는 해당 데이터가 PBMC, bone marrow, lung 계열 세포를 포함하기 때문이다.

Crop 포인트: 왼쪽 막대그래프에서 whole-human, blood, lung 모델이 앞서는 부분은 사전학습 맥락과 target 데이터 맥락의 정렬이 성능에 영향을 준다는 점을 보여준다.

이 논문의 의의

scGPT의 핵심 의의는 “단일세포 분석을 위한 범용 출발점”을 제시했다는 데 있다.

기존에는 작업별 모델이 많았다.
scGPT는 하나의 사전학습 모델을 여러 분석 문제에 재사용한다.

이 접근은 다음 가능성을 연다.

세포 아틀라스가 커질수록 모델도 함께 개선된다.
새 데이터셋에 대해 적은 fine-tuning으로 분석을 시작할 수 있다.
세포와 유전자 표현을 동시에 얻을 수 있다.
멀티오믹스와 교란 실험을 같은 프레임 안에서 다룰 수 있다.
attention과 유전자 임베딩을 통해 해석 가능성을 일부 확보할 수 있다.

주의해서 읽어야 할 점

이 논문은 강한 결과를 제시하지만, 몇 가지 해석상 주의가 필요하다.

1. 실험 검증이 필요한 예측이 많다

교란 예측과 역방향 교란 예측은 유용한 가설 생성 도구다.
하지만 실제 치료 표적이나 세포 운명 조작으로 이어지려면 독립적인 실험 검증이 필요하다.

2. 사전학습 데이터의 맥락이 중요하다

모든 작업에서 whole-human 모델이 항상 최선이라고 볼 수는 없다.
논문 자체도 target dataset과 비슷한 조직 맥락의 사전학습이 이점을 줄 수 있다고 보여준다.

3. multi-omics는 아직 완전한 통합 사전학습이 아니다

논문은 scGPT가 RNA, ATAC, 단백질 데이터를 다룰 수 있음을 보인다.
다만 추가 modality token은 일부 설정에서 새로 학습된다.
향후에는 멀티오믹스 자체를 더 큰 규모로 사전학습하는 방향이 중요해질 수 있다.

4. 모델 크기 확장은 열려 있다

논문은 데이터 규모가 커질수록 성능이 개선되는 패턴을 보였다.
하지만 모델 파라미터 규모를 함께 키우는 실험은 제한적이다.
더 큰 단일세포 파운데이션 모델의 성능 한계는 아직 열려 있다.

한 문장 정리

scGPT는 단일세포 데이터를 “유전자 토큰으로 이루어진 세포 문맥”으로 보고, 대규모 세포 아틀라스 사전학습을 통해 세포 주석, 통합, 교란 예측, 유전자 네트워크 추론을 하나의 프레임으로 묶은 초기 단일세포 파운데이션 모델이다.

Source

Haotian Cui, Chloe Wang, Hassaan Maan, Kuan Pang, Fengning Luo, Bo Wang. scGPT: Towards Building a Foundation Model for Single-Cell Multi-omics Using Generative AI. bioRxiv preprint, version posted July 2, 2023.
DOI: https://doi.org/10.1101/2023.04.30.538439
Codebase: https://github.com/bowang-lab/scGPT
분석 기준: 업로드된 bioRxiv preprint PDF.

'AI 생성 글 정리 > bio' 카테고리의 다른 글

[Protein Design with Agent Rosetta: A Case Study for Specialized Scientific Agents] 논문 정리 (0)	2026.04.27
SPATIA 논문 정리 (0)	2026.04.26
Novae 논문 정리 (0)	2026.04.26
Generative design of novel bacteriophages with genome language models 논문 정리 (0)	2026.04.26
ProteinMPNN: 논문 정리 (0)	2026.04.14

Honbul과 컴퓨터

scGPT 논문 정리

핵심 요약

왜 이 논문이 중요한가

scGPT의 기본 발상