본문 바로가기
AI 생성 글 정리/bio

GSFM 논문 정리

by Honbul 2026. 5. 29.

한눈에 보는 결론

이 논문은 유전자 집합(gene set) 을 위한 파운데이션 모델을 제안한다.

핵심 이름은 GSFM, Gene Set Foundation Model 이다.

기본 아이디어는 간단하다.

  • 많은 유전자 집합을 모델에 보여준다.
  • 일부 유전자가 함께 등장하는 패턴을 학습시킨다.
  • 주어진 유전자 집합을 보고 빠진 유전자를 예측하게 한다.
  • 그 결과를 유전자 기능 예측에 사용한다.

저자들은 Rummagene과 RummaGEO에서 얻은 대규모 유전자 집합을 사용했다.

가장 좋은 결과를 낸 모델은 Rummagene으로 학습한 denoising autoencoder 계열 GSFM 이었다.

이 모델은 비교 대상이 된 여러 기존 방법보다, 네 가지 벤치마크 라이브러리에서 전반적으로 더 높은 성능을 보였다.

왜 유전자 집합에 파운데이션 모델이 필요한가

유전자는 한 가지 역할만 하지 않는다.

같은 유전자가 다음처럼 서로 다른 맥락에 등장할 수 있다.

  • 특정 생물학적 과정
  • 질병 관련 경로
  • 전사인자 표적
  • 약물 반응
  • 단백질 상호작용

자연어에서 한 단어가 문맥에 따라 다른 의미를 갖는 것과 비슷하다.

기존 유전자 임베딩 모델은 주로 다음 데이터에 의존했다.

  • 단일세포 전사체 데이터
  • 유전자 발현 상관관계
  • 문헌 동시 언급
  • 단백질 서열
  • NCBI 유전자 설명문

문제는 범위다.

단일세포 데이터는 강력하지만, 모든 생물학적 맥락을 담지 못한다.

논문 저자들은 더 넓은 출처를 사용하려 했다.

특히 논문 보충자료와 GEO 기반 RNA-seq 분석에서 자동 수집된 유전자 집합을 학습 재료로 삼았다.

데이터: Rummagene과 RummaGEO

GSFM은 두 데이터베이스를 중심으로 학습된다.

Rummagene은 생의학 논문의 보충 표에서 유전자 집합을 자동 추출한다.

논문 보충자료에는 실험 결과, 후보 유전자 목록, 분석 산출물이 많이 들어 있다.

따라서 Rummagene은 다양한 실험 기술과 연구 맥락을 반영한다.

 

RummaGEO는 GEO에 등록된 RNA-seq 연구에서 샘플 그룹 간 차이를 자동 계산해 유전자 집합을 만든다.

이 데이터는 더 균일한 RNA-seq 기반 비교에서 나온다.

두 자원은 성격이 다르다.

  • Rummagene: 더 다양하고 문헌 보충자료 중심
  • RummaGEO: 더 체계적인 RNA-seq 비교 중심
  • 결합 데이터: 더 넓은 유전자 커버리지

논문에서 사용한 학습 데이터 규모는 다음과 같다.

데이터 유전자 집합 수 유전자 커버리지 평균 집합 크기
RummaGEO 93,772 58,426 411
Rummagene 444,968 19,523 124
RummaGEO + Rummagene 538,740 58,775 174

 

흥미로운 점은 최종 성능이다.

더 많은 데이터를 단순히 합친 것이 항상 더 낫지는 않았다.

최종 벤치마크에서는 Rummagene 단독 학습 GSFM 이 가장 강한 결과를 냈다.

모델 아이디어: 유전자 집합을 완성하는 모델

GSFM은 유전자 집합을 하나의 입력으로 받는다.

그리고 그 집합에 들어갈 가능성이 높은 다른 유전자를 예측한다.

직관적으로는 생물학적 퍼즐 맞추기에 가깝다.

예를 들어 어떤 유전자들이 특정 경로에 함께 등장한다면, 모델은 그 조합을 보고 아직 빠져 있는 유전자를 추정한다.

 

학습에는 정답 라벨이 따로 필요하지 않다.

기존 유전자 집합 자체가 학습 재료가 된다.

이 방식은 자기지도학습에 가깝다.

모델은 반복적으로 다음 패턴을 익힌다.

  • 어떤 유전자들이 함께 나타나는가
  • 어떤 조합이 특정 기능적 맥락을 암시하는가
  • 어떤 유전자가 기존 집합에 자연스럽게 추가될 수 있는가

Crop 포인트: 여러 구조 중에서 입력 유전자 집합을 바로 다중 선택 벡터로 넣는 DAE 흐름이 최종 선택의 기준점이 된다.

 

논문은 여러 모델 구조를 비교했다.

대표 구조는 다음과 같다.

  • DAE: 유전자 집합을 한 번에 벡터화해 압축하고 다시 예측
  • VAE: 압축 공간에 확률적 변화를 추가
  • mEDAE: 개별 유전자 임베딩을 평균낸 뒤 처리
  • EDAE: 개별 유전자를 처리한 뒤 평균
  • EPDAE: 입력 평균과 처리 후 평균을 함께 사용

결과적으로 가장 단순한 축에 가까운 multi-hot DAE가 가장 좋은 선택이었다.

복잡한 구조가 항상 더 좋은 것은 아니었다.

먼저 확인한 것: 단순 유사도 기반 베이스라인

저자들은 먼저 기존 방식에 가까운 기준선을 세웠다.

방법은 단순하다.

이미 어떤 유전자 집합이 있을 때, 그 안의 유전자들과 비슷한 유전자를 찾아 후보로 올린다.

이 비교에는 여러 유전자-유전자 유사도 행렬이 사용됐다.

출처도 다양하다.

  • ARCHS4 발현 상관관계
  • GTEx 조직 발현 패턴
  • Enrichr 제출 gene set의 공동 등장
  • GeneRIF와 PubMed 문헌 동시 언급
  • GenePT 임베딩
  • Rummagene 및 RummaGEO 기반 유사도

평가 방식은 gene set completion이다.

하나의 유전자 집합을 둘로 나눈다.

한쪽만 모델에 보여준다.

나머지 숨겨둔 유전자를 얼마나 잘 다시 찾아내는지 본다.

AUROC는 이 예측 순위가 얼마나 좋은지 보는 지표다.

Crop 포인트: 수작업 큐레이션 라이브러리에서는 GenePT가 강하고, 데이터 기반 라이브러리에서는 Rummagene과 RummaGEO 계열이 강한 차이를 보인다.

 

Figure 2의 메시지는 명확하다.

데이터 출처마다 강점이 다르다.

GO Biological Process나 KEGG처럼 수작업으로 정리된 지식에는 GenePT가 강하다.

 

반면 GWAS Catalog나 ChEA처럼 데이터 기반 성격이 강한 라이브러리에서는 Rummagene, RummaGEO, Enrichr 계열 정보가 더 경쟁력 있게 나타난다.

즉, 하나의 유전자 표현만으로 모든 생물학적 맥락을 덮기는 어렵다.

이 지점이 GSFM의 필요성을 만든다.

어떤 GSFM 구조가 가장 잘 맞았나

논문은 모델 구조와 학습 설정을 넓게 비교했다.

비교한 요소는 다음과 같다.

  • 학습 중 유전자 집합을 얼마나 가리는가
  • 드롭아웃을 얼마나 적용하는가
  • 네트워크 깊이는 어느 정도가 좋은가
  • 압축 벡터 크기는 얼마나 큰가
  • 자주 등장하는 유전자와 드문 유전자의 손실을 다르게 볼 것인가
  • 어떤 autoencoder 변형이 가장 좋은가
  • 어떤 데이터로 학습할 것인가

최종적으로 좋은 설정은 비교적 단순했다.

  • 구조: DAE
  • 학습 데이터: Rummagene
  • 드롭아웃: 0.2
  • 깊이: 얕은 구조
  • 압축 차원: 256
  • 가중 손실: 사용하지 않음
  • 학습: 약 50 epoch 이후 성능이 대체로 안정화

Crop 포인트: 구조·하이퍼파라미터·학습 데이터 비교에서 DAE와 Rummagene 단독 학습 조합이 반복적으로 우세하게 나타난다.

 

Figure 3에서 중요한 점은 두 가지다.

 

첫째, 더 깊고 복잡한 구조가 항상 이기지 않았다.

 

둘째, RummaGEO를 더하거나 대체해도 성능이 자동으로 좋아지지 않았다.

 

이 논문에서는 Rummagene의 다양성이 더 큰 힘을 낸 것으로 해석된다.

보충자료에서 자동 수집된 유전자 집합은 정돈된 RNA-seq 비교보다 더 잡음이 있을 수 있다.

하지만 그 잡음 속에는 더 넓은 실험 맥락이 담겨 있을 수 있다.

GSFM은 그 다양성을 학습 가능한 신호로 활용한 것으로 볼 수 있다.

최종 성능: GSFM이 기존 방식보다 앞섰다

최종 비교에서는 GSFM이 기존 방법들과 함께 평가됐다.

비교 대상에는 다음이 포함된다.

  • 단순 평균 유사도 기반 방법
  • PrismEXP
  • ARCHS4 기반 접근
  • GenePT
  • Rummagene 및 RummaGEO 기반 방법
  • Rummagene으로 학습한 GSFM
  • RummaGEO로 학습한 GSFM
  • 두 데이터의 결합으로 학습한 GSFM

결론은 일관적이다.

Rummagene으로 학습한 GSFM이 네 가지 주요 벤치마크에서 전반적으로 가장 강했다.

벤치마크 라이브러리는 다음 네 가지다.

  • ChEA 2022
  • GO Biological Process 2023
  • GWAS Catalog 2023
  • KEGG 2021 Human

Crop 포인트: 같은 Rummagene 정보를 쓰더라도 단순 유사도보다 PrismEXP가 낫고, 그보다 GSFM이 더 높은 순위에 놓이는 흐름에 주목해야 한다.

 

Figure 4는 모델의 핵심 주장을 뒷받침한다.

같은 데이터라도 사용하는 방법에 따라 성능이 달라진다.

Rummagene 기반 단순 유사도는 기본 신호를 잡아낸다.

PrismEXP는 더 정교한 방식으로 그 신호를 사용한다.

GSFM은 비선형 패턴과 복합 맥락을 더 잘 포착한다.

 

논문의 해석은 이렇다.

유전자 기능은 단순한 거리 계산만으로 설명하기 어렵다.

여러 실험 맥락과 기능 맥락이 겹친다.

따라서 유전자 집합 전체의 조합을 학습하는 모델이 유리할 수 있다.

예측을 더 넓은 라이브러리에 적용

저자들은 최종 GSFM을 여러 추가 라이브러리에 적용했다.

목표는 단순한 벤치마크를 넘어, 실제 서비스 가능한 예측을 만드는 것이었다.

적용된 라이브러리에는 다음이 포함된다.

  • KOMP2 Mouse Phenotypes
  • MoTrPAC Endurance Trained Rats
  • KEA
  • LINCS L1000 perturbation signatures
  • MGI Mammalian Phenotype
  • Human Phenotype Ontology
  • HuBMAP Azimuth
  • OMIM Disease
  • IDG Drug Targets

이 작업의 결과는 인간 단백질 코딩 유전자 전체에 대한 기능 예측으로 확장됐다.

각 유전자 페이지에서 관련 term 예측을 확인할 수 있도록 구성했다.

Crop 포인트: 추가 라이브러리에서도 성능 분포가 라이브러리별로 다르게 나타나며, GSFM의 적용 범위와 한계를 동시에 보여준다.

 

Figure 5는 GSFM이 하나의 특정 벤치마크에만 맞춰진 모델이 아님을 보여준다.

다만 모든 라이브러리에서 같은 수준의 성능을 보인다는 뜻은 아니다.

라이브러리의 성격, 유전자 집합 크기, 데이터 출처에 따라 성능 분포가 달라진다.

이 차이는 실제 사용에서 중요하다.

예측 점수는 그대로 생물학적 사실로 받아들이기보다, 후속 실험이나 검증 후보를 정렬하는 도구로 보는 편이 안전하다.

웹사이트와 모델 공개

저자들은 GSFM을 웹사이트로 공개했다.

웹사이트에서는 다음 기능을 제공한다.

  • 유전자별 예측 탐색
  • gene set augmentation
  • zero-shot gene function prediction
  • 학습 데이터 및 처리 데이터 접근
  • 벤치마크 결과 확인

모델 가중치와 코드도 공개돼 있다.

사전학습 모델은 Hugging Face에서 사용할 수 있다.

Crop 포인트: 검색, augmentation, 유전자별 예측 페이지가 하나의 사용 흐름으로 연결되어 연구자가 바로 후보 유전자를 탐색할 수 있게 한다.

 

Figure 6은 이 논문이 단순 모델 제안에 머물지 않음을 보여준다.

저자들은 예측 결과를 실제 탐색 가능한 형태로 제공한다.

 

이는 시스템생물학 연구에서 중요하다.

모델 성능이 좋아도 접근성이 낮으면 재사용이 어렵다.

GSFM은 웹 인터페이스와 Hugging Face 공개를 통해 후속 연구 진입 장벽을 낮춘다.

이 논문의 핵심 기여

이 논문의 기여는 세 가지로 정리할 수 있다.

1. gene set 자체를 학습 단위로 삼았다

많은 생물학 AI 모델은 세포, 유전자 서열, 발현 행렬을 입력으로 삼는다.

GSFM은 유전자 집합을 직접 학습한다.

이는 Enrichr, GO, KEGG, ChEA처럼 gene set 중심으로 작동하는 생물정보학 생태계와 잘 맞는다.

2. 라벨이 없어도 대규모 학습이 가능했다

Rummagene과 RummaGEO의 유전자 집합은 모두 완벽한 정답 라벨이 아니다.

하지만 GSFM은 이들을 자기지도학습 재료로 사용한다.

유전자 집합 안의 공동 등장 패턴이 학습 신호가 된다.

이 접근은 큐레이션 비용을 낮춘다.

3. 단순 유사도보다 복합 맥락을 더 잘 잡았다

기존 방식은 주어진 유전자 집합과 비슷한 유전자를 찾는 방식이 많았다.

GSFM은 전체 조합을 보고 예측한다.

따라서 하나의 유전자가 여러 기능 맥락에 걸쳐 있는 상황을 더 유연하게 다룰 수 있다.

한계와 다음 단계

논문이 제시한 한계도 분명하다.

 

첫째, GSFM은 현재 주로 단백질 코딩 유전자를 대상으로 한다.

비코딩 유전자, isoform, transcript 수준 정보는 아직 충분히 다루지 않는다.

 

둘째, 학습 대상은 주로 인간과 마우스 유전자다.

다른 모델 생물종으로 확장하려면 해당 생물종의 gene set 자원이 필요하다.

 

셋째, 현재 모델은 gene set의 텍스트 설명을 본격적으로 함께 학습하지 않는다.

Rummagene, RummaGEO, Enrichr에는 유전자 집합 설명문이 있다.

이 텍스트까지 함께 사용하면 더 강한 모델로 확장될 수 있다.

 

넷째, 많은 생물학 데이터는 단순 gene set이 아니라 signature 형태다.

예를 들어 어떤 유전자는 올라가고, 어떤 유전자는 내려간다.

또는 각 유전자마다 통계값이 붙어 있다.

GSFM이 이런 방향성과 강도를 함께 학습하면 활용 범위가 더 넓어질 수 있다.

읽을 때 주의할 점

이 논문은 bioRxiv preprint다.

동료심사를 거친 최종 논문은 아니다.

또한 벤치마크는 주로 기존 gene set에서 일부 유전자를 숨긴 뒤 복원하는 방식이다.

이는 유용한 평가지만, 실험적 기능 검증과 동일하지 않다.

따라서 GSFM의 예측은 다음처럼 해석하는 것이 적절하다.

  • 새로운 생물학적 가설 후보
  • gene set 보강 후보
  • 기능 주석 우선순위
  • 후속 wet lab 검증을 위한 탐색 도구

예측 점수가 높다고 해서 곧바로 인과관계가 입증되는 것은 아니다.

요약

GSFM은 유전자 집합을 학습하는 파운데이션 모델이다.

대규모 unlabeled gene set에서 공동 등장 패턴을 배운다.

그 결과, 숨겨진 유전자를 복원하는 gene function prediction 평가에서 강한 성능을 보였다.

특히 Rummagene으로 학습한 DAE 기반 GSFM이 가장 좋은 결과를 냈다.

이 논문은 유전자 기능 예측을 단순 유사도 계산에서 gene set 맥락 학습으로 확장한다.

 

가장 실용적인 의미는 명확하다.

GSFM은 실험 생물학자가 검증할 만한 유전자 기능 가설을 더 빠르게 좁혀주는 도구가 될 수 있다.

Source