본문 바로가기
AI 생성 글 정리/medical

SleepFM 논문 정리

by Honbul 2026. 5. 18.

한 줄 요약

SleepFM은 수면다원검사 한 번으로 미래 질환 위험을 예측하려는 수면 기반 파운데이션 모델이다.

핵심은 단순하다.

  • 수면 중 뇌, 심장, 호흡, 근육 신호를 함께 읽는다.
  • 라벨이 없는 대규모 수면 데이터에서 먼저 수면의 공통 패턴을 배운다.
  • 이후 적은 라벨만으로 수면 단계, 수면무호흡, 미래 질환 위험 예측에 적응한다.

이 논문의 주장은 명확하다.

수면은 단순한 휴식 상태가 아니다.
미래 건강 위험이 압축되어 나타나는 생리학적 기록이다.


왜 이 연구가 중요한가

수면다원검사, 즉 PSG는 수면 평가의 표준 검사다.

PSG는 여러 신호를 동시에 기록한다.

  • 뇌파와 안구 움직임
  • 심장 전기 활동
  • 호흡 흐름과 산소 포화도
  • 근육 움직임

문제는 이 데이터가 충분히 활용되지 않았다는 점이다.

기존 연구는 보통 특정 질환 하나를 예측하거나, 전문가가 붙인 수면 단계 라벨에 크게 의존했다.

병원마다 채널 구성도 달랐다. 그래서 모델을 한 병원에서 다른 병원으로 옮기기 어려웠다.

SleepFM은 이 문제를 파운데이션 모델 방식으로 접근한다.

Crop point: 오른쪽 하단 성능 막대는 SleepFM이 수면 분석을 넘어 만성질환 위험 예측까지 확장된다는 점을 보여준다.


SleepFM의 기본 아이디어

SleepFM은 수면을 “여러 생체 신호가 동시에 말하는 언어”로 본다.

모델은 PSG를 5초 단위 조각으로 나눈다.
각 조각에서 신호 패턴을 뽑는다.
그다음 시간 흐름 속에서 이 패턴들이 어떻게 이어지는지 학습한다.

특히 중요한 설계가 있다.

1. 채널 구성이 달라도 작동한다

PSG는 병원마다 채널 수와 종류가 다르다.

어떤 검사는 EEG 채널이 많다.
어떤 검사는 호흡 채널 구성이 다르다.
어떤 채널은 누락될 수도 있다.

SleepFM은 특정 채널 순서에 고정되지 않도록 설계됐다.
여러 채널을 먼저 요약한 뒤, 그 요약값을 시간 순서로 처리한다.

2. 라벨 없이 먼저 배운다

모델은 처음부터 질환명을 맞히도록 훈련되지 않는다.

대신 같은 시간대에 기록된 뇌, 심장, 호흡, 근육 신호가 서로 대응된다는 사실을 이용한다.

예를 들어 한 신호를 기준으로 나머지 신호들과 맞는 짝을 찾게 한다.
이 과정에서 모델은 “같은 수면 상태에서 함께 나타나는 생리 패턴”을 배운다.

이 방식 덕분에 전문가 라벨이 부족해도 대규모 수면 데이터를 사용할 수 있다.


사용한 데이터

연구진은 4개 주요 코호트로 SleepFM을 사전학습했다.

  • Stanford Sleep Clinic
  • BioSerenity
  • MESA
  • MrOS

전체 규모는 약 65,000명, 585,000시간 이상의 PSG 기록이다.

SHHS는 사전학습에서 제외했다.
이 데이터는 나중에 모델이 새로운 병원·코호트에 적응할 수 있는지 검증하는 용도로만 사용했다.


먼저 확인한 것: 기본 수면 분석 능력

SleepFM은 질환 예측만 평가한 모델이 아니다.

기본 수면 분석 과제에서도 성능을 확인했다.

  • 나이 예측: 평균 오차 약 7.3년
  • 성별 분류: AUROC 0.86
  • 수면 단계 분류: 여러 코호트에서 평균 F1 0.70–0.78
  • 수면무호흡 중등도 분류: 정확도 0.69
  • 중등도 이상 수면무호흡 존재 여부: 정확도 0.87

즉, 모델은 수면 단계와 호흡 이상 같은 기본 구조를 먼저 포착한다.
그 위에서 질환 위험 예측이 이루어진다.


핵심 실험: 수면 한 번으로 미래 질환을 예측할 수 있는가

연구진은 Stanford Sleep Clinic의 PSG와 전자의무기록을 연결했다.

질병 코드는 phecode라는 질환 범주로 정리했다.
총 1,041개 질환 범주를 평가했다.

 

예측 대상은 “수면검사 이후 새롭게 발생한 질환”이다.
수면검사 직후 이미 기록된 진단은 제외했다.
단순한 기록 누수를 줄이기 위한 설계다.

평가는 두 관점에서 진행됐다.

  • C-Index: 실제로 더 빨리 질환이 생긴 사람을 모델이 더 높은 위험으로 보았는가
  • 6년 AUROC: 6년 안에 질환이 생긴 사람과 그렇지 않은 사람을 잘 구분했는가

Crop point: 점선 위에 모인 질환군은 SleepFM이 단일 질환이 아니라
여러 임상 영역에서 안정적인 예측력을 보였음을 의미한다.


주요 결과

SleepFM은 130개 미래 질환에서 C-Index와 6년 AUROC가 모두 0.75 이상이었다.
통계적으로도 엄격한 보정 뒤 유의했다.

대표 결과는 다음과 같다.

  • 전체 사망
  • 치매
  • 심부전
  • 만성 신장질환
  • 뇌졸중
  • 심근경색
  • 심방세동

특히 치매, 심부전, 만성 신장질환, 사망 위험에서 강한 결과를 보였다.

논문은 이를 “수면이 다양한 장기 시스템의 상태를 반영한다”는 관점으로 해석한다.
수면 중 호흡, 심박, 뇌 활동, 움직임은 각각 따로 존재하지 않는다.
질환 위험은 이 신호들의 조합 속에 나타난다.


새로운 코호트에서도 작동하는가

모델이 한 병원에만 맞춰진다면 임상적 가치는 제한된다.

그래서 연구진은 SHHS를 따로 남겨 두었다.
SHHS는 SleepFM의 사전학습에 쓰이지 않았다.

이후 일부 SHHS 데이터로 가볍게 fine-tuning하고, 나머지 2,000명에서 평가했다.

Crop point: SHHS 결과에서 심혈관 사망, 울혈성 심부전, 뇌졸중 막대가 높게 유지되는 부분은
사전학습 모델의 전이 가능성을 보여준다.

 

SHHS에서 SleepFM은 주요 심혈관 결과를 예측했다.

  • 심혈관 질환 관련 사망
  • 울혈성 심부전
  • 관상동맥질환 사망
  • 뇌졸중
  • 심근경색
  • 협심증

특히 심혈관 사망과 울혈성 심부전에서 높은 예측력을 보였다.

또한 Stanford 내부에서도 2020년 이후 데이터로 시간적 일반화 성능을 확인했다.
임상 환경이 바뀌어도 모델 성능이 완전히 무너지지는 않았다.


사전학습은 왜 중요한가

논문은 SleepFM을 두 가지 기준 모델과 비교했다.

 

첫째, 인구통계 모델이다.
나이, 성별, BMI, 인종·민족 정보를 사용했다.

 

둘째, End-to-End PSG 모델이다.
원시 PSG를 직접 넣지만, 사전학습은 하지 않았다.

SleepFM은 대부분의 질환군에서 두 기준 모델보다 우수했다.

Crop point: 0 기준선 위에 있는 상자들이 많다는 점은 SleepFM이 인구통계 정보와
단순 지도학습 PSG 모델보다 폭넓게 개선됐음을 뜻한다.

 

중요한 해석은 이것이다.

모델 구조만으로는 충분하지 않다.
대규모 수면 데이터로 먼저 생리학적 표현을 학습한 것이 핵심이다.

논문에서 단순한 선형 예측 헤드를 붙인 SleepFM도 강한 성능을 냈다.
이는 downstream 모델의 복잡도보다 사전학습 임베딩의 품질이 더 중요하다는 신호다.


라벨이 적을 때 더 빛난다

임상 데이터에서 가장 비싼 것은 라벨이다.

질환 발생 여부와 추적 기간을 정확히 모으려면 시간이 든다.
병원마다 데이터 구조도 다르다.

SleepFM은 적은 fine-tuning 데이터에서도 비교적 안정적으로 성능을 유지했다.

Crop point: 10% fine-tuning 구간에서도 SleepFM 선이 기준 모델보다 높게 시작하는 부분이 라벨 효율성을 보여준다.

 

SHHS 실험에서 SleepFM은 적은 학습 데이터로도 주요 심혈관 결과를 예측했다.
데이터가 늘수록 성능도 더 안정적으로 증가했다.

이는 실제 배포 시 중요하다.
새 병원에서 처음부터 대규모 라벨을 확보하기 어렵기 때문이다.


사전학습 데이터가 커질수록 성능도 오른다

연구진은 사전학습 데이터 규모도 따로 확인했다.

사전학습을 하지 않은 모델은 여러 질환에서 거의 무작위에 가까운 성능을 보였다.
반대로 사전학습 데이터가 늘어날수록 성능은 꾸준히 개선됐다.

Crop point: 0%에서 100%로 갈수록 여러 질환의 선이 함께 상승하는 흐름은
대규모 자기지도학습의 효과를 압축해 보여준다.

 

이 결과는 SleepFM의 핵심 가정을 뒷받침한다.

수면 신호에는 질환 위험과 연결된 일반 패턴이 있다.
그 패턴은 많은 사람의 수면 기록을 볼수록 더 잘 학습된다.


어떤 신호가 어떤 질환에 도움을 주는가

논문은 신호 종류별 기여도도 살폈다.

대략적인 경향은 생리학적 직관과 맞았다.

  • 뇌 활동 신호는 정신·신경 질환 예측에 강했다.
  • 호흡 신호는 호흡기·대사 관련 질환에서 중요했다.
  • 심장 신호는 순환기 질환 예측에 도움이 됐다.

하지만 가장 좋은 성능은 여러 신호를 함께 썼을 때 나왔다.

수면은 단일 장기의 기록이 아니다.
뇌, 심장, 호흡, 근육이 밤새 상호작용한 결과다.


임상적 의미

SleepFM은 PSG의 역할을 넓힌다.

기존 PSG는 주로 수면무호흡, 수면 단계, 수면장애 진단에 사용됐다.
이 논문은 PSG가 장기 건강 위험을 읽는 자료가 될 수 있음을 보여준다.

가능한 활용 방향은 세 가지다.

  • 수면검사 이후 장기 질환 위험 stratification
  • 병원별 소규모 라벨 데이터로 빠른 모델 적응
  • 웨어러블 수면 데이터와 결합한 비침습적 건강 모니터링

다만 이 모델은 진단 도구로 바로 쓰기에는 이르다.
현재 결과는 위험 예측 가능성을 보인 연구 단계의 성과로 보는 것이 적절하다.


한계

이 연구에는 중요한 한계도 있다.

 

첫째, 데이터는 주로 수면검사를 받은 사람들이다.
일반 인구 전체를 대표하지 않는다.

 

둘째, 시간적 변화에 따른 성능 저하가 일부 있었다.
진료 관행과 환자군이 바뀌면 모델도 재검증이 필요하다.

 

셋째, 딥러닝 모델 특성상 개별 예측의 해석은 아직 제한적이다.
어떤 수면 패턴이 특정 환자의 위험 예측을 이끌었는지 더 설명할 수 있어야 한다.

 

넷째, 외부 검증인 SHHS에서는 평가 가능한 질환이 심혈관 결과 일부로 제한됐다.
1,041개 질환 전체에 대한 외부 검증은 아직 부족하다.


결론

SleepFM은 수면을 질환 예측의 데이터 자산으로 재정의한다.

한밤의 PSG에는 뇌, 심장, 호흡, 근육의 장기적인 건강 신호가 함께 담겨 있다.
SleepFM은 이 복합 신호를 대규모 자기지도학습으로 읽어낸다.

이 논문의 가장 큰 의미는 특정 질환 모델 하나를 만든 것이 아니다.

수면 데이터가 범용 생체 신호 플랫폼이 될 수 있음을 보였다는 점이다.


Source

  • Rahul Thapa, Magnus Ruud Kjaer, Bryan He, Ian Covert, Hyatt Moore IV, Umaer Hanif, Gauri Ganjoo, M. Brandon Westover, Poul Jennum, Andreas Brink-Kjaer, Emmanuel Mignot, James Zou. A multimodal sleep foundation model for disease prediction. Nature Medicine 32, 752–762 (2026). https://doi.org/10.1038/s41591-025-04133-4
  • Code availability: https://github.com/zou-group/sleepfm-clinical
  • Figures are reproduced or adapted from the open-access article under the Creative Commons Attribution 4.0 International License.