본문 바로가기
AI 생성 글 정리/agent

Scaling Vision with Sparse Mixture of Experts 논문 정리

by Honbul 2026. 4. 14.

비전 모델은 커질수록 성능이 오르는 경우가 많습니다. 문제는 비용입니다.
이 논문은 모델 크기실제 계산량을 분리하려고 합니다.
핵심은 모든 이미지 패치를 같은 경로로 처리하지 않고, 필요한 전문가만 선택해서 계산하는 것입니다.

이 논문이 던지는 질문

  • 비전 트랜스포머를 더 크게 키우면서도 계산 비용을 통제할 수 있을까
  • 자연어 처리에서 효과를 보인 sparse Mixture of Experts를 비전에도 적용할 수 있을까
  • 학습이 끝난 뒤에도 추론 비용을 유연하게 조절할 수 있을까

핵심 주장만 먼저

  • ViT의 일부 MLP를 여러 전문가로 나눠 희소하게 활성화합니다.
  • 이미지 전체가 아니라 패치 단위로 전문가를 고릅니다.
  • 그래서 파라미터 수는 크게 늘리면서도, 한 번의 입력에서 쓰는 연산은 제한할 수 있습니다.
  • 논문 기준으로 V-MoE는 큰 dense ViT와 비교해 더 나은 성능-비용 균형을 보여줍니다.
  • 가장 큰 모델은 ImageNet fine-tuning 90.35%를 기록합니다.
  • 추가로 제안한 Batch Prioritized Routing은 덜 중요한 패치를 먼저 버려 계산을 더 줄입니다.

왜 이 접근이 중요한가

기존의 큰 비전 모델은 대체로 dense합니다.
즉, 입력 하나가 들어오면 거의 모든 파라미터가 함께 움직입니다.

이 구조는 단순하지만 비쌉니다.
모델을 더 키우면 성능은 오르지만, 학습과 추론 비용도 거의 같이 올라갑니다.

이 논문은 여기서 방향을 틉니다.
"모델은 크게 유지하되, 입력마다 필요한 부분만 쓰자"는 접근입니다.
비전 분야에서 이 아이디어를 대규모로 설득력 있게 보여준 점이 이 논문의 가장 큰 의미입니다.

구조: ViT 안에 전문가 층을 넣다

기본 뼈대는 Vision Transformer입니다.
이미지를 작은 패치들로 나눈 뒤, 이 패치들을 토큰처럼 처리합니다.

차이는 MLP 층 일부를 Sparse MoE 층으로 바꾼다는 점입니다.
여기서 각 전문가는 작은 MLP이고, 라우터는 각 패치가 어느 전문가에게 가야 할지 결정합니다.

중요한 점은 두 가지입니다.

  • 모든 패치가 모든 전문가를 거치지 않습니다.
  • 패치마다 선택되는 전문가가 다를 수 있습니다.

즉, 이미지 안에서도 중요한 부분과 덜 중요한 부분이 서로 다른 계산 경로를 가질 수 있습니다.

 

 

주목 포인트: 패치가 전체 전문가를 전부 통과하지 않고, 선택된 전문가 쪽으로만 이동한다는 점이 이 구조의 비용 절감 핵심입니다.

라우팅은 무엇을 배우는가

라우터는 각 패치 표현을 보고 어떤 전문가가 가장 잘 처리할지 점수를 매깁니다.
그리고 점수가 높은 소수의 전문가만 활성화합니다.

이렇게 하면 모델 용량은 크게 늘릴 수 있습니다.
하지만 실제 계산은 일부 전문가에서만 일어나므로 비용이 덜 늘어납니다.

물론 문제가 있습니다.
특정 전문가로 패치가 몰리면 전체 구조가 무너질 수 있습니다.
논문은 이를 막기 위해 전문가별 처리 슬롯을 제한하고, 부하를 고르게 분산시키는 보조 학습 신호를 둡니다.

핵심 직관은 단순합니다.
전문가를 많이 두되, 한 입력은 그중 일부만 쓰게 만든다는 것입니다.

성능: dense ViT보다 무엇이 좋아졌나

이 논문에서 가장 설득력 있는 부분은 성능 자체보다도 성능 대비 비용 곡선입니다.
같은 예산에서 더 높은 성능을 내거나, 같은 성능을 더 적은 비용으로 낼 수 있어야 sparse 구조의 의미가 생깁니다.

논문은 JFT-300M 사전학습과 ImageNet few-shot 평가에서 V-MoE가 dense ViT보다 더 좋은 Pareto frontier를 만든다고 보여줍니다.
즉, 품질과 비용의 균형점이 더 유리하게 이동합니다.

 

 

주목 포인트: V-MoE 계열 점들이 dense ViT보다 왼쪽 위에 더 많이 놓인다는 것은, 더 적은 비용으로 더 높은 품질을 얻는 구간이 실제로 존재한다는 뜻입니다.

 

논문 안의 대표 수치를 보면 그림의 메시지가 더 분명해집니다.

  • ViT-H/14: ImageNet fine-tuning 88.08%
  • V-MoE-H/14, Every-2: ImageNet fine-tuning 88.36%
  • V-MoE-15B: ImageNet 5-shot 82.78%, ImageNet fine-tuning 90.35%

여기서 중요한 것은 단순히 최고 점수 하나가 아닙니다.
더 큰 모델을 학습 가능한 형태로 확장했고, 그 결과가 transfer와 few-shot에서도 유지됐다는 점입니다.

이 논문의 진짜 한 수: 중요한 패치부터 계산하기

논문은 sparse 모델을 만드는 데서 끝나지 않습니다.
한 걸음 더 나아가 Batch Prioritized Routing을 제안합니다.

기존 라우팅은 사실상 토큰이 들어온 순서에 영향을 받습니다.
이 방식은 슬롯이 부족할 때 무엇을 먼저 살릴지에 대해 뚜렷한 기준이 없습니다.

새 방식은 다릅니다.
라우터가 이미 내놓은 점수를 활용해 배치 전체에서 더 중요한 패치부터 우선 배정합니다.
결과적으로 덜 중요한 패치는 뒤로 밀리거나 아예 계산에서 빠질 수 있습니다.

이 아이디어가 직관적으로 드러나는 장면이 아래 그림입니다.

 

 

주목 포인트: 처리 용량을 줄여갈수록 배경이 먼저 사라지고, 오리의 윤곽과 부리처럼 분류에 중요한 부분이 상대적으로 오래 남습니다.

이 장점은 단순한 시각화로 끝나지 않습니다.
논문은 이미 학습된 모델에 대해서도 추론 시 계산량을 부드럽게 조정할 수 있다고 보여줍니다.
즉, 서비스 환경에 따라 정확도와 비용을 사후에 맞바꾸는 운영이 가능해집니다.

주목 포인트: 초록 점들이 왼쪽으로 이동하면서도 성능을 꽤 유지한다는 것은, 같은 모델을 더 싼 추론 예산으로도 실용적으로 운용할 수 있음을 보여줍니다.

특히 낮은 처리 용량 구간에서 새 라우팅 방식의 차이가 크게 벌어집니다.
기존 방식은 성능이 급격히 무너지지만, 우선순위 기반 라우팅은 훨씬 천천히 떨어집니다.

 

주목 포인트: 처리 여유가 적어질수록 두 곡선 사이가 급격히 벌어지는데, 바로 그 구간이 우선순위 라우팅의 실전 가치가 가장 큰 영역입니다.

 

논문은 이 방식으로 dense ViT-H보다 높은 성능을 절반 이하 FLOPs60% 미만 실제 런타임으로 달성할 수 있는 설정을 제시합니다.
또 학습 단계에서도 비슷한 성능을 유지하면서 전체 학습 FLOPs를 약 20% 절약할 수 있다고 보고합니다.

모델 안에서는 무슨 일이 벌어지나

이 논문이 좋은 이유 중 하나는 단지 점수만 내세우지 않는다는 점입니다.
저자들은 라우터와 전문가가 실제로 어떤 역할을 배우는지도 들여다봅니다.

관찰은 꽤 명확합니다.

  • 초반 전문가 층은 배경, 위치, 기본 모양 같은 일반적인 신호를 더 많이 다룹니다.
  • 깊은 층으로 갈수록 특정 클래스와 더 강하게 연결되는 전문가가 나타납니다.
  • 즉, 뒤쪽 전문가일수록 분류 의미와 더 가까운 전문화가 보입니다.

 

주목 포인트: 뒤쪽 층으로 갈수록 진한 띠가 특정 전문가와 클래스 조합에 집중되는데, 이것이 전문가가 점점 더 의미 단위로 분화된다는 신호입니다.

 

이 분석은 왜 뒤쪽 라우팅이 더 중요해지는지도 설명합니다.
논문은 초기 층의 라우터를 바꿔도 비교적 버티지만, 뒤쪽 층의 라우팅 변경에는 더 민감하다고 말합니다.
즉, 깊은 층으로 갈수록 어디에 계산을 쓸지의 판단이 더 결정적이 됩니다.

강점

  • sparse MoE를 비전 영역에서 대규모로 안정적으로 보여줍니다.
  • 성능 숫자보다 더 중요한 비용 대비 성능 개선을 설득력 있게 제시합니다.
  • 학습 후에도 추론 예산을 조절할 수 있어 운영 유연성이 높습니다.
  • 패치 단위 우선순위 계산이라는 아이디어가 이후 토큰 프루닝, 적응형 계산 연구와도 잘 이어집니다.

한계와 주의할 점

  • 구현 난도가 높습니다. 특히 장치 간 통신 비용이 큽니다.
  • 같은 FLOPs라도 dense 모델이 실제 벽시계 시간에서는 더 빠를 수 있습니다.
  • 핵심 결과가 매우 큰 사전학습 데이터와 거대한 하드웨어 예산 위에 서 있습니다.
  • 패치 중요도를 라우터 점수로 대신 판단하기 때문에, 이것이 항상 의미론적 중요도와 일치한다고 보기는 어렵습니다.

이 논문을 어떻게 읽으면 좋은가

이 논문을 단순히 "MoE를 비전에 적용했다"로 읽으면 절반만 읽은 셈입니다.
더 중요한 메시지는 다음입니다.

  • 모델을 키우는 방법이 꼭 dense scaling일 필요는 없다는 것
  • 입력마다 다른 계산량을 쓰는 것이 성능과 효율을 동시에 바꿀 수 있다는 것
  • 학습이 끝난 뒤에도 추론 전략을 바꿀 수 있는 모델이 실무적으로 매우 강력하다는 것

비전 모델의 미래를 "더 큰 backbone"만으로 보지 않고,
더 똑똑하게 계산을 배분하는 시스템으로 보기 시작하게 만드는 논문입니다.

한 문장 정리

V-MoE는 비전 트랜스포머를 더 크게 만들면서도 계산은 필요한 곳에만 쓰게 해, 대규모 성능과 추론 효율을 동시에 노린 구조적 전환점을 보여준 논문입니다.

Source

  • Carlos Riquelme, Joan Puigcerver, Basil Mustafa, Maxim Neumann, Rodolphe Jenatton, André Susano Pinto, Daniel Keysers, Neil Houlsby
  • Scaling Vision with Sparse Mixture of Experts
  • NeurIPS 2021
  • Source basis: user-provided paper PDF