Scaling Vision with Sparse Mixture of Experts 논문 정리

비전 모델은 커질수록 성능이 오르는 경우가 많습니다. 문제는 비용입니다.
이 논문은 모델 크기와 실제 계산량을 분리하려고 합니다.
핵심은 모든 이미지 패치를 같은 경로로 처리하지 않고, 필요한 전문가만 선택해서 계산하는 것입니다.

이 논문이 던지는 질문

비전 트랜스포머를 더 크게 키우면서도 계산 비용을 통제할 수 있을까
자연어 처리에서 효과를 보인 sparse Mixture of Experts를 비전에도 적용할 수 있을까
학습이 끝난 뒤에도 추론 비용을 유연하게 조절할 수 있을까

핵심 주장만 먼저

ViT의 일부 MLP를 여러 전문가로 나눠 희소하게 활성화합니다.
이미지 전체가 아니라 패치 단위로 전문가를 고릅니다.
그래서 파라미터 수는 크게 늘리면서도, 한 번의 입력에서 쓰는 연산은 제한할 수 있습니다.
논문 기준으로 V-MoE는 큰 dense ViT와 비교해 더 나은 성능-비용 균형을 보여줍니다.
가장 큰 모델은 ImageNet fine-tuning 90.35%를 기록합니다.
추가로 제안한 Batch Prioritized Routing은 덜 중요한 패치를 먼저 버려 계산을 더 줄입니다.

왜 이 접근이 중요한가

기존의 큰 비전 모델은 대체로 dense합니다.
즉, 입력 하나가 들어오면 거의 모든 파라미터가 함께 움직입니다.

이 구조는 단순하지만 비쌉니다.
모델을 더 키우면 성능은 오르지만, 학습과 추론 비용도 거의 같이 올라갑니다.

이 논문은 여기서 방향을 틉니다.
"모델은 크게 유지하되, 입력마다 필요한 부분만 쓰자"는 접근입니다.
비전 분야에서 이 아이디어를 대규모로 설득력 있게 보여준 점이 이 논문의 가장 큰 의미입니다.

구조: ViT 안에 전문가 층을 넣다

기본 뼈대는 Vision Transformer입니다.
이미지를 작은 패치들로 나눈 뒤, 이 패치들을 토큰처럼 처리합니다.

차이는 MLP 층 일부를 Sparse MoE 층으로 바꾼다는 점입니다.
여기서 각 전문가는 작은 MLP이고, 라우터는 각 패치가 어느 전문가에게 가야 할지 결정합니다.

중요한 점은 두 가지입니다.

모든 패치가 모든 전문가를 거치지 않습니다.
패치마다 선택되는 전문가가 다를 수 있습니다.

즉, 이미지 안에서도 중요한 부분과 덜 중요한 부분이 서로 다른 계산 경로를 가질 수 있습니다.

주목 포인트: 패치가 전체 전문가를 전부 통과하지 않고, 선택된 전문가 쪽으로만 이동한다는 점이 이 구조의 비용 절감 핵심입니다.

라우팅은 무엇을 배우는가

라우터는 각 패치 표현을 보고 어떤 전문가가 가장 잘 처리할지 점수를 매깁니다.
그리고 점수가 높은 소수의 전문가만 활성화합니다.

이렇게 하면 모델 용량은 크게 늘릴 수 있습니다.
하지만 실제 계산은 일부 전문가에서만 일어나므로 비용이 덜 늘어납니다.

물론 문제가 있습니다.
특정 전문가로 패치가 몰리면 전체 구조가 무너질 수 있습니다.
논문은 이를 막기 위해 전문가별 처리 슬롯을 제한하고, 부하를 고르게 분산시키는 보조 학습 신호를 둡니다.

핵심 직관은 단순합니다.
전문가를 많이 두되, 한 입력은 그중 일부만 쓰게 만든다는 것입니다.

성능: dense ViT보다 무엇이 좋아졌나

이 논문에서 가장 설득력 있는 부분은 성능 자체보다도 성능 대비 비용 곡선입니다.
같은 예산에서 더 높은 성능을 내거나, 같은 성능을 더 적은 비용으로 낼 수 있어야 sparse 구조의 의미가 생깁니다.

논문은 JFT-300M 사전학습과 ImageNet few-shot 평가에서 V-MoE가 dense ViT보다 더 좋은 Pareto frontier를 만든다고 보여줍니다.
즉, 품질과 비용의 균형점이 더 유리하게 이동합니다.

주목 포인트: V-MoE 계열 점들이 dense ViT보다 왼쪽 위에 더 많이 놓인다는 것은, 더 적은 비용으로 더 높은 품질을 얻는 구간이 실제로 존재한다는 뜻입니다.

논문 안의 대표 수치를 보면 그림의 메시지가 더 분명해집니다.

ViT-H/14: ImageNet fine-tuning 88.08%
V-MoE-H/14, Every-2: ImageNet fine-tuning 88.36%
V-MoE-15B: ImageNet 5-shot 82.78%, ImageNet fine-tuning 90.35%

여기서 중요한 것은 단순히 최고 점수 하나가 아닙니다.
더 큰 모델을 학습 가능한 형태로 확장했고, 그 결과가 transfer와 few-shot에서도 유지됐다는 점입니다.

이 논문의 진짜 한 수: 중요한 패치부터 계산하기

논문은 sparse 모델을 만드는 데서 끝나지 않습니다.
한 걸음 더 나아가 Batch Prioritized Routing을 제안합니다.

기존 라우팅은 사실상 토큰이 들어온 순서에 영향을 받습니다.
이 방식은 슬롯이 부족할 때 무엇을 먼저 살릴지에 대해 뚜렷한 기준이 없습니다.

새 방식은 다릅니다.
라우터가 이미 내놓은 점수를 활용해 배치 전체에서 더 중요한 패치부터 우선 배정합니다.
결과적으로 덜 중요한 패치는 뒤로 밀리거나 아예 계산에서 빠질 수 있습니다.

이 아이디어가 직관적으로 드러나는 장면이 아래 그림입니다.

주목 포인트: 처리 용량을 줄여갈수록 배경이 먼저 사라지고, 오리의 윤곽과 부리처럼 분류에 중요한 부분이 상대적으로 오래 남습니다.

이 장점은 단순한 시각화로 끝나지 않습니다.
논문은 이미 학습된 모델에 대해서도 추론 시 계산량을 부드럽게 조정할 수 있다고 보여줍니다.
즉, 서비스 환경에 따라 정확도와 비용을 사후에 맞바꾸는 운영이 가능해집니다.

주목 포인트: 초록 점들이 왼쪽으로 이동하면서도 성능을 꽤 유지한다는 것은, 같은 모델을 더 싼 추론 예산으로도 실용적으로 운용할 수 있음을 보여줍니다.

특히 낮은 처리 용량 구간에서 새 라우팅 방식의 차이가 크게 벌어집니다.
기존 방식은 성능이 급격히 무너지지만, 우선순위 기반 라우팅은 훨씬 천천히 떨어집니다.

주목 포인트: 처리 여유가 적어질수록 두 곡선 사이가 급격히 벌어지는데, 바로 그 구간이 우선순위 라우팅의 실전 가치가 가장 큰 영역입니다.

논문은 이 방식으로 dense ViT-H보다 높은 성능을 절반 이하 FLOPs와 60% 미만 실제 런타임으로 달성할 수 있는 설정을 제시합니다.
또 학습 단계에서도 비슷한 성능을 유지하면서 전체 학습 FLOPs를 약 20% 절약할 수 있다고 보고합니다.

모델 안에서는 무슨 일이 벌어지나

이 논문이 좋은 이유 중 하나는 단지 점수만 내세우지 않는다는 점입니다.
저자들은 라우터와 전문가가 실제로 어떤 역할을 배우는지도 들여다봅니다.

관찰은 꽤 명확합니다.

초반 전문가 층은 배경, 위치, 기본 모양 같은 일반적인 신호를 더 많이 다룹니다.
깊은 층으로 갈수록 특정 클래스와 더 강하게 연결되는 전문가가 나타납니다.
즉, 뒤쪽 전문가일수록 분류 의미와 더 가까운 전문화가 보입니다.

주목 포인트: 뒤쪽 층으로 갈수록 진한 띠가 특정 전문가와 클래스 조합에 집중되는데, 이것이 전문가가 점점 더 의미 단위로 분화된다는 신호입니다.

이 분석은 왜 뒤쪽 라우팅이 더 중요해지는지도 설명합니다.
논문은 초기 층의 라우터를 바꿔도 비교적 버티지만, 뒤쪽 층의 라우팅 변경에는 더 민감하다고 말합니다.
즉, 깊은 층으로 갈수록 어디에 계산을 쓸지의 판단이 더 결정적이 됩니다.

강점

sparse MoE를 비전 영역에서 대규모로 안정적으로 보여줍니다.
성능 숫자보다 더 중요한 비용 대비 성능 개선을 설득력 있게 제시합니다.
학습 후에도 추론 예산을 조절할 수 있어 운영 유연성이 높습니다.
패치 단위 우선순위 계산이라는 아이디어가 이후 토큰 프루닝, 적응형 계산 연구와도 잘 이어집니다.

한계와 주의할 점

구현 난도가 높습니다. 특히 장치 간 통신 비용이 큽니다.
같은 FLOPs라도 dense 모델이 실제 벽시계 시간에서는 더 빠를 수 있습니다.
핵심 결과가 매우 큰 사전학습 데이터와 거대한 하드웨어 예산 위에 서 있습니다.
패치 중요도를 라우터 점수로 대신 판단하기 때문에, 이것이 항상 의미론적 중요도와 일치한다고 보기는 어렵습니다.

이 논문을 어떻게 읽으면 좋은가

이 논문을 단순히 "MoE를 비전에 적용했다"로 읽으면 절반만 읽은 셈입니다.
더 중요한 메시지는 다음입니다.

모델을 키우는 방법이 꼭 dense scaling일 필요는 없다는 것
입력마다 다른 계산량을 쓰는 것이 성능과 효율을 동시에 바꿀 수 있다는 것
학습이 끝난 뒤에도 추론 전략을 바꿀 수 있는 모델이 실무적으로 매우 강력하다는 것

비전 모델의 미래를 "더 큰 backbone"만으로 보지 않고,
더 똑똑하게 계산을 배분하는 시스템으로 보기 시작하게 만드는 논문입니다.

한 문장 정리

V-MoE는 비전 트랜스포머를 더 크게 만들면서도 계산은 필요한 곳에만 쓰게 해, 대규모 성능과 추론 효율을 동시에 노린 구조적 전환점을 보여준 논문입니다.

Source

Carlos Riquelme, Joan Puigcerver, Basil Mustafa, Maxim Neumann, Rodolphe Jenatton, André Susano Pinto, Daniel Keysers, Neil Houlsby
Scaling Vision with Sparse Mixture of Experts
NeurIPS 2021
Source basis: user-provided paper PDF

'AI 생성 글 정리 > agent' 카테고리의 다른 글

BIDIRLM: 논문 정리 (0)	2026.04.14
HyperAgents 논문 정리 (0)	2026.04.14
[LightRAG: Simple and Fast Retrieval-Augmented Generation] 논문 정리 (0)	2026.04.14
The Code Agent Orchestra - what makes multi-agent coding work 논문 정리 (1)	2026.04.14
MiroFish — 문서 기반 GraphRAG와 OASIS 멀티에이전트 시뮬레이션으로 “미래를 리허설”하는 예측 엔진 (0)	2026.04.10

Honbul과 컴퓨터

Scaling Vision with Sparse Mixture of Experts 논문 정리

이 논문이 던지는 질문

핵심 주장만 먼저

왜 이 접근이 중요한가

구조: ViT 안에 전문가 층을 넣다

라우팅은 무엇을 배우는가

성능: dense ViT보다 무엇이 좋아졌나

이 논문의 진짜 한 수: 중요한 패치부터 계산하기

모델 안에서는 무슨 일이 벌어지나

강점

한계와 주의할 점

이 논문을 어떻게 읽으면 좋은가

한 문장 정리

Source

'AI 생성 글 정리 > agent' 카테고리의 다른 글

티스토리툴바

Scaling Vision with Sparse Mixture of Experts 논문 정리

이 논문이 던지는 질문

핵심 주장만 먼저

왜 이 접근이 중요한가

구조: ViT 안에 전문가 층을 넣다

라우팅은 무엇을 배우는가

성능: dense ViT보다 무엇이 좋아졌나

이 논문의 진짜 한 수: 중요한 패치부터 계산하기

모델 안에서는 무슨 일이 벌어지나

강점

한계와 주의할 점

이 논문을 어떻게 읽으면 좋은가

한 문장 정리

Source

'AI 생성 글 정리 > agent' 카테고리의 다른 글

관련글

티스토리툴바