본문 바로가기
AI 생성 글 정리/modeling

[Switch Transformers] 논문 정리

by Honbul 2026. 4. 21.

한 줄 요약

Switch Transformer는 Mixture of Experts를 더 단순하게 만든 언어 모델 구조입니다.

핵심은 간단합니다.

모든 토큰이 전체 모델을 쓰지 않습니다.
각 토큰은 가장 적합한 전문가 하나만 사용합니다.

그래서 전체 파라미터 수는 크게 늘릴 수 있습니다.
반면 토큰 하나를 처리하는 계산량은 기존 Transformer와 비슷하게 유지합니다.

 

Crop 포인트: 전문가 수가 늘어날수록 같은 계산 예산에서 더 빠르게 좋은 품질에 도달하는 흐름을 보면 됩니다.


논문이 해결하려는 문제

대형 언어 모델은 보통 더 많은 파라미터로 성능을 높입니다.

문제는 비용입니다.

일반적인 Dense Transformer는 모든 입력에 같은 파라미터를 사용합니다.
모델을 키우면 매 토큰마다 더 많은 계산이 필요합니다.
학습 비용도 커지고, 배포도 어려워집니다.

Mixture of Experts는 이 문제를 다르게 풉니다.

  • 모델 안에 여러 전문가를 둡니다.
  • 입력마다 일부 전문가만 사용합니다.
  • 전체 파라미터는 크지만, 실제 계산은 일부만 수행합니다.

하지만 기존 MoE는 복잡했습니다.

  • 라우팅 구현이 까다롭습니다.
  • 장치 간 통신 비용이 큽니다.
  • 학습이 불안정해지기 쉽습니다.

Switch Transformer는 이 세 문제를 줄이는 방향으로 설계되었습니다.


핵심 아이디어: “전문가 하나만 고른다”

기존 MoE는 한 토큰을 여러 전문가에게 보낼 수 있습니다.
Switch Transformer는 이 선택을 과감하게 줄입니다.

각 토큰을 가장 높은 확률의 전문가 하나에게만 보냅니다.

이 단순화가 논문의 핵심입니다.

토큰은 Transformer 블록 안에서 라우터를 만납니다.
라우터는 여러 Feed-Forward 전문가 중 하나를 고릅니다.
선택된 전문가만 계산을 수행합니다.
그 결과가 다시 원래 Transformer 흐름으로 합쳐집니다.

 

 

Crop 포인트: 라우터가 토큰마다 하나의 FFN 전문가를 선택하고, 선택된 전문가의 출력만 다음 단계로 보내는 부분이 핵심입니다.

이 구조가 주는 이점은 명확합니다.

  • 라우팅 계산이 줄어듭니다.
  • 전문가별 처리량을 작게 잡을 수 있습니다.
  • 장치 간 통신이 단순해집니다.
  • MoE보다 구현과 튜닝 부담이 낮아집니다.

전문가 용량: 빠르지만, 균형이 필요하다

전문가 하나가 받을 수 있는 토큰 수는 고정됩니다.
논문은 이를 전문가 용량으로 부릅니다.

라우터가 한 전문가에게 토큰을 너무 많이 보내면 문제가 생깁니다.
그 전문가는 정해진 용량을 넘습니다.
넘친 토큰은 해당 전문가 계산을 건너뛰고 다음 층으로 전달됩니다.

 

이 현상을 줄이려면 여유 용량을 크게 잡으면 됩니다.
하지만 여유 용량이 커질수록 빈 슬롯이 늘어납니다.
즉, 계산과 통신이 낭비됩니다.

 

Crop 포인트: 용량 여유를 키우면 토큰 드롭은 줄지만, 비어 있는 처리 슬롯이 늘어 비용이 증가한다는 균형을 보면 됩니다.

 

그래서 Switch Transformer는 별도의 균형 손실을 사용합니다.

수식으로 보면 복잡하지만 의도는 단순합니다.

라우터가 특정 전문가에만 토큰을 몰아주지 않도록 유도합니다.

학습 중에는 두 가지를 함께 봅니다.

  • 실제로 각 전문가에게 간 토큰 비율
  • 라우터가 각 전문가에게 배정한 확률의 평균

둘이 모두 고르게 퍼지도록 작은 보조 패널티를 줍니다.
이 패널티는 주된 언어 모델 학습 목표를 방해하지 않을 만큼 작게 둡니다.


안정적인 학습을 위한 세 가지 장치

Sparse expert 모델은 잘못 설계하면 쉽게 흔들립니다.
논문은 안정성을 위해 세 가지 실용적 기법을 제안합니다.

1. 선택적 정밀도

저정밀도 학습은 빠릅니다.
하지만 라우터의 확률 계산은 작은 수치 변화에도 민감합니다.

논문은 전체 모델을 고정밀도로 바꾸지 않습니다.
대신 라우터 내부 계산만 더 높은 정밀도로 처리합니다.
그 뒤 다시 저정밀도 텐서로 돌려 장치 간 통신 비용을 줄입니다.

결과적으로 학습 안정성은 고정밀도에 가깝게 유지합니다.
속도는 저정밀도에 가깝게 유지합니다.

2. 더 작은 초기화

Switch Transformer는 초기 가중치 스케일에 민감했습니다.
논문은 기본 Transformer 초기화보다 훨씬 작은 스케일을 권장합니다.

효과는 두 가지였습니다.

  • 초반 학습 품질이 좋아졌습니다.
  • 여러 번 실행해도 품질 변동이 줄었습니다.

3. Expert Dropout

Fine-tuning에서는 전문가 파라미터가 많아 과적합이 쉬워집니다.
논문은 일반 층에는 낮은 드롭아웃을 유지하고, 전문가 FFN 내부에는 더 높은 드롭아웃을 적용했습니다.

이 방식은 모든 층의 드롭아웃을 무작정 키우는 것보다 좋았습니다.


사전학습 결과: 같은 계산으로 더 빠르게

논문은 C4 데이터셋에서 Switch Transformer를 T5 계열 Dense 모델과 비교했습니다.
중요한 비교 기준은 “토큰당 계산량을 맞춘 상태”입니다.

즉, Switch 모델이 단순히 더 많은 계산을 해서 좋아진 것이 아닙니다.
계산량은 비슷하게 유지하고, 활성화되는 파라미터 구조를 바꾼 것입니다.

주요 결과는 다음과 같습니다.

비교 핵심 결과
Switch-Base vs T5-Base 비슷한 품질에 약 7배 빠르게 도달
Switch-Base vs T5-Large 더 큰 Dense 모델보다도 약 2.5배 빠르게 도달
Switch-Base 64 experts 같은 시간과 장치 예산에서 Dense 기준선을 크게 앞섬
Switch-C T5-XXL 대비 고정 품질 도달 속도 약 4배 개선

 

 

Crop 포인트: 같은 품질 수준에 도달하는 데 필요한 시간이 Dense 기준선보다 크게 짧아지는 지점을 보면 됩니다.

더 흥미로운 비교도 있습니다.

Dense 모델을 더 크게 키우면 어떨까요?
논문은 T5-Large와도 비교합니다.
T5-Large는 T5-Base보다 훨씬 많은 계산을 사용합니다.
그런데도 Switch-Base가 더 빠른 학습 효율을 보였습니다.

 

 

Crop 포인트: Dense 모델을 키우는 방식보다 sparse 전문가를 쓰는 방식이 시간 대비 품질에서 앞서는 구간을 보면 됩니다.


Fine-tuning: 사전학습 이득이 실제 태스크로 이어지는가

논문은 다양한 자연어 태스크에서 fine-tuning 성능을 확인했습니다.

비교는 T5-Base와 Switch-Base, T5-Large와 Switch-Large 사이에서 이루어졌습니다.
Switch 모델은 Dense 기준선과 토큰당 계산량을 맞췄습니다.

모델 GLUE SQuAD SuperGLUE Winogrande XSum ANLI R3 Closed-book TriviaQA
T5-Base 84.3 85.5 75.1 66.6 18.7 51.8 24.5
Switch-Base 86.7 87.2 79.5 73.3 20.3 54.0 30.7
T5-Large 87.8 88.1 82.7 79.1 20.9 56.6 29.5
Switch-Large 88.5 88.6 84.7 83.0 22.3 58.6 36.9

 

대부분의 태스크에서 Switch 모델이 이겼습니다.
특히 SuperGLUE, Winogrande, TriviaQA, XSum에서 개선이 뚜렷했습니다.

다만 예외도 있었습니다.
ARC 일부 설정에서는 Dense 기준선이 더 나았습니다.
따라서 sparse expert 구조가 모든 태스크에서 자동으로 우월하다고 보기는 어렵습니다.


다국어 학습: 101개 언어 모두에서 개선

논문은 mT5 설정을 따라 101개 언어의 mC4 데이터로도 평가했습니다.

결과는 강했습니다.

Switch 기반 다국어 모델은 모든 언어에서 Dense 기준선보다 나은 사전학습 품질을 보였습니다.

 

 

Crop 포인트: 언어별 점들이 전반적으로 Switch 쪽에서 더 좋은 품질로 이동하는 패턴을 보면 됩니다.

속도 관점에서도 이점이 있었습니다.

평균적으로 Switch 모델은 mT5-Base 기준선보다 약 5배 빠르게 같은 품질에 도달했습니다.
또한 91%의 언어에서 최소 4배 이상의 단계 기준 속도 향상을 보였습니다.

 

 

Crop 포인트: 대부분의 언어가 4배 이상 속도 향상 구간에 몰려 있다는 점을 보면 됩니다.

이는 Switch Transformer가 단일 언어뿐 아니라 다중 태스크, 다국어 학습에서도 유효하다는 근거입니다.


큰 모델을 실제로 학습하려면: 병렬화 설계가 중요하다

Switch Transformer의 장점은 전문가 수를 늘리기 쉽다는 점입니다.
하지만 무작정 늘리면 한계가 있습니다.

대형 모델에서는 세 가지 병렬화가 함께 등장합니다.

  • 데이터 병렬화
  • 모델 병렬화
  • 전문가 병렬화

논문은 이 세 방식을 조합해 수천억에서 조 단위 파라미터 모델을 구성했습니다.

 

 

Crop 포인트: 가중치와 데이터가 어떤 기준으로 장치에 나뉘는지 비교하면, 전문가 병렬화가 기존 모델 병렬화와 다른 축을 사용한다는 점이 보입니다.

대표 모델은 다음과 같습니다.

모델 파라미터 규모 특징
Switch-XXL 약 395B T5-XXL과 계산량을 맞춘 sparse 모델
Switch-C 약 1.6T 전문가 수를 크게 늘린 조 단위 모델

 

Switch-C는 매우 큰 파라미터 수를 가졌지만, 토큰마다 사용하는 계산량은 제한했습니다.
이 덕분에 T5-XXL 대비 고정 품질 도달 속도를 크게 줄였습니다.

다만 가장 큰 모델군에서는 안정성 문제가 남았습니다.
특히 계산량이 큰 Switch-XXL은 일부 학습 불안정성이 관찰되었습니다.


작은 규모에서도 쓸모가 있는가

논문은 초대형 모델만 다루지 않습니다.
전문가 수가 적은 설정도 확인했습니다.

결과는 긍정적입니다.

전문가가 2개, 4개, 8개뿐인 경우에도 T5-Base 기준선보다 나은 학습 곡선을 보였습니다.

 

 

Crop 포인트: 전문가 수가 적어도 Dense 기준선보다 빠르게 개선되는 곡선의 차이를 보면 됩니다.

이는 실무적으로 중요합니다.
수천 개의 가속기가 없어도 sparse expert 구조의 일부 이점을 얻을 수 있기 때문입니다.


배포 문제: 조 단위 모델을 그대로 쓰기는 어렵다

큰 sparse 모델은 학습 효율이 좋습니다.
하지만 배포에는 부담이 큽니다.

논문은 지식 증류를 사용해 큰 sparse 모델을 작은 Dense 모델로 압축했습니다.

핵심 결과는 다음과 같습니다.

Sparse teacher 규모 Dense student로 압축 보존된 품질 이득
1.1B 약 82% 압축 약 37%
3.8B 약 95% 압축 약 30%
14.7B 약 99% 압축 약 28%

 

완전한 품질 보존은 아닙니다.
하지만 10배에서 100배 수준의 압축에서도 일부 이득은 남았습니다.

논문의 메시지는 현실적입니다.

큰 sparse 모델은 좋은 teacher가 될 수 있습니다.
작은 dense 모델은 그 이득 일부를 이어받아 배포될 수 있습니다.


사전학습 품질은 downstream 품질로 항상 이어지는가

항상 그렇지는 않습니다.

논문은 C4 사전학습 품질과 downstream 성능의 관계를 분석했습니다.

SuperGLUE와 TriviaQA를 비교하면 흥미로운 차이가 보입니다.

  • SuperGLUE에서는 Dense 모델이 같은 사전학습 품질에서 더 유리한 구간이 있었습니다.
  • TriviaQA에서는 Switch 모델이 더 나은 관계를 보일 가능성이 있었습니다.

 

Crop 포인트: reasoning 중심 태스크와 knowledge 중심 태스크에서 Switch 모델의 downstream 변환 효율이 다르게 나타나는 점을 보면 됩니다.

 

이는 중요한 한계입니다.

Sparse expert 모델은 사전학습 품질을 빠르게 높입니다.
하지만 그 이득을 모든 downstream 태스크로 옮기는 방법은 아직 완전히 이해되지 않았습니다.


확장 아이디어: Attention에도 Switch를 넣을 수 있을까

논문은 부록에서 FFN뿐 아니라 Self-Attention 내부에도 Switch 구조를 넣는 실험을 소개합니다.

아이디어는 간단합니다.
Attention의 query, key, value를 만드는 가중치에도 전문가 선택을 적용하는 것입니다.

품질 개선 가능성은 보였습니다.
하지만 저정밀도 학습에서 불안정했습니다.
그래서 최종 모델에는 포함되지 않았습니다.

 

 

Crop 포인트: FFN이 아닌 Attention 내부의 가중치 선택에도 전문가 라우팅을 적용할 수 있다는 확장 방향을 보면 됩니다.


논문의 핵심 기여

Switch Transformer의 기여는 “더 큰 모델” 자체가 아닙니다.

더 정확히는 다음 네 가지입니다.

1. MoE를 단순화했다

토큰마다 전문가 하나만 고르는 방식으로 라우팅을 단순화했습니다.
그 결과 통신과 구현 부담이 줄었습니다.

2. 계산량과 파라미터 수를 분리했다

Dense 모델은 파라미터를 늘리면 계산도 함께 늘어납니다.
Switch Transformer는 전체 파라미터를 키우면서도 토큰당 활성 계산량을 제한합니다.

3. 안정화 기법을 정리했다

선택적 정밀도, 작은 초기화, expert dropout, load balancing을 통해 sparse 모델 학습을 더 안정적으로 만들었습니다.

4. 다양한 설정에서 검증했다

사전학습, fine-tuning, 다국어 학습, 증류, 초대형 병렬 학습까지 폭넓게 실험했습니다.


한계와 읽을 때의 주의점

Switch Transformer는 강력하지만 만능은 아닙니다.

주의할 점은 다음과 같습니다.

  • 큰 sparse 모델은 여전히 학습 불안정성이 있을 수 있습니다.
  • 사전학습 품질 향상이 모든 downstream 태스크로 동일하게 전환되지는 않습니다.
  • 전문가 수를 늘리는 데도 수익 체감이 있습니다.
  • 하드웨어의 통신 구조와 메모리 배치가 성능에 큰 영향을 줍니다.
  • 배포를 위해서는 증류나 별도 압축 전략이 필요합니다.

특히 이 논문은 “전문가 구조를 쓰면 무조건 좋다”라고 말하지 않습니다.

더 정확한 결론은 다음에 가깝습니다.

같은 계산 예산에서 파라미터 용량을 늘리는 매우 효과적인 축이 있다.
그 축을 단순하고 안정적으로 쓰는 방법이 Switch Transformer다.


정리

Switch Transformer는 대형 언어 모델 확장의 중요한 전환점입니다.

기존 Dense Transformer는 모든 토큰에 같은 전체 계산을 적용했습니다.
Switch Transformer는 토큰마다 필요한 전문가만 선택합니다.

이 방식은 세 가지 효과를 만듭니다.

  • 더 많은 파라미터를 보유할 수 있습니다.
  • 토큰당 계산량은 크게 늘리지 않습니다.
  • 같은 학습 예산에서 더 빠르게 좋은 품질에 도달합니다.

논문은 이를 T5 계열 모델, 다국어 설정, fine-tuning, 증류, 조 단위 모델 학습까지 검증했습니다.

가장 중요한 메시지는 단순합니다.

모델을 크게 만드는 방법은 Dense scaling만이 아닙니다.
Sparse expert scaling은 계산 효율과 모델 용량을 함께 잡는 실용적인 대안입니다.


Source