LoRA-Mixer 논문 정리

한 줄 요약

LoRA-Mixer는 여러 LoRA 어댑터를 “전문가”처럼 다루고, 입력 토큰마다 필요한 전문가를 골라 조합하는 방법입니다.

핵심은 두 가지입니다.

LoRA 전문가를 FFN이 아니라 attention의 핵심 선형 투영층에 넣습니다.
RSL이라는 라우팅 손실로 전문가 사용량의 균형과 입력별 전문화를 동시에 노립니다.

결과적으로 기존 LoRA-MoE 방식보다 적은 학습 파라미터로 여러 작업에서 더 높은 성능을 냅니다.

문제의식: LoRA를 많이 붙인다고 항상 좋아지지는 않는다

LoRA는 대형 언어 모델을 가볍게 미세조정하는 대표적인 방법입니다.

전체 모델을 다시 학습하지 않고, 작은 저랭크 업데이트만 학습합니다.
그래서 비용이 낮습니다.

하지만 작업이 여러 개로 늘어나면 문제가 생깁니다.

예를 들어 다음 LoRA들이 있다고 가정할 수 있습니다.

수학 추론 LoRA
의학 QA LoRA
코드 생성 LoRA
문장 분류 LoRA

이들을 단순히 합치면 각 LoRA가 배운 표현 공간이 충돌할 수 있습니다.

그래서 최근 연구들은 LoRA를 MoE처럼 다루기 시작했습니다.
즉, 각 LoRA를 전문가로 보고 입력마다 일부 전문가만 선택합니다.

문제는 기존 방식의 배치 위치입니다.

많은 방법은 다음 중 하나를 택합니다.

attention이나 FFN 블록 전체를 전문가로 바꾼다.
기존 경로 옆에 LoRA 전문가 브랜치를 병렬로 붙인다.
마지막에 여러 브랜치 출력을 얕게 섞는다.

논문은 이 방식들이 두 가지 한계를 가진다고 봅니다.

기존 attention 경로를 충분히 활용하지 못합니다.
전문가를 재사용하기 어렵거나, 라우터가 입력 의미를 잘 구분하지 못합니다.

Crop 포인트: 오른쪽 LoRA-Mixer 블록에서 LoRA 전문가가 attention의 선형 투영층 안으로 들어가는 부분에 주목하세요.

핵심 아이디어: LoRA 전문가를 projection layer에 직접 넣는다

LoRA-Mixer의 가장 큰 차이는 위치입니다.

기존 방식은 주로 FFN이나 외부 브랜치에 전문가를 둡니다.
LoRA-Mixer는 attention 내부의 선형 투영층에 LoRA 전문가를 배치합니다.

이 위치가 중요한 이유는 간단합니다.

attention은 토큰이 서로 어떤 관계를 맺는지 계산하는 핵심 장치입니다.
여기서 쓰이는 입력·출력 projection layer는 모델 표현을 바꾸는 매우 중요한 통로입니다.

LoRA-Mixer는 이 통로에 전문가를 넣습니다.

그래서 전문가의 영향이 뒤늦게 합쳐지는 것이 아니라, attention 계산 자체에 들어갑니다.

또 하나의 장점이 있습니다.

선형 projection layer는 Transformer뿐 아니라 SSM 구조에도 존재합니다.
따라서 LoRA-Mixer는 LLaMA, Mistral 같은 Transformer 모델뿐 아니라 Falcon-Mamba 같은 SSM 모델에도 적용할 수 있습니다.

전체 구조: 전문가는 재사용하고, 라우터만 작게 학습한다

LoRA-Mixer는 LoRA 전문가를 여러 출처에서 가져올 수 있습니다.

공개 저장소에서 받은 LoRA
특정 작업에 대해 따로 학습한 LoRA
여러 도메인 데이터를 사용해 함께 학습한 LoRA

그다음 라우터가 입력을 보고 어떤 전문가를 쓸지 결정합니다.

학습과 추론 흐름은 다음처럼 요약됩니다.

각 LoRA를 작업별 전문가로 준비합니다.
라우터가 입력 토큰의 의미를 보고 전문가 점수를 계산합니다.
학습 중에는 부드러운 선택으로 라우터를 안정적으로 학습합니다.
추론 중에는 상위 몇 개 전문가만 골라 계산량을 줄입니다.

이 구조의 목적은 명확합니다.

전문가 지식은 최대한 보존합니다.
라우터만 적은 데이터로 빠르게 학습합니다.
입력마다 필요한 LoRA만 선택합니다.

Crop 포인트: 가운데 라우터가 여러 LoRA 전문가를 고르고, 왼쪽의 Transformer·SSM projection layer로 연결되는 흐름에 주목하세요.

RSL: 균등 분배와 전문화를 동시에 잡는 라우팅 손실

MoE에서 라우터는 자주 한쪽으로 무너집니다.

특정 전문가만 계속 선택되면 다른 전문가는 거의 쓰이지 않습니다.
이를 expert collapse라고 볼 수 있습니다.

그래서 보통은 보조 손실을 넣습니다.
이 손실은 전체 데이터에서 전문가 사용량이 비슷해지도록 만듭니다.

하지만 논문은 이 보조 손실이 너무 강하면 또 다른 문제가 생긴다고 말합니다.

모든 전문가를 비슷하게 쓰는 데 집중한 나머지, 입력의 의미를 무시할 수 있습니다.

예를 들어 수학 문제와 의료 문제가 들어왔는데도 전문가를 거의 같은 비율로 나눠 쓰는 식입니다.
이 경우 “균형”은 있지만 “전문화”는 약합니다.

RSL은 이 문제를 해결하려는 손실입니다.

직관은 다음과 같습니다.

전체적으로는 전문가 사용량이 크게 치우치지 않게 합니다.
개별 입력에 대해서는 더 확신 있는 전문가 선택을 유도합니다.
라우터가 모든 전문가를 흐릿하게 보는 대신, 입력 의미에 맞는 선택을 하게 만듭니다.

논문은 라우터를 정보 병목으로 봅니다.
라우터가 입력의 의미 차이를 보존하면 전문가 선택이 달라집니다.
반대로 의미 차이를 눌러버리면 모든 입력이 비슷하게 라우팅됩니다.

RSL은 이 차이를 살리는 방향으로 라우터를 학습합니다.

전문가 사용량: 무너지지 않되, 완전히 똑같지도 않다

LoRA-Mixer는 1천 개 혼합 데이터에서 각 전문가의 평균 사용량을 확인했습니다.

결과는 대체로 균형적입니다.
각 전문가는 약 15%에서 18% 사이로 사용됩니다.

이는 특정 전문가만 독점적으로 선택되는 상황을 피했다는 뜻입니다.

Crop 포인트: 여섯 전문가의 막대가 비슷한 높이를 유지하면서도 완전히 동일하지 않은 점에 주목하세요.

하지만 균형만으로는 부족합니다.

좋은 라우터는 작업에 따라 선택 패턴이 달라야 합니다.

논문은 Medical, GSM8K, HumanEval에서 전문가 활성화 양상을 비교했습니다.
RSL을 쓰면 입력 도메인과 관련된 전문가의 활성화가 높아집니다.

반대로 RSL 없이 일반 보조 손실만 쓰면 전문가 분포가 더 평평해집니다.
즉, 입력 의미를 덜 반영합니다.

Crop 포인트: RSL 설정에서 Medical, GSM8K, HumanEval마다 강하게 선택되는 전문가가 달라지는 부분에 주목하세요.

실험 설정: 15개 벤치마크, 3개 모델 계열

논문은 15개 데이터셋에서 실험했습니다.

포함된 영역은 넓습니다.

의학 QA
상식 추론
자연어 이해
수학 추론
코드 생성

사용한 대표 모델은 다음과 같습니다.

Falcon-Mamba-7B
Mistral-7B
LLaMA3-8B

Falcon-Mamba는 SSM 구조입니다.
Mistral과 LLaMA3는 Transformer 구조입니다.

이 구성은 LoRA-Mixer가 특정 구조에만 맞춘 방법이 아님을 보여주기 위한 설정입니다.

주요 결과: LLaMA3-8B에서 일관된 향상

LLaMA3-8B 기준으로 LoRA-Mixer는 대부분의 작업에서 기본 모델과 단일 LoRA보다 좋은 성능을 보였습니다.

Task	Base	LoRA	LoRA-Mixer
Medical	78.47	81.09	81.55
CoLA	79.14	81.50	82.22
SST-2	93.12	95.30	95.41
GSM8K	57.92	65.14	65.53
ARC-E	88.45	89.59	89.88
ARC-C	78.65	82.15	83.24
HumanEval	52.44	55.61	57.32

눈에 띄는 점은 HumanEval입니다.

단일 LoRA보다 LoRA-Mixer가 더 높습니다.
이는 코드 생성처럼 특정 전문성이 강한 작업에서도 라우팅 조합이 도움이 될 수 있음을 시사합니다.

추가 일반화 결과: 상식 추론에서도 개선

논문은 BoolQ, HellaSwag, PIQA에서도 LLaMA3-8B 기반 실험을 수행했습니다.

Dataset	Base	LoRA	LoRA-Mixer	LoRA 대비 차이
BoolQ	71.25	74.46	79.37	+4.91
HellaSwag	75.33	77.39	82.41	+5.02
PIQA	78.47	80.71	84.94	+4.23

이 결과는 LoRA-Mixer가 특정 벤치마크에만 맞춘 개선이 아니라, 상식 추론 계열에서도 효과가 있음을 보여줍니다.

라우팅 손실 비교: RSL의 저데이터 강점

라우터 학습에는 2천 개 데이터만 사용했습니다.

같은 데이터와 같은 LoRA 조건에서 RSL은 다른 라우팅 손실보다 높았습니다.

Task	GMoE	DS-MoE	AESL	RSL
SST-2	91.38	92.45	92.64	95.41
CoLA	79.57	79.83	80.42	82.22
ARC-E	85.65	85.32	86.24	89.88
ARC-C	76.42	78.45	79.88	83.24
HumanEval	46.37	48.92	50.46	57.32

특히 HumanEval에서 차이가 큽니다.

이는 RSL이 단순히 전문가를 고르게 쓰게 하는 수준을 넘어, 입력에 맞는 전문가를 더 잘 고르게 한다는 해석을 가능하게 합니다.

Top-K: 전문가를 몇 개 고를 것인가

LoRA-Mixer는 추론 시 상위 몇 개 전문가만 사용합니다.

Top-K 값이 너무 작으면 필요한 지식을 충분히 조합하지 못할 수 있습니다.
반대로 너무 크면 불필요한 전문가까지 섞여 성능이 떨어질 수 있습니다.

논문 실험에서는 K가 1에서 3으로 커질 때 SST-2와 CoLA 성능이 좋아졌습니다.
하지만 그 이상에서는 오히려 하락할 수 있었습니다.

즉, 전문가 조합에는 적정선이 있습니다.

Crop 포인트: 두 곡선이 모두 Top-K 3 부근에서 가장 좋은 성능을 보이는 지점에 주목하세요.

학습 안정성: RSL은 빠르게 낮아지고 안정화된다

RSL은 라우터가 빨리 쓸 만한 전문가 선택 패턴을 찾도록 돕습니다.

논문 부록의 학습 곡선에서는 Balance Loss가 초기에 빠르게 낮아집니다.
이후에는 작은 변동을 보이며 낮은 수준에서 안정화됩니다.

이는 라우터가 전문가 사용 균형을 유지하면서도 훈련 중 급격히 흔들리지 않는다는 근거로 제시됩니다.

Crop 포인트: 초반 급격한 하락 이후 낮은 구간에서 유지되는 곡선 형태에 주목하세요.

데이터 효율: 적은 라우팅 데이터로도 효과가 난다

LoRA-Mixer의 중요한 장점은 라우터 학습 데이터가 적어도 된다는 점입니다.

논문은 라우팅 학습 데이터 크기를 바꿔 평균 성능을 비교했습니다.

Routing data	RSL 사용	RSL 미사용	차이
1K	76.80	75.47	+1.33
2K	79.26	77.29	+1.97
4K	78.77	79.14	-0.37
6K	79.41	79.37	+0.04
8K	79.75	79.48	+0.27
10K	79.94	79.51	+0.43

4K에서는 RSL이 잠시 낮습니다.

논문은 이를 세밀한 전문가 탐색이 시작되지만 아직 충분히 안정화되지 않은 구간으로 설명합니다.
데이터가 더 늘어나면 RSL이 다시 우위를 보입니다.

핵심은 1K와 2K입니다.

적은 데이터에서 RSL의 이점이 더 분명합니다.

공개 LoRA 재사용: 플러그앤플레이 가능성

논문은 인터넷에서 받은 LoRA를 재사용하는 실험도 수행했습니다.

설정은 다음과 같습니다.

기본 모델: Flan-T5
LoRA 출처: LoRAHub 계열 공개 LoRA
LoRA 파라미터: 동결
추가 데이터: 2천 개 혼합 데이터로 라우터만 학습

결과는 GLUE 작업 다섯 개에서 대체로 개선됐습니다.

Method	SST-2	CoLA	MRPC	RTE	QQP
Flan-T5	94.01	74.21	79.90	80.08	82.32
LoRA	94.50	80.54	83.76	83.47	85.55
LoRA-Mixer	95.07	82.14	85.15	85.31	84.75

QQP는 단일 LoRA보다 낮지만, 나머지 네 작업에서는 개선됩니다.

이는 이미 학습된 LoRA를 다시 크게 손대지 않고도 조합할 수 있음을 보여줍니다.

비용 측면: 성능 대비 파라미터 효율이 좋다

LoRA-Mixer는 모든 전문가를 무겁게 다시 학습하는 방식이 아닙니다.

논문 기준으로 LLaMA3-8B에서 비교하면 다음과 같습니다.

LoRA-Mixer 학습 파라미터: 3.88%
MixLoRA 학습 파라미터: 8.08%
LoRA-Mixer는 MixLoRA의 약 48% 파라미터 사용
라우터 자체는 약 0.04% 수준

추론 시간은 기본 모델보다 느리지만 MixLoRA보다 약간 빠릅니다.

Method	단일 샘플 추론 시간
LLaMA3-8B	0.441초
LoRAHub	0.482초
MoLE	0.563초
MixLoRA	0.597초
LoRA-Mixer	0.574초

성능과 계산량 사이의 절충점으로 볼 수 있습니다.

이 논문의 기여

논문의 기여는 세 가지로 정리할 수 있습니다.

1. LoRA 전문가의 위치를 바꿨다

LoRA-Mixer는 전문가를 모델 바깥에서 얕게 섞지 않습니다.

attention 또는 SSM의 projection layer에 직접 넣습니다.
이 때문에 전문가 조합이 핵심 표현 경로에 더 깊게 관여합니다.

2. 라우터 손실을 다시 설계했다

기존 보조 손실은 전문가 사용량 균형에 집중합니다.

RSL은 여기에 입력별 선택성을 추가합니다.
균형과 전문화를 동시에 추구합니다.

3. 공개 LoRA 재사용 가능성을 보였다

LoRA-Mixer는 이미 학습된 LoRA를 동결한 상태에서도 라우터만 학습해 성능을 높일 수 있습니다.

이는 실무적으로 중요합니다.

매번 모든 LoRA를 다시 학습하지 않고, 필요한 전문가를 모아 라우팅만 학습할 수 있기 때문입니다.

한계

논문도 몇 가지 한계를 인정합니다.

고정 Top-K의 한계

추론 시 상위 몇 개 전문가를 고르는 방식은 단순하고 효율적입니다.

하지만 애매한 입력에서는 적절한 전문가 수가 달라질 수 있습니다.
고정된 K는 이런 상황을 충분히 반영하지 못할 수 있습니다.

모든 층에 동일 적용하면 중복이 생길 수 있음

모델의 층마다 하는 일이 다릅니다.

어떤 층은 표면적 패턴을, 어떤 층은 추상 의미를 더 많이 다룹니다.
따라서 모든 층에 같은 방식으로 LoRA-Mixer를 넣는 것은 비효율적일 수 있습니다.

논문은 향후 동적 라우팅과 적응형 적용 위치를 연구 방향으로 제시합니다.

정리

LoRA-Mixer는 “여러 LoRA를 어떻게 잘 섞을 것인가”라는 문제에 대한 구조적 답입니다.

단순 합산이나 병렬 브랜치 대신, 모델의 핵심 projection layer에서 전문가를 조합합니다.
그리고 RSL로 라우터가 균형을 유지하면서도 입력별로 날카로운 선택을 하게 만듭니다.

가장 중요한 메시지는 다음입니다.

LoRA는 단일 작업용 부품으로만 볼 필요가 없습니다.
여러 LoRA는 재사용 가능한 전문가 집합이 될 수 있습니다.
좋은 라우터가 있으면 적은 데이터로도 이 전문가들을 조합할 수 있습니다.

이 관점은 앞으로의 PEFT 시스템에서 중요해질 가능성이 큽니다.

모델 전체를 계속 다시 학습하기보다, 이미 학습된 LoRA를 모듈처럼 축적하고 필요한 순간 조합하는 방식으로 확장할 수 있기 때문입니다.

Source

Wenbing Li, Zikai Song, Hang Zhou, Yunyao Zhang, Junqing Yu, Wei Yang. LoRA-Mixer: Coordinate Modular LoRA Experts Through Serial Attention Routing. Published as a conference paper at ICLR 2026.
Code: https://github.com/hustcselwb/LoRA-Mixer
Input PDF: 4989_LoRA_Mixer_Coordinate_Mod.pdf

'AI 생성 글 정리 > modeling' 카테고리의 다른 글

LoRA: Low-Rank Adaptation of Large Language Models 논문 정리 (0)	2026.04.21
Mixture of LoRA Experts 논문 정리 (0)	2026.04.21
A Large-Scale Dataset for Robust Complex Anime Scene Text Detection 논문 정리 (0)	2026.04.14
Efficient Universal Perception Encoder 논문 정리 (1)	2026.04.09
SAM 3.1: Segment Anything with Concepts 논문 정리 (1)	2026.04.09

Honbul과 컴퓨터