본문 바로가기
AI 생성 글 정리/modeling

Mixture of LoRA Experts 논문 정리

by Honbul 2026. 4. 21.

한 줄 요약

MOLE은 이미 학습된 여러 LoRA를 단순히 더하지 않습니다.

대신 각 레이어에서 어떤 LoRA를 얼마나 반영할지 작은 게이트가 학습합니다.
목표는 세 가지입니다.

  • 여러 LoRA의 장점을 함께 쓰기
  • 각 LoRA가 가진 고유한 특징을 잃지 않기
  • 큰 모델 전체를 다시 학습하지 않기

문제의식: LoRA는 많아졌지만, 조합은 어렵다

LoRA는 큰 모델을 가볍게 튜닝하는 방법입니다.
원래 모델은 고정하고, 작은 보조 파라미터만 학습합니다.

그래서 실무에서는 이런 요구가 생깁니다.

  • 이미지 생성 모델에서 강아지 LoRA, 고양이 LoRA, 선글라스 LoRA를 함께 쓰고 싶다.
  • 언어 모델에서 번역, 질의응답, 추론 등 서로 다른 태스크용 LoRA를 조합하고 싶다.
  • 매번 큰 모델을 다시 학습하지 않고 조합만 바꾸고 싶다.

MOLE은 이 지점을 겨냥합니다.
학습된 LoRA들을 “전문가”처럼 다루고, 상황에 따라 기여도를 조절합니다.

 

 

Crop 포인트: 훈련 단계의 게이트와 추론 단계의 마스킹 흐름을 보면, MOLE이 재학습 없이 LoRA 조합을 바꾸는 방식을 이해할 수 있습니다.

기존 LoRA 조합 방식의 한계

논문은 기존 방식을 크게 두 가지로 봅니다.

1. 단순 덧셈 방식

여러 LoRA를 그대로 더합니다.
간단하지만 위험합니다.

LoRA가 많아질수록 원래 모델의 표현이 크게 흔들립니다.
그 결과 생성 품질이 무너지거나 의미 없는 출력이 나올 수 있습니다.

2. 정규화된 덧셈 방식

각 LoRA의 비중을 줄여서 더합니다.
원래 모델의 안정성은 어느 정도 지킬 수 있습니다.

하지만 문제가 바뀝니다.
각 LoRA가 학습한 개성이 약해집니다.

즉, “모델은 안정적이지만 특징이 흐려지는” 상태가 됩니다.

3. 참조 튜닝 기반 방식

여러 LoRA의 출력을 섞기 위해 별도의 마스크와 재학습을 사용합니다.
성능은 좋을 수 있지만 유연성이 낮습니다.

새로운 LoRA를 넣거나 조합을 바꾸려면 다시 설계하고 다시 학습해야 합니다.
계산 비용도 큽니다.

 

 

Crop 포인트: 왼쪽은 단순 조합, 가운데는 재학습 기반 조합, 오른쪽은 MOLE의 레이어별 게이트 조합을 대비해 보여줍니다.

핵심 관찰: LoRA는 하나의 덩어리가 아니다

논문의 중요한 관찰은 두 가지입니다.

관찰 1. 그냥 더하면 망가지고, 약하게 더하면 특징이 사라진다

이미지 생성 실험에서 단순 덧셈은 출력 자체를 불안정하게 만들었습니다.
정규화된 덧셈은 더 안정적이지만, 개별 LoRA의 특징을 충분히 살리지 못했습니다.

NLP 실험에서도 비슷했습니다.
여러 데이터셋에서 학습된 LoRA를 정규화해 합치면 평균 성능이 낮아졌습니다.

관찰 2. LoRA의 레이어마다 담당하는 특징이 다르다

하나의 LoRA 안에서도 레이어별 역할이 다릅니다.

이미지에서는 어떤 레이어가 색, 어떤 레이어가 얼굴 특징에 더 관여할 수 있습니다.
언어 태스크에서는 어떤 레이어 구간이 특정 데이터셋에서 더 강하게 작동할 수 있습니다.

따라서 LoRA 전체를 같은 비율로 섞는 것은 거칠 수 있습니다.
MOLE은 이 문제를 레이어 단위로 풀려고 합니다.

 

Crop 포인트: 왼쪽은 조합 방식에 따른 실패 양상을, 오른쪽은 LoRA 내부 레이어가 서로 다른 시각 특징을 담는다는 근거를 보여줍니다.

MOLE의 핵심 아이디어

MOLE은 각 레이어에서 여러 LoRA를 “전문가 후보”로 봅니다.
그리고 작은 게이트가 이 전문가들의 기여도를 정합니다.

작동 흐름은 단순합니다.

  • 원래 모델은 고정합니다.
  • 이미 학습된 LoRA들도 고정합니다.
  • 학습하는 것은 게이트뿐입니다.
  • 게이트는 각 레이어에서 LoRA 출력들을 보고 비중을 정합니다.
  • 최종 출력은 원래 모델의 출력에 게이트가 조합한 LoRA 출력을 더해 만듭니다.

여기서 중요한 점은 레이어별 조절입니다.

기존 방식은 보통 LoRA 전체에 하나의 비율을 줍니다.
MOLE은 레이어마다 다른 비율을 줄 수 있습니다.

그래서 어떤 레이어에서는 강아지 LoRA를 더 쓰고,
다른 레이어에서는 배낭 LoRA를 더 쓰는 식의 조합이 가능합니다.

 

 

Crop 포인트: 여러 LoRA 출력이 게이트로 들어가고, 게이트가 레이어별 조합 결과를 만드는 경로에 주목하면 됩니다.

게이트가 한 LoRA에 쏠리는 문제

게이트를 그냥 학습하면 한 가지 문제가 생깁니다.

초기에 성능이 좋아 보이는 LoRA가 있으면, 게이트가 그 LoRA에 계속 높은 비중을 줄 수 있습니다.
그러면 다른 LoRA의 특징은 거의 반영되지 않습니다.

논문은 이를 막기 위해 게이트 균형 손실을 둡니다.

수식으로 쓰면 복잡하지만 의도는 간단합니다.

  • 여러 LoRA가 지나치게 불균형하게 선택되지 않도록 한다.
  • 모든 LoRA가 조합 과정에 어느 정도 참여하도록 유도한다.
  • 단, 완전히 똑같이 쓰라는 뜻은 아니다.
  • 필요한 차이는 유지하되, 한쪽으로 붕괴되는 현상을 줄인다.

 

Crop 포인트: 균형 장치를 넣었을 때 게이트 분포가 덜 붕괴되고, 특정 LoRA 하나가 과도하게 지배하지 않는 점을 보면 됩니다.

실험 1: 이미지 생성 조합

V&L 실험은 다중 주체 이미지 생성입니다.
기반 생성기는 Stable Diffusion V2.1 기반 DreamBooth입니다.

비교 대상은 다음과 같습니다.

  • NLA: 정규화된 선형 조합
  • SVDiff: 확산 모델용 경량 튜닝 및 조합 방식
  • MOLE: 논문 제안 방식

3개 시각 개념을 조합한 실험에서 MOLE은 평균적으로 더 높은 정렬 점수를 보였습니다.

항목 NLA SVDiff MOLE
텍스트 정렬 0.678 0.728 0.759
이미지 정렬 평균 0.694 0.728 0.757

 

논문이 강조하는 지점은 균형입니다.

다중 주체 생성에서는 보통 두 점수 사이에 trade-off가 생깁니다.

  • 텍스트 조건을 잘 따르면 개별 주체의 정체성이 약해질 수 있습니다.
  • 주체 이미지를 잘 보존하면 텍스트 조건을 덜 따를 수 있습니다.

MOLE은 두 방향에서 모두 좋은 결과를 냈습니다.

 

 

Crop 포인트: MOLE 행에서 각 LoRA의 원래 특징이 더 안정적으로 보존되는지 비교해 보면 됩니다.

실험 2: NLP 태스크 조합

NLP 실험에서는 FLAN-T5를 기반으로 여러 LoRA를 만들고 조합했습니다.
평가 태스크는 번역, 구조화 데이터에서 문장 생성, 폐쇄형 QA, BBH, 자연어 추론입니다.

결과 요약은 다음과 같습니다.

영역 LoRAHub PEMs MOLE
번역 평균 25.4 24.2 26.9
Struct-to-Text 평균 38.1 37.7 40.3
Closed-Book QA 평균 48.3 46.5 50.2
BBH 평균 38.4 33.2 42.2
NLI 평균 79.2 78.8 80.5

 

가장 큰 차이는 BBH에서 나타났습니다.
MOLE은 LoRAHub보다 평균 3.8점, PEMs보다 9.0점 높았습니다.

이 결과는 MOLE이 이미지 생성에만 국한되지 않음을 보여줍니다.
레이어별 LoRA 조합은 언어 태스크에서도 작동했습니다.

왜 레이어별 게이트가 중요한가

논문은 게이트가 실제로 어떤 비중을 주는지도 시각화했습니다.

결과는 한 가지 패턴으로 고정되지 않았습니다.
레이어에 따라 다른 LoRA가 더 중요해졌습니다.

이는 MOLE의 핵심 가정과 맞습니다.

  • LoRA 전체를 하나의 비율로 섞는 것은 너무 거칠다.
  • 레이어마다 필요한 전문가가 다르다.
  • 게이트가 이 차이를 학습하면 조합 성능이 좋아진다.

 

Crop 포인트: 가로축의 게이트 위치마다 세로축의 LoRA 비중이 달라지는 점이 레이어별 조합의 근거입니다.

추론 단계의 유연성

MOLE은 추론에서 두 가지 방식으로 사용할 수 있습니다.

모드 1. 모든 LoRA 사용

학습된 게이트를 그대로 사용합니다.
여러 LoRA의 특징을 함께 반영합니다.

모드 2. 일부 LoRA 마스킹

원하지 않는 LoRA를 제외합니다.
그 뒤 남은 LoRA끼리 비중을 다시 나눕니다.

중요한 점은 재학습이 필요 없다는 것입니다.
게이트를 새로 학습하지 않고도 조합을 바꿀 수 있습니다.

 

 

Crop 포인트: 같은 게이트 구조에서 일부 LoRA를 가려도 남은 LoRA들의 비중이 다시 배분되는 흐름을 보면 됩니다.

정성적 결과: 개념 누락과 혼합을 줄인다

다중 개념 이미지 생성에서 흔한 실패는 두 가지입니다.

  • 개념 누락: 프롬프트에 있는 대상이 빠짐
  • 개념 혼합: 고양이와 강아지 특징이 섞이는 식의 혼동

MOLE은 비교 방식보다 이런 실패를 줄였습니다.

강아지, 고양이, 선글라스를 함께 생성하는 예시에서
MOLE은 세 개념을 동시에 더 안정적으로 반영했습니다.

 

 

Crop 포인트: MOLE 열에서 강아지와 고양이가 모두 유지되면서 선글라스 조건도 반영되는지를 보면 됩니다.

강아지, 고양이, 헛간을 함께 생성하는 예시에서도 비슷합니다.
NLA와 SVDiff는 대상이 빠지거나 동물 특징이 섞이는 사례가 나타났습니다.

 

 

Crop 포인트: MOLE 열의 결과가 세 시각 개념을 동시에 포함하는지 확인하면 됩니다.

거북이 인형 스타일, 고양이, 선글라스를 결합한 예시에서는
MOLE이 색과 형태의 원래 특징을 더 잘 유지했습니다.

 

 

Crop 포인트: MOLE 결과에서 거북이 등껍질의 색과 고양이, 선글라스 조건이 함께 남아 있는지 보면 됩니다.

더 많은 LoRA로 확장하면?

논문은 LoRA 수를 늘리는 실험도 수행했습니다.

NLP에서는 8개, 24개, 48개, 128개 LoRA 조합을 비교했습니다.
MOLE은 평균적으로 가장 높았습니다.

LoRA 수 LoRAHub PEMs MOLE
8 33.9 33.7 36.6
24 37.1 36.9 38.7
48 36.9 34.6 39.4
128 35.5 34.9 38.5
평균 35.9 35.0 38.3

 

다만 128개처럼 매우 많은 LoRA를 조합할 때는 모든 방식의 성능이 내려갔습니다.
MOLE도 예외는 아닙니다.

논문은 이를 한계로 인정합니다.
대규모 LoRA 조합은 아직 더 연구가 필요합니다.

논문의 기여

이 논문의 기여는 세 가지로 정리할 수 있습니다.

  1. 문제 정의
    • 여러 학습된 LoRA를 효율적으로 조합하는 문제를 명확히 다룹니다.
    • 단순한 평균이나 덧셈이 충분하지 않다는 점을 보입니다.
  2. 방법 제안
    • LoRA를 레이어 단위 전문가로 보고 조합합니다.
    • 학습 가능한 게이트로 각 레이어의 조합 비중을 정합니다.
  3. 실험 검증
    • 이미지 생성과 NLP 양쪽에서 성능을 확인합니다.
    • 정량 지표와 정성 예시 모두에서 기존 방식보다 개선을 보입니다.

한계

MOLE은 모든 문제를 끝내는 방식은 아닙니다.

주요 한계는 다음과 같습니다.

  • LoRA 수가 매우 커지면 성능이 떨어질 수 있습니다.
  • 게이트 학습을 위해 도메인별 목적 함수가 필요합니다.
  • 실험은 특정 모델과 설정에 기반하므로, 모든 모델 계열에서 같은 폭의 개선을 보장하지는 않습니다.

하지만 방향성은 분명합니다.

LoRA 조합은 “얼마나 더할지”의 문제가 아닙니다.
“어느 레이어에서 어떤 전문가를 쓸지”의 문제에 가깝습니다.

정리

MOLE은 LoRA 조합을 더 세밀하게 만듭니다.

기존 방식은 여러 LoRA를 하나의 비율로 섞었습니다.
MOLE은 레이어마다 다른 조합을 학습합니다.

그 결과 다음 장점을 얻습니다.

  • 개별 LoRA의 특징 보존
  • 여러 개념 또는 태스크의 동시 반영
  • 큰 모델 전체 재학습 없이 조합 가능
  • 추론 시 LoRA 마스킹을 통한 유연한 사용

핵심 메시지는 간단합니다.

여러 LoRA를 잘 쓰려면, 전체를 한 번에 섞기보다 레이어별로 전문가를 선택해야 한다.

Source