한 줄 요약
LoRA는 거대 언어 모델을 작업마다 통째로 다시 학습하지 않는다.
사전학습 모델은 고정한다.
대신 작업에 필요한 작은 보정 모듈만 학습한다.
결과적으로 학습 비용, 저장 비용, 배포 부담을 크게 줄인다.
논문이 해결하려는 문제
거대 언어 모델의 일반적인 활용 방식은 다음과 같다.
- 대규모 데이터로 사전학습한다.
- 특정 작업에 맞게 파인튜닝한다.
문제는 모델이 커질수록 두 번째 단계가 비싸진다는 점이다.
특히 GPT-3 175B 같은 모델에서는 작업마다 별도 파인튜닝 모델을 저장하기 어렵다.
- 작업 하나당 거대한 체크포인트가 필요하다.
- 여러 작업을 서비스하려면 저장 비용이 폭발한다.
- 학습 중에는 optimizer 상태까지 필요해 GPU 메모리 부담이 커진다.
- 배포 중 작업 전환도 무겁다.
논문은 여기서 질문을 던진다.
새 작업에 맞추기 위해 정말 모든 가중치를 바꿔야 할까?
핵심 아이디어: 전체 모델이 아니라 “변화 방향”만 학습한다
LoRA의 직관은 단순하다.
새 작업에 적응할 때 필요한 변화는 거대한 전체 공간을 다 쓰지 않는다.
일부 중요한 방향만 조정해도 충분할 수 있다.
그래서 LoRA는 다음처럼 작동한다.
- 원래 사전학습 가중치는 고정한다.
- 작은 학습 모듈 두 개를 옆에 붙인다.
- 이 작은 모듈이 작업별 보정값을 만든다.
- 배포할 때는 보정값을 기존 가중치에 합쳐 일반 모델처럼 실행한다.

Crop 포인트: 기존 가중치는 고정되고, 오른쪽의 작은 보정 경로만 학습되는 구조가 핵심입니다.
이 방식의 중요한 결과는 하나다.
추론 시 모델 깊이가 늘어나지 않는다.
즉, adapter처럼 별도 레이어를 순차적으로 더 계산하지 않는다.
기존 효율화 방법의 한계
논문은 LoRA를 adapter, prefix tuning, bias-only 방식과 비교한다.
Adapter 방식
Adapter는 모델 내부에 작은 레이어를 추가한다.
파라미터 수는 줄일 수 있다.
하지만 forward path가 길어진다.
온라인 추론처럼 batch size가 작고 sequence length가 짧은 상황에서는 지연 시간이 커진다.

Crop 포인트: 짧은 입력과 작은 batch 영역에서 색이 밝아질수록 adapter가 만드는 지연 비용이 커진다는 뜻입니다.
Prefix tuning 방식
Prefix tuning은 입력 앞에 학습 가능한 토큰을 붙인다.
이 방식은 모델 본체를 거의 건드리지 않는다.
하지만 문제가 있다.
- 실제 작업 입력에 쓸 수 있는 길이가 줄어든다.
- 학습 가능한 토큰 수를 늘린다고 성능이 항상 좋아지지 않는다.
- 큰 모델에서도 최적화가 불안정할 수 있다.
LoRA의 차이
LoRA는 adapter처럼 추가 경로를 학습한다.
하지만 배포 시에는 기존 가중치에 합칠 수 있다.
그래서 추론 지연을 만들지 않는다.
실험 결과: 적게 학습해도 성능은 유지된다
논문은 RoBERTa, DeBERTa, GPT-2, GPT-3에서 LoRA를 평가한다.
가장 인상적인 결과는 GPT-3 175B 실험이다.
| 방법 | 학습 파라미터 | WikiSQL | MNLI-m | SAMSum |
|---|---|---|---|---|
| Full fine-tuning | 175,255.8M | 73.8 | 89.5 | 52.0 / 28.0 / 44.5 |
| LoRA | 4.7M | 73.4 | 91.7 | 53.8 / 29.8 / 45.9 |
| LoRA | 37.7M | 74.0 | 91.6 | 53.4 / 29.2 / 45.1 |
핵심은 파라미터 수 차이다.
LoRA는 극히 작은 학습 파라미터만으로 full fine-tuning과 비슷하거나 더 나은 성능을 보인다.
논문 초록 기준으로 GPT-3 175B에서 LoRA는 학습 파라미터 수를 최대 10,000배 줄이고, GPU 메모리 요구량을 약 3배 낮춘다.

Crop 포인트: LoRA 지점이 적은 학습 파라미터 구간에서도 높은 정확도를 유지하는지 보세요.
이 그림은 단순한 “압축” 이상의 의미가 있다.
작업 적응에 필요한 변화가 생각보다 작을 수 있음을 보여준다.
어떤 가중치에 LoRA를 붙이는가
Transformer에는 attention과 MLP 관련 가중치가 있다.
논문은 주로 attention 쪽을 실험한다.
결론은 명확하다.
쿼리와 값 프로젝션에 LoRA를 붙이는 설정이 좋은 균형을 보였다.
한 종류의 가중치에 큰 rank를 쓰기보다, 여러 핵심 위치에 작은 rank를 나눠 쓰는 편이 더 나았다.
이는 LoRA가 “큰 보정 하나”보다 “작은 보정 여러 개”로 잘 작동한다는 해석을 가능하게 한다.
왜 작은 rank로도 충분한가
논문의 분석 파트는 LoRA의 핵심 가정을 검증한다.
가정은 이렇다.
작업 적응에 필요한 변화는 실제로 낮은 차원의 방향에 몰려 있다.
쉽게 말하면, 모델 전체를 크게 흔들 필요가 없다.
작업에 중요한 몇 개 방향만 조정하면 된다.
논문은 rank를 다르게 둔 LoRA 모듈이 비슷한 핵심 방향을 학습하는지 비교한다.

Crop 포인트: 밝게 반복되는 영역은 작은 rank와 큰 rank가 같은 핵심 방향을 공유한다는 신호입니다.
이 결과는 rank를 크게 둔다고 항상 더 의미 있는 정보를 얻는 것은 아니라는 점을 보여준다.
큰 rank 안에도 실제로 유용한 방향은 일부에 집중될 수 있다.
무작위 초기화가 달라도 핵심 방향은 반복된다
좋은 방법이라면 seed가 달라도 비슷한 구조를 찾아야 한다.
논문은 서로 다른 random seed로 학습한 LoRA 모듈을 비교한다.
그 결과, 완전한 무작위 행렬과 달리 LoRA는 일부 공통 방향을 반복해서 찾는다.

Crop 포인트: 오른쪽 random Gaussian 영역과 비교하면,
LoRA가 무작위 잡음이 아니라 반복되는 구조를 학습한다는 점이 드러납니다.
이는 LoRA가 단순히 작은 파라미터로 운 좋게 맞춘 것이 아니라는 근거다.
모델 안에 이미 있는 구조를 작업에 맞춰 재활용한다.
여러 층에서도 같은 패턴이 보인다
논문 부록은 같은 분석을 여러 Transformer 층에 확장한다.
48번째 층만의 우연이 아니라는 점을 확인하기 위해서다.

Crop 포인트: 여러 층에서 비슷한 밝은 패턴이 반복되면, 낮은 rank 구조가 특정 층에만 국한되지 않는다는 의미입니다.
서로 다른 seed 비교에서도 비슷한 경향이 이어진다.

Crop 포인트: 층이 달라져도 일부 방향이 반복적으로 강하게 나타나는지를 확인하는 것이 핵심입니다.
이 분석은 LoRA의 효율성이 단순한 engineering trick이 아님을 시사한다.
사전학습 모델의 내부 표현 자체가 작업 적응에 유리한 방향을 이미 담고 있을 가능성이 높다.
LoRA는 기존 지식을 새로 만드는 것이 아니라 강조한다
논문은 LoRA가 사전학습 가중치와 어떤 관계를 갖는지도 분석한다.
결론은 흥미롭다.
LoRA는 사전학습 가중치의 가장 강한 방향을 그대로 복사하지 않는다.
대신 이미 배웠지만 강하게 쓰이지 않던 방향을 작업에 맞게 키운다.
논문은 이를 작업별 특징 증폭으로 해석한다.

Crop 포인트: random 기준보다 더 구조적인 패턴이 나타나면,
LoRA가 기존 모델 안의 유용한 방향을 골라 증폭한다는 해석이 가능합니다.
이 관점에서 LoRA는 “작은 새 모델”이라기보다 “사전학습 모델의 조절 손잡이”에 가깝다.
실무적 의미
LoRA가 중요한 이유는 성능만이 아니다.
배포 구조가 바뀐다.
1. 작업별 모델 저장 비용 감소
기존 방식은 작업마다 전체 모델을 저장해야 한다.
LoRA는 공통 base model 하나를 공유한다.
작업별로는 작은 LoRA 모듈만 저장한다.
논문 설정에서 GPT-3 175B의 작업별 체크포인트는 약 350GB에서 약 35MB로 줄어든다.
2. 학습 메모리 감소
사전학습 가중치를 고정하기 때문에 대부분의 파라미터에 대해 gradient와 optimizer 상태를 유지할 필요가 없다.
논문은 GPT-3 175B 기준 학습 메모리가 약 1.2TB에서 350GB 수준으로 줄어든다고 보고한다.
3. 빠른 작업 전환
서비스 중에는 base model을 유지한다.
작업만 바꿀 때는 LoRA 모듈만 교체한다.
여러 고객, 여러 도메인, 여러 task를 운영하는 환경에 유리하다.
4. 추론 지연 없음
LoRA 보정값은 배포 전에 기존 가중치에 합칠 수 있다.
따라서 추론 시에는 일반 파인튜닝 모델과 같은 형태로 실행된다.
한계와 주의점
LoRA가 모든 상황의 정답은 아니다.
논문도 몇 가지 한계를 인정한다.
- 서로 다른 LoRA 모듈을 한 batch 안에서 동시에 섞어 쓰기는 까다롭다.
- 어떤 가중치에 LoRA를 붙일지는 여전히 경험적 선택에 의존한다.
- 사전학습 데이터와 크게 다른 언어·도메인에서는 더 큰 보정이 필요할 수 있다.
- 논문 실험은 주로 attention 가중치에 집중했다.
- MLP, LayerNorm, bias까지 포함한 최적 조합은 추가 연구가 필요하다.
즉, LoRA는 full fine-tuning을 완전히 대체한다기보다, 많은 실제 환경에서 훨씬 효율적인 기본 선택지가 된다.
핵심 정리
LoRA의 메시지는 명확하다.
거대 언어 모델을 작업별로 활용할 때, 전체 모델을 다시 학습할 필요는 없을 수 있다.
작업에 필요한 변화는 작은 방향 집합으로 충분히 표현될 수 있다.
LoRA는 이 직관을 단순한 구조로 구현한다.
- base model은 고정한다.
- 작은 보정 모듈만 학습한다.
- 배포 시 기존 가중치에 합친다.
- 추론 지연 없이 작업별 모델을 운영한다.
이 논문이 중요한 이유는 여기에 있다.
LoRA는 거대 모델 시대의 fine-tuning을 “성능 문제”에서 “운영 가능한 시스템 문제”로 다시 설계했다.
Source
- Edward J. Hu, Yelong Shen, Phillip Wallis, Zeyuan Allen-Zhu, Yuanzhi Li, Shean Wang, Lu Wang, Weizhu Chen. LoRA: Low-Rank Adaptation of Large Language Models. arXiv:2106.09685v2, 2021.
- Paper: https://arxiv.org/abs/2106.09685
- Code: https://github.com/microsoft/LoRA
'AI 생성 글 정리 > modeling' 카테고리의 다른 글
| The Sparsely-Gated Mixture-of-Experts Layer 논문 정리 (0) | 2026.04.21 |
|---|---|
| GShard 논문 정리 (1) | 2026.04.21 |
| Mixture of LoRA Experts 논문 정리 (0) | 2026.04.21 |
| LoRA-Mixer 논문 정리 (0) | 2026.04.21 |
| A Large-Scale Dataset for Robust Complex Anime Scene Text Detection 논문 정리 (0) | 2026.04.14 |