핵심 요약
Diffusion distillation 모델은 빠르다.
하지만 빠른 만큼 손실도 있다.
- 프롬프트를 덜 정확히 따른다.
- 물체 구조가 어색해진다.
- 여러 step을 더 돌려도 오류가 누적될 수 있다.
- teacher 모델보다 결과 품질이 낮다.
이 논문은 이 간극을 추론 시점에서 줄인다.
핵심 방법은 Distillation++다.
학생 모델이 이미지를 빠르게 만들 때, 초반 1-2개 step에서만 teacher 모델이 중간 결과를 점검한다.
그 뒤 학생의 결과를 teacher가 더 그럴듯한 방향으로 살짝 보정한다.
추가 학습은 하지 않는다.
원본 데이터도 필요 없다.

Crop 포인트: 노란 확대 영역은 baseline이 놓친 물체 형태, 인물 세부, 프롬프트 정합성이 teacher 보정으로 회복되는 지점을 보여준다.

문제의 출발점
일반 diffusion 모델은 이미지를 천천히 만든다.
노이즈에서 시작해 이미지를 조금씩 복원한다.
이 과정은 품질이 좋지만 계산량이 크다.
그래서 distillation 모델이 등장했다.
Distillation 모델은 긴 복원 과정을 짧게 압축한다.
몇십 번의 denoising을 1-8 step 정도로 줄인다.
대표 예시는 다음과 같다.
- LCM
- LCM-LoRA
- SDXL-Lightning
- SDXL-Turbo
- DMD2
이 모델들은 빠르다.
하지만 teacher 모델이 가진 정교한 생성 경로를 완전히 따라가지 못한다.
특히 few-step 생성에서는 문제가 두드러진다.
- 초반 구도가 틀어지면 뒤에서 고치기 어렵다.
- 학생 모델의 예측 오류가 다음 step으로 이어진다.
- step 수를 늘려도 항상 좋아지지 않는다.
- 학습 데이터와 실제 프롬프트 분포가 다르면 품질이 흔들린다.
논문의 질문은 단순하다.
이미 학습이 끝난 학생 모델을, 추론 중에 teacher가 도와줄 수 있는가?
Distillation++의 한 줄 아이디어
Distillation++는 student와 teacher를 경쟁시키지 않는다.
역할을 나눈다.
- Student: 빠른 생성을 담당한다.
- Teacher: 초반 경로를 점검하고 보정한다.
중요한 점은 teacher가 전체 샘플링을 대신하지 않는다는 것이다.
Teacher는 학생의 중간 결과를 보고, “이 방향이 더 자연스럽다”는 신호만 준다.
이 방식은 논문에서 inference-time distillation로 정의된다.
학습 때 지식을 압축하는 기존 distillation과 다르다.
생성하는 바로 그 순간에 distillation을 수행한다.
작동 방식
수식 없이 보면 절차는 다음과 같다.
- Student가 현재 노이즈 상태에서 깨끗한 이미지 후보를 예측한다.
- 그 후보를 약간 다시 흐리게 만든다.
- Teacher가 흐려진 후보를 다시 복원한다.
- Student 후보와 teacher 후보를 섞는다.
- 섞인 후보를 다음 샘플링 단계로 보낸다.
여기서 핵심은 “다시 흐리게 만들기”다.
Teacher는 완전히 다른 이미지를 새로 만들지 않는다.
Student가 만든 후보를 같은 생성 경로 안에서 다시 평가한다.
즉, Distillation++는 teacher 모델을 평가자이자 가이드로 사용한다.

Crop 포인트: 보라색 teacher guidance 화살표는 student 경로를 teacher의 더 안정적인 생성 경로 쪽으로 당기는 보정 방향을 나타낸다.
수식이 말하는 직관
논문은 이 과정을 score distillation sampling 관점에서 설명한다.
핵심은 복잡하지 않다.
좋은 이미지 후보라면 다음 조건을 만족해야 한다.
후보를 조금 망가뜨린 뒤, 강한 teacher 모델로 다시 복원했을 때 원래 후보와 크게 어긋나지 않아야 한다.
만약 teacher가 복원한 결과와 student 후보가 다르다면, student 후보는 아직 teacher가 보는 “깨끗한 이미지 공간”에서 벗어난 것이다.
Distillation++는 이 차이를 줄이는 방향으로 student의 중간 결과를 이동시킨다.
그래서 이 방법은 단순한 후처리가 아니다.
샘플링 경로 자체를 더 나은 방향으로 수정한다.

Crop 포인트: 두 방식의 결과가 거의 비슷한 영역은 Distillation++의 본질이 복잡한 재학습이 아니라 teacher가 주는 방향성 보정임을 보여준다.
왜 초반 step이 중요한가
이미지 생성에서는 초반 step이 큰 구조를 결정한다.
- 배치
- 물체 수
- 자세
- 배경 구성
- 주요 의미 관계
이때 잘못된 방향으로 가면 후반 step은 주로 디테일만 다듬는다.
근본적인 의미 오류를 고치기 어렵다.
Distillation++는 이 점을 이용한다.
Teacher guidance를 모든 step에 넣지 않는다.
대부분의 실험에서는 첫 step에만 사용한다.
그럼에도 효과가 크다.
초반 경로만 교정해도 뒤의 student sampling이 더 나은 영역에서 진행되기 때문이다.
정성 결과: artifact와 의미 오류 감소
논문은 여러 distillation baseline에 Distillation++를 붙여 비교한다.
공통적으로 관찰되는 변화는 다음과 같다.
- 깨진 손, 얼굴, 물체 구조가 줄어든다.
- 프롬프트의 핵심 명사가 더 잘 반영된다.
- 스타일은 유지하면서 세부 품질이 개선된다.
- 확대 영역의 국소적 artifact가 줄어든다.

Crop 포인트: 노란 확대 영역은 작은 물체, 얼굴 세부, 글자·도형 형태처럼 few-step distillation이 쉽게 무너지는 부분을 강조한다.
다양한 baseline에서도 반복되는 패턴
Distillation++는 특정 student 모델 하나에만 맞춘 기법이 아니다.
논문은 다음 모델군에 적용했다.
- LCM
- LCM-LoRA
- SDXL-Lightning
- SDXL-Lightning LoRA
- DMD2
- SDXL-Turbo
또한 Euler 계열과 DPM++ 계열 solver에도 적용 가능하다고 설명한다.
이유는 단순하다.
Distillation++는 solver 전체를 새로 설계하지 않는다.
각 step에서 나온 denoised estimate만 teacher 방향으로 보정한다.
그래서 endpoint를 직접 예측하는 모델에도 맞고, progressive distillation 계열에도 맞는다.

Crop 포인트: 서로 다른 baseline에서도 노란 확대 영역의 질감, 형태, 프롬프트 반영도가 같은 방향으로 개선되는지 보면 된다.
“step을 더 늘리면 되지 않나?”에 대한 답
논문은 단순히 student step 수를 늘리는 전략도 비교한다.
결론은 명확하다.
Student step을 늘린다고 항상 의미 정합성이 좋아지는 것은 아니다.
예를 들어 LCM-LoRA에서 step을 4, 6, 7, 8로 늘려도 다음 문제가 남는다.
- 달 착륙 장면의 구조가 충분히 살아나지 않는다.
- “cat patting a crystal ball”처럼 행동 관계가 어색하다.
- 더 많은 step이 오히려 누적 오류를 키울 수 있다.
Distillation++는 같은 student에 teacher guidance 1 step을 추가해 이 문제를 줄인다.

Crop 포인트: step 수 변화보다 오른쪽 Distillation++ 결과에서 장면 구조와 행동 의미가 함께 교정되는 부분을 봐야 한다.
LCM 사례에서 보이는 차이
LCM에서도 비슷한 현상이 나타난다.
4 step과 8 step baseline은 디테일이 조금 달라질 수 있다.
하지만 프롬프트가 요구한 구조와 물리적 타당성을 안정적으로 맞추지는 못한다.
Distillation++는 student의 빠른 생성 능력을 유지하면서, teacher가 큰 방향을 잡아준다.

Crop 포인트: 드래곤의 얼굴, 날개, 배경 구조가 단순 step 증가보다 teacher-guided 보정에서 더 일관되게 정리되는지 확인하면 된다.
정량 결과
논문은 MS-COCO validation prompt 10K개로 평가했다.
지표는 세 가지다.
- FID: 낮을수록 시각 품질과 분포 유사성이 좋다.
- ImageReward: 높을수록 인간 선호와 잘 맞는다.
- PickScore: 높을수록 텍스트-이미지 선호가 좋다.
모든 정량 실험은 기본 student sampling에 teacher guidance 1 step을 추가한 설정이다.
| 모델 | FID 전 | FID 후 | ImageReward 전 | ImageReward 후 | PickScore 전 | PickScore 후 |
|---|---|---|---|---|---|---|
| LCM | 20.674 | 20.149 | 0.561 | 0.597 | 0.494 | 0.505 |
| LCM-LoRA | 20.300 | 19.815 | 0.494 | 0.522 | 0.490 | 0.510 |
| SDXL-Lightning | 24.506 | 23.876 | 0.787 | 0.820 | 0.496 | 0.503 |
| SDXL-Lightning LoRA | 25.304 | 24.429 | 0.750 | 0.778 | 0.482 | 0.518 |
| DMD2 | 21.238 | 20.937 | 0.777 | 0.797 | 0.490 | 0.510 |
| SDXL-Turbo | 18.612 | 18.481 | 0.296 | 0.310 | 0.499 | 0.501 |
결과는 일관적이다.
거의 모든 baseline에서 FID는 낮아지고, ImageReward와 PickScore는 올라간다.
즉, 품질과 선호도, 텍스트 정합성이 함께 개선된다.
계산 비용은 어느 정도인가
Distillation++는 teacher 모델을 쓰기 때문에 추가 비용이 있다.
하지만 논문은 비용을 낮게 유지한다.
핵심은 teacher guidance를 초반 1 step에만 넣는 것이다.
Wall-clock time 비교에서도 4 step student에 teacher 1 step을 더한 설정은, 5 step student만 돌린 설정과 비슷한 시간을 보였다.
예를 들어 다음 경향이 보고된다.
- LCM: 4+1 step Distillation++가 5 step baseline과 비슷한 시간
- LCM-LoRA: 4+1 step Distillation++가 5 step baseline과 비슷한 시간
- 성능은 Distillation++ 쪽이 더 안정적
즉, 이 방법은 “느린 teacher로 돌아가기”가 아니다.
빠른 student에 teacher의 초반 보정만 덧붙이는 방식이다.
Teacher만 적은 step으로 쓰는 것과 다르다
중요한 반론이 있다.
“그냥 SDXL teacher를 적은 step으로 돌리면 되지 않나?”
논문은 그렇지 않다고 보여준다.
적은 step의 teacher 모델은 자체적으로도 artifact와 의미 오류를 만들 수 있다.
반면 Distillation++는 student와 teacher를 결합한다.
Student는 few-step 생성에 맞게 압축되어 있다.
Teacher는 고품질 분포에 대한 방향성을 준다.
둘을 결합할 때 시너지가 난다.

Crop 포인트: teacher를 적은 step으로 단독 사용했을 때 생기는 왜곡과, student와 결합했을 때의 구조 안정성을 비교하면 된다.
Ablation: 다시 흐리게 만드는 단계가 중요하다
Distillation++는 student 후보를 teacher에게 바로 넘기지 않는다.
후보를 다시 약간 노이즈화한 뒤 teacher가 복원하게 만든다.
이때 어떤 노이즈 수준을 쓰는지가 중요하다.
논문은 세 가지를 비교한다.
- 무작위 노이즈 수준
- 현재 단계와 같은 노이즈 수준
- 현재보다 한 단계 낮은 노이즈 수준
가장 좋은 결과는 세 번째다.
직관은 이렇다.
Student는 큰 폭으로 endpoint를 예측한다.
Teacher는 그 예측을 다음 세부 단계에서 다시 점검할 때 더 자연스럽게 경로를 수정한다.
즉, teacher는 과거로 되돌아가서 다시 시작하는 것이 아니라, student가 가려는 다음 지점을 더 깨끗한 방향으로 다듬는다.
추가 정성 사례
논문 부록은 동물, 인물, 물체, 장면 구성에서 추가 사례를 제시한다.
여기서도 같은 패턴이 반복된다.
- 작은 동물의 눈과 털 표현이 안정된다.
- 인물 얼굴의 국소 artifact가 줄어든다.
- 다수 객체 장면에서 개체 구분이 좋아진다.
- 프롬프트의 핵심 단어가 더 선명하게 반영된다.

Crop 포인트: 고양이, 새, 사람 얼굴처럼 작은 형태 오류가 누적되기 쉬운 영역에서 teacher-guided correction의 효과를 확인할 수 있다.
이 논문의 강점
Distillation++의 장점은 세 가지다.
첫째, 후처리성이 강하다.
이미 학습된 student 모델에 붙일 수 있다.
새 데이터셋을 모으거나 재학습하지 않아도 된다.
둘째, 모델 호환성이 넓다.
Endpoint 예측형 student에도 적용할 수 있다.
Progressive distillation 계열에도 적용할 수 있다.
여러 solver에도 확장 가능하다.
셋째, 비용 대비 효과가 좋다.
Teacher를 모든 step에서 쓰지 않는다.
초반 1 step만으로도 의미 정합성과 시각 품질이 개선된다.
한계
한계도 분명하다.
첫째, student와 teacher가 같은 latent space에서 작동해야 한다.
Distillation++는 student 후보와 teacher 후보를 섞는다.
따라서 두 모델의 표현 공간이 맞지 않으면 바로 적용하기 어렵다.
둘째, teacher 호출 비용은 완전히 사라지지 않는다.
1 step만 추가하더라도 teacher 모델 평가가 필요하다.
초저지연 환경에서는 여전히 부담이 될 수 있다.
셋째, teacher 선택에 따라 결과 성향이 달라질 수 있다.
Open-source teacher 모델은 스타일, 미감, 프롬프트 해석 방식이 다르다.
이 차이는 Distillation++ 결과에도 반영될 수 있다.
확장 가능성
논문은 future direction으로 두 가지를 강조한다.
첫째, video diffusion distillation이다.
비디오는 이미지보다 step 수에 더 민감하다.
움직임의 시간적 일관성이 깨지기 쉽다.
Teacher-guided inference-time distillation은 이 문제를 줄일 가능성이 있다.
둘째, flow-based generative model과의 결합이다.
Flow matching 계열도 생성 경로를 따라 샘플을 만든다.
따라서 teacher와 student의 경로 차이를 추론 중 보정하는 방식이 확장될 수 있다.
읽고 남는 메시지
Distillation++의 핵심은 “더 빠른 student를 새로 학습하자”가 아니다.
이미 있는 student를 그대로 둔다.
대신 생성 중 초반 경로를 teacher가 살짝 교정한다.
이 접근은 diffusion distillation을 학습 단계에만 묶어두지 않는다.
추론 시점에도 distillation을 수행할 수 있음을 보여준다.
결론적으로 이 논문은 few-step diffusion generation의 실용적 개선 방향을 제시한다.
- 데이터 없음
- 추가 학습 없음
- 적은 teacher 호출
- 여러 student 모델에 적용 가능
- 품질과 텍스트 정합성 개선
빠른 생성 모델의 약점을 teacher가 보완하는 방식이다.
속도와 품질 사이의 간극을 줄이는 현실적인 post-training 전략으로 볼 수 있다.
Source
- Geon Yeong Park, Sang Wan Lee, Jong Chul Ye, “Inference-Time Diffusion Model Distillation”, arXiv:2412.08871v1, 2024.
- Paper: https://arxiv.org/abs/2412.08871
- PDF: https://arxiv.org/pdf/2412.08871
- Code reported in the paper: https://github.com/anony-distillationpp/distillation_pp
'AI 생성 글 정리 > modeling' 카테고리의 다른 글
| Quiet-STaR: Language Models Can Teach Themselves to Think Before Speaking 논문 정리 (0) | 2026.04.28 |
|---|---|
| [Fast Quiet-STaR: Thinking Without Thought Tokens] 논문 정리 (0) | 2026.04.28 |
| ReasoningBank 논문 정리 (0) | 2026.04.27 |
| Image Generators are Generalist Vision Learners 논문 정리 (0) | 2026.04.27 |
| Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models 논문 정리 (0) | 2026.04.26 |