Flow Matching for Generative Modeling

업로드된 논문 “Flow Matching for Generative Modeling”를 블로그용으로 다시 정리한 문서입니다.
목표는 핵심 아이디어, 왜 중요한지, OT(Optimal Transport) 경로가 왜 강한지, 실험 결과가 무엇을 보여주는지를 빠르게 잡는 것입니다.

0. 한 줄 요약

이 논문은 Continuous Normalizing Flow(CNF)를 학습할 때, 비싼 ODE 시뮬레이션을 직접 돌리지 않고도
“지금 이 위치에서는 어느 방향으로 움직여야 하는가?”라는 벡터 필드(vector field)를 직접 회귀하는 방식으로 학습하자는 제안이다.

핵심은 두 가지다.

Flow Matching(FM): 원하는 확률 경로를 만드는 벡터 필드를 직접 맞춘다.
Conditional Flow Matching(CFM): 원래는 계산하기 어려운 marginal 벡터 필드를, 각 데이터 샘플 기준의 conditional 경로로 쪼개서 tractable하게 학습한다.

그리고 이 프레임워크 위에서 논문은 diffusion path도 하나의 선택지일 뿐이며,
더 나은 선택지로 Optimal Transport(OT) conditional path를 제안한다.
결과적으로 더 단순한 trajectory, 더 안정적인 학습, 더 빠른 샘플링을 얻는다.

1. 이 논문이 던지는 문제

기존 CNF의 장점

CNF는 noise 분포에서 data 분포로 가는 연속적인 변환을 ODE로 모델링한다.

이 관점의 장점은 명확하다.

generative process를 연속적인 flow로 볼 수 있다.
ODE solver를 써서 sampling과 likelihood 계산이 가능하다.
diffusion이 다루는 확률 경로도 CNF 안에서 해석할 수 있다.

그런데 왜 어려웠나?

문제는 학습 비용이다.
전통적인 CNF 학습은 최대우도(maximum likelihood) 기반으로 가면 ODE를 반복적으로 풀어야 해서 느리고 비싸다.

즉, CNF는 표현력은 좋지만 확장성(scale)에서 diffusion 계열보다 불리했다.

논문이 겨냥한 핵심 질문은 이것이다.

CNF를 diffusion만큼 쉽게, 혹은 더 유연하게 학습할 수는 없을까?

2. 논문의 핵심 아이디어

2.1 Flow Matching: “정답 velocity를 직접 맞추자”

논문은 목표 확률 경로 $p_t(x)$와 그 경로를 생성하는 target vector field $u_t(x)$가 있다고 할 때, 모델 벡터 필드 $v_t(x;\theta)$를 다음처럼 학습한다.

$$\mathcal{L}_{FM}(\theta) = \mathbb{E}_{t, x \sim p_t} \left\| v_t(x) - u_t(x) \right\|^2$$

직관은 단순하다.

어떤 시각 $t$에
어떤 위치 $x$에 있을 때
정답 방향 $u_t(x)$로 움직이도록
신경망 $v_t(x)$를 학습한다.

즉, trajectory 전체를 수치적으로 시뮬레이션하며 학습하는 대신,
그 trajectory를 만드는 순간 속도장(velocity field) 자체를 맞춘다.

이게 FM의 출발점이다.

2.2 하지만 원래 FM은 그대로는 계산하기 어렵다

문제는 실제 데이터 분포 $q(x_1)$에 대해, 우리가 정말 원하는 marginal path $p_t(x)$와 그에 대응하는 marginal vector field $u_t(x)$를 직접 계산하기가 어렵다는 점이다.

각 데이터 샘플 $x_1$에 대해, 다음과 같은 conditional path를 만든다.

$$\text{p}_t(x \mid x_1)$$

이 경로는 다음을 만족하도록 설계된다.

($t=0$): 모두 같은 간단한 noise 분포에서 시작 / ($t=1$): $x_1$ 근처에 집중된 분포로 도착

그다음 이 conditional path들을 데이터 분포 $q(x_1)$ 위에서 평균내어 전체 marginal path를 만든다.

$$p_t(x) = \int p_t(x \mid x_1) q(x_1) dx_1$$

핵심은 여기서 끝이 아니다.
논문은 conditional vector field를 잘 섞으면, 실제로 marginal path를 생성하는 벡터 필드가 된다는 점을 보인다.

이게 논문의 첫 번째 큰 수학적 포인트다.

2.3 Conditional Flow Matching: 계산 가능한 objective로 바꾸기

이제 원래의 FM objective를 직접 쓰지 않고, 다음과 같이 conditional objective를 쓴다.

$$\mathcal{L}_{\text{CFM}}(\theta) = \mathbb{E}_{t, x_1 \sim q, x \sim p_t(\cdot \mid x_1)} \left\| v_t(x) - u_t(x \mid x_1) \right\|^2$$

이 objective의 장점은 결정적이다.

$x_1$은 데이터 샘플이므로 쉽게 얻을 수 있다.
$p_t(x \mid x_1)$는 우리가 설계한 경로이므로 샘플링 가능하다.
$u_t(x \mid x_1)$도 닫힌 형태로 계산되게 설계할 수 있다.

즉, 학습 시점에 더 이상 intractable한 marginal quantity가 필요 없다.

그리고 논문의 가장 중요한 정리 중 하나는 다음이다.

FM과 CFM은 파라미터 $\theta$ 에 대한 gradient가 동일하다.

이 말은 곧:

우리가 실제로는 conditional objective만 최적화해도
기대값 차원에서는 원래 FM objective를 최적화하는 것과 같다는 뜻이다.

이 부분이 이 논문의 실질적인 엔진이다.

3. Gaussian conditional path로 일반화하기

논문은 conditional path를 아주 넓은 Gaussian family로 잡는다.

$$p_t(x \mid x_1) = \mathcal{N}(x \mid \mu_t(x_1), \sigma_t(x_1)^2 I)$$

여기서

$\mu_t(x_1)$ : 시간에 따라 움직이는 mean
$\sigma_t(x_1)$ : 시간에 따라 줄어드는 표준편차

이다.

그리고 affine flow

$$\psi_t(x) = \sigma_t(x_1)x + \mu_t(x_1)$$

를 쓰면, 이 conditional Gaussian path를 생성하는 벡터 필드를 닫힌 형태로 쓸 수 있다.$$u_t(x \mid x_1) = \frac{\dot{\sigma}_t(x_1)}{\sigma_t(x_1)}(x - \mu_t(x_1)) + \dot{\mu}_t(x_1)$$

이 식이 중요한 이유는 분명하다.

경로를 우리가 설계하면
그 경로를 만드는 conditional vector field가 자동으로 따라온다.
따라서 diffusion path뿐 아니라 다른 경로도 자유롭게 설계할 수 있다.

이 순간, 논문은 “diffusion을 더 잘 학습하는 방법”을 넘어서
“생성 경로 자체를 디자인하는 프레임워크”로 확장된다.

4. 왜 OT path가 중요한가?

논문의 가장 인상적인 지점은 Optimal Transport(OT) conditional path다.

OT path 설정

논문은 mean과 std를 시간에 대해 선형으로 변화시킨다.

$$\mu_t(x_1) = t x_1, \quad \sigma_t(x_1) = 1 - (1 - \sigma_{\min})t$$

그러면 conditional flow는

$$\psi_t(x) = (1 - (1 - \sigma_{\min})t)x + t x_1$$

가 되고, 이는 각 particle이 직선에 가깝게 움직이는 경로를 만든다.

이때 conditional vector field는

$$u_t(x \mid x_1) = \frac{x_1 - (1 - \sigma_{\min})x}{1 - (1 - \sigma_{\min})t}$$

가 된다.

왜 이게 diffusion보다 쉬운가?

논문이 보여주는 직관은 명료하다.

diffusion path는 경로가 더 굽어 있고(curved),
OT path는 더 곧고(straight),
그래서 학습해야 할 vector field가 더 단순하다.

특히 OT conditional vector field는 시간에 따라 방향 변화가 덜 복잡하다.
논문은 이 점이 회귀 문제를 더 쉽게 만든다고 해석한다.

즉, OT path의 장점은 단순히 “이론적으로 예쁘다”가 아니다.

더 단순한 target
더 안정적인 학습
더 빠른 샘플 생성

으로 직접 연결된다.

5. 그림으로 이해하기

5.1 최종 샘플 품질: Figure 1

Figure 1. OT path로 학습한 FM-CNF의 ImageNet-128 샘플 예시.
논문 초반에 이 figure를 배치한 이유는 분명하다. 이 접근이 단지 이론적 제안이 아니라
고해상도 이미지 생성에서도 실제로 작동한다는 점을 먼저 보여준다.

5.2 diffusion path vs OT path의 local target: Figure 2

Figure 2. diffusion path의 conditional score function과 OT path의 conditional vector field 비교.

이 그림이 전달하는 메시지는 이 논문 전체의 핵심 압축본에 가깝다.

Diffusion 쪽 target은 시간에 따라 모양과 방향이 더 많이 바뀐다.
OT 쪽 target은 방향이 더 일정하고 구조가 단순하다.

블로그 문장으로 바꾸면 다음과 같다.

FM의 강점은 단지 “score 대신 vector field를 맞춘다”가 아니다.
더 단순한 probability path를 고를 수 있게 해준다는 것이 더 큰 포인트다.

5.3 trajectory 직관: Figure 3

Figure 3. diffusion trajectory는 휘어지고, OT trajectory는 더 직선적이다.

논문은 diffusion path에서 샘플이 목표 근처를 지나친 뒤 다시 되돌아오는 식의
overshoot / backtracking이 생길 수 있다고 설명한다.
반면 OT path는 경로가 더 직접적이다.

이 그림은 곧 sampling efficiency와 연결된다.

5.4 2D toy example: Figure 4

Figure 4. 2D checkerboard 데이터에서의 trajectory와 저-NFE 샘플링 비교.

왼쪽은 학습 중 density path가 어떻게 형성되는지 보여주고,
오른쪽은 같은 ODE solver budget에서 어떤 방법이 더 빨리 checkerboard 구조를 만드는지 보여준다.

여기서 읽어야 할 포인트는 두 가지다.

FM w/ Diffusion도 score matching보다 학습이 안정적이다.
FM w/ OT는 checkerboard 패턴을 더 일찍 형성한다.

즉, 이 논문은

objective의 이점(FM 자체)
path choice의 이점(OT path)

을 둘 다 보여준다.

5.5 학습 속도: Figure 5

Figure 5. ImageNet 64×64에서 epoch에 따른 FID 변화.

FM-OT가 더 빨리 FID를 낮추고, 최종적으로도 더 낮은 값에 도달한다.
논문의 메시지는 단순하다.

같은 아키텍처를 써도, 무엇을 회귀하느냐와 어떤 path를 고르느냐가 학습 속도를 크게 바꾼다.

5.6 생성 과정의 차이: Figure 6

Figure 6. 동일한 초기 noise에서 출발했을 때의 sample path 비교.

이 그림에서 OT path는 이미지가 더 이른 시점부터 형태를 드러낸다.
반대로 diffusion 계열 path는 마지막에 가까워질 때까지 noise 성분이 더 오래 남는다.

이건 단지 시각적 차이가 아니라,
ODE solver가 적은 step으로도 쓸 만한 샘플을 만들 수 있는지와 직접 연결된다.

5.7 low-NFE 효율: Figure 7

Figure 7. 적은 수의 function evaluations(NFE)로 샘플링할 때의 numerical error와 FID 비교.

여기서 논문이 주장하는 핵심은 다음이다.

FM, 특히 FM w/ OT는
더 적은 NFE로도
비슷한 numerical error와 sample quality를 유지한다.

논문은 ImageNet-32 실험에서
같은 오차 수준에 도달하는 데 diffusion 계열 대비 대략 60% 수준의 NFE만 필요하다고 설명한다.

즉, OT path의 장점은 이론이 아니라 실제 sampling cost 절감으로 이어진다.

6. 실험 결과 요약

6.1 핵심 quantitative 결과 (Table 1 요약)

아래 표는 논문의 Table 1을 블로그용으로 다시 적은 것이다.
낮을수록 좋은 지표는 ↓, 높을수록 좋은 지표는 ↑로 표시했다.

CIFAR-10 / ImageNet 32 / ImageNet 64

Dataset	Method	NLL/BPD ↓	FID ↓	NFE ↓
CIFAR-10	DDPM	3.12	7.48	274
CIFAR-10	Score Matching	3.16	19.94	242
CIFAR-10	ScoreFlow	3.09	20.78	428
CIFAR-10	FM w/ Diffusion	3.10	8.06	183
CIFAR-10	FM w/ OT	2.99	6.35	142
ImageNet 32×32	DDPM	3.54	6.99	262
ImageNet 32×32	Score Matching	3.56	5.68	178
ImageNet 32×32	ScoreFlow	3.55	14.14	195
ImageNet 32×32	FM w/ Diffusion	3.54	6.37	193
ImageNet 32×32	FM w/ OT	3.53	5.02	122
ImageNet 64×64	DDPM	3.32	17.36	264
ImageNet 64×64	Score Matching	3.40	19.74	441
ImageNet 64×64	ScoreFlow	3.36	24.95	601
ImageNet 64×64	FM w/ Diffusion	3.33	16.88	187
ImageNet 64×64	FM w/ OT	3.31	14.45	138

ImageNet 128×128

Model	NLL/BPD ↓	FID ↓
MGAN	–	58.9
PacGAN2	–	57.5
Logo-GAN-AE	–	50.9
Self-cond. GAN	–	41.7
Uncond. BigGAN	–	25.3
PGMGAN	–	21.7
FM w/ OT	2.90	20.9

이 표에서 읽어야 할 것

FM w/ OT가 전반적으로 가장 좋은 trade-off를 보여준다.
특히 NFE가 낮다는 점이 중요하다.
FM w/ Diffusion도 의미 있는 개선이다.
즉, 성능 향상은 OT path 때문만이 아니라 FM objective 자체의 이점도 있다.
논문의 주장은 “diffusion은 틀렸다”가 아니라,
diffusion path는 더 넓은 probability path 설계 공간 안의 하나의 특수한 경우라는 것이다.

6.2 조건부 생성 결과 (Table 2)

논문은 low-resolution image를 high-resolution으로 올리는 conditional setting도 실험한다.
64×64 → 256×256 super-resolution에서 결과는 다음과 같다.

Model	FID ↓	IS ↑	PSNR ↑	SSIM ↑
Reference	1.9	240.8	–	–
Regression	15.2	121.1	27.9	0.801
SR3	5.2	180.1	26.4	0.762
FM w/ OT	3.4	200.8	24.7	0.747

읽는 포인트는 명확하다.

perceptual quality 쪽 지표(FID, IS)는 FM-OT가 강하다.
반면 pixel-wise fidelity 지표(PSNR, SSIM)는 regression 계열이 더 높다.

이건 생성 모델에서 흔히 보이는 trade-off와도 맞물린다.
즉, FM-OT는 “평균적인 복원”보다 더 자연스럽고 그럴듯한 샘플 쪽에 강하다.

7. 이 논문이 중요한 이유

7.1 diffusion을 “확률 경로 설계 문제”로 다시 본다

이 논문은 diffusion model을 부정하지 않는다.
오히려 diffusion을 더 큰 프레임 안에 넣는다.

diffusion path도 Gaussian conditional path의 한 특수한 선택이고
FM은 그 path 위에서도 잘 작동한다.
하지만 그에 묶일 필요는 없다.

즉, 생성 모델 학습의 초점을
“어떤 stochastic process를 쓸 것인가”에서
“어떤 probability path를 설계할 것인가”로 옮긴다.

이 관점 전환이 매우 크다.

7.2 CNF를 다시 실용적으로 만든다

이전까지 CNF는 “예쁘지만 비싼 모델”에 가까웠다.
이 논문은 CNF를 simulation-free training으로 가져오며 다시 경쟁력 있는 선택지로 만든다.

블로그 포인트로 쓰면 이렇게 정리할 수 있다.

Flow Matching은 CNF를 이론적 모델에서 실전급 generative model로 되돌린 논문이다.

7.3 objective와 path design을 분리해서 생각하게 만든다

이 논문이 특히 좋은 이유는 개선 요인을 두 층위로 분리해 보여주기 때문이다.

학습 objective 개선: FM vs score matching
경로 설계 개선: diffusion path vs OT path

즉, “무엇을 학습할 것인가”와 “어떤 경로를 따라갈 것인가”를 분리해서 최적화할 수 있게 해준다.

8. 읽을 때 주의할 점 / 한계

8.1 OT가 ‘조건부’로 optimal이라는 점

논문이 제시하는 OT optimality는
각 (x_1)에 대해 정의된 conditional Gaussian 사이에서의 OT 해석이다.

논문도 분명히 적듯이,

conditional flow가 optimal transport라고 해서,
marginal vector field 자체가 global OT solution이라는 뜻은 아니다.

즉, “OT path”라는 이름을 너무 넓게 해석하면 안 된다.

8.2 경로 설계의 자유는 장점이자 튜닝 포인트다

FM의 강점은 경로를 자유롭게 설계할 수 있다는 점이지만,
반대로 말하면 어떤 path가 좋은지 선택하는 문제가 새롭게 중요해진다.

즉, FM은 “path choice”를 핵심 inductive bias로 끌어올린다.

8.3 여전히 대규모 생성 모델의 계산 문제 자체가 완전히 사라지는 것은 아니다

학습이 더 단순해지고 sampling이 더 효율적이더라도,
대규모 U-Net과 ODE solver를 쓰는 생성 모델이라는 사실 자체는 변하지 않는다.

따라서 이 논문은 계산을 “없애는” 논문이라기보다,
CNF를 훨씬 더 실용적으로 만드는 논문으로 보는 것이 정확하다.

9. 핵심 포인트

Flow Matching은 CNF의 vector field를 직접 회귀해서 학습하는 방법이다.
Conditional Flow Matching은 intractable한 marginal objective를 tractable한 conditional objective로 바꾸는 핵심 장치다.
Diffusion path는 FM이 다룰 수 있는 경로들 중 하나일 뿐이다.
OT path는 더 직선적이고 단순한 trajectory를 만들어서 학습과 샘플링을 쉽게 한다.
실험에서는 FM w/ OT가 likelihood, FID, NFE에서 가장 좋은 trade-off를 보인다.
이 논문의 진짜 메시지는 ‘diffusion을 넘어서 probability path를 설계하자’는 것이다.

10. 요약

10.1 아주 짧은 버전

Flow Matching은 연속 정규화 흐름(CNF)을 학습할 때 비싼 시뮬레이션 대신 벡터 필드를 직접 회귀하는 방법이다. 이 논문은 특히 조건부 경로를 이용해 원래 계산이 어려운 목적함수를 tractable하게 바꾸고, diffusion path를 더 일반적인 probability path 설계 문제의 한 특수한 경우로 재해석한다. 그 위에서 제안한 OT path는 더 직선적이고 단순한 trajectory를 만들어 학습 안정성과 샘플링 효율을 함께 개선한다.

10.2 조금 더 설명적인 버전

이 논문의 핵심 기여는 두 층으로 나뉜다. 첫째, CNF를 학습할 때 더 이상 전체 ODE trajectory를 반복적으로 시뮬레이션하지 않고, 각 시점에서의 정답 vector field를 직접 맞추는 Flow Matching objective를 제안한다. 둘째, diffusion path에 갇히지 않고 임의의 Gaussian conditional path를 설계할 수 있게 만들며, 그중 OT path가 가장 단순한 회귀 목표를 제공한다는 점을 보인다. 실험에서는 FM 자체도 score matching보다 안정적이었고, FM-OT는 likelihood와 FID, 그리고 샘플링 비용(NFE)까지 전반적으로 가장 좋은 결과를 냈다.

12. 최종 정리

이 논문을 가장 짧게 요약하면 다음 한 문장으로 정리할 수 있다.

Flow Matching은 CNF 학습을 ‘비싼 ODE 시뮬레이션 문제’에서 ‘좋은 probability path 위의 vector field 회귀 문제’로 바꾼 논문이다.

그리고 그 설계 자유도 안에서
논문은 diffusion보다 더 단순하고 더 효율적인 OT path를 보여준다.

그래서 이 논문은 단순히 “새로운 loss 하나”가 아니라,

CNF의 실용화,
diffusion의 재해석,
probability path design이라는 새로운 관점

을 동시에 열어 준 논문으로 읽는 것이 가장 적절하다.

원문 정보

논문명: Flow Matching for Generative Modeling
저자: Yaron Lipman, Ricky T. Q. Chen, Heli Ben-Hamu, Maximilian Nickel, Matt Le
기준 문서: 업로드된 PDF 버전(28 pages)
핵심 참조 지점: Eq. (5), Eq. (9), Eq. (15), Eq. (20)–(23), Figure 1–7, Table 1–2

'AI 생성 글 정리 > agent' 카테고리의 다른 글

ChatDev 논문 정리 (0)	2026.04.06
LongRAG 논문 정리 (0)	2026.04.06
Meta-Harness 논문 핵심 정리 (0)	2026.04.03
Mamba 논문 핵심 정리 (0)	2026.04.02
Tree of Thoughts 논문 핵심 정리 (0)	2026.04.02

Flow Matching for Generative Modeling — 핵심 정리