Online SFT for LLM Reasoning - 보상 없이도 되는 Self-Tuning 정리

원문: Mengqi Li, Lei Zhao, Anthony Man-Cho So, Ruoyu Sun, Xiao Li,
Online SFT for LLM Reasoning: Surprising Effectiveness of Self-Tuning Without Rewards,
arXiv:2510.18814v1, 2025-10-21

한 줄 요약

이 논문은 추론형 LLM을 꼭 보상 기반 강화학습(RLVR)으로만 올릴 필요는 없다는 메시지를 강하게 던진다.
핵심은 모델이 스스로 생성한 응답을 즉시 다시 SFT로 학습하는 온라인 SFT(OSFT) 이며, 특히 낮은 sampling temperature로 데이터를 만들고, 일반적인 training temperature로 학습하는 decoupled temperature 설정이 성능의 핵심이라고 주장한다.

먼저 핵심만 5줄로

OSFT는 reward-free 다. 정답 보상이나 advantage 계산 없이도 추론 성능을 올린다.
기본 설정에서 prompt당 rollout 1개 만 사용한다. 논문 비교 기준의 GRPO는 기본적으로 8개다.
OSFT의 핵심 메커니즘은 새로운 수학 지식을 가르치는 것보다, 모델 안에 이미 있던 더 나은 reasoning path를 더 강하게 선택하게 만드는 것에 가깝다.
실험상 OSFT는 Qwen2.5-Math 계열과 일반 Qwen2.5-7B 모델에서 GRPO와 꽤 비슷한 수준까지 간다.
다만 큰 k(pass@8 이상, 특히 더 큰 k) 에서는 여전히 RLVR(GRPO)가 더 강한 경우가 많다.

왜 이 논문이 흥미로운가

최근 reasoning LLM 학습은 보통 정답 검증이 가능한 문제에서 RLVR 을 쓰는 흐름이 강하다.
이 논문은 여기에 대해 질문을 던진다.

정말 보상이 꼭 필요할까?
모델이 이미 알고 있는 더 나은 추론 경로를 스스로 더 자주 밟게 만들기만 해도 충분하지 않을까?

이 질문에 대한 논문의 답이 OSFT 다.

Figure 1 - 문제의식과 메인 결과

(원문 Figure 1, p.1)

해석 포인트

왼쪽은 base model의 성능이 evaluation temperature에 매우 민감하다는 점을 보여준다.
pass@1은 낮은 temperature에서 최고점이 나오고, pass@8은 중간 temperature에서 더 좋아진다.
즉, 모델 안에 이미 꽤 괜찮은 선호(preference)가 있는데, 그것을 좀 더 확신 있게 밀어주는 방식이 유효할 수 있다는 동기가 나온다.
오른쪽은 실제로 OSFT가 평균 성능에서 GRPO와 비슷한 수준까지 올라간다는 메인 메시지다.

논문이 여기서 강조하는 표현이 self-weak-to-strong 이다.
모델이 외부 reward 없이도, 자기 자신의 샘플을 다시 학습하면서 base model보다 더 좋아진다는 의미다.

OSFT가 정확히 무엇인가

논문의 OSFT는 아주 단순하다.

데이터셋에서 질문 배치를 뽑는다.
현재 모델이 그 질문에 대해 낮은 temperature 로 답을 생성한다.
그 자기 생성 답변 (q, o) 를 바로 SFT 데이터로 사용한다.
이 과정을 반복한다.

즉, self-generated data로 online SFT 를 계속하는 구조다.

논문이 제시한 OSFT loss

L_OSFT = - E_{q ~ D, o ~ π_old(·|q; τ_s)} [ log π_θ(o | q; τ_t) ]

여기서 핵심은 temperature를 분리하는 것이다.

τ_s: 샘플 생성용 temperature
τ_t: 학습용 temperature

논문 기본 설정은 대체로 다음과 같다.

Qwen math 모델: τ_s = 0.6
일반 base model: τ_s = 0.9
학습 temperature: τ_t = 1.0

즉, 생성은 조금 더 확신 있게, 학습은 기본 분포 기준으로 한다.

Figure 13 - OSFT workflow

(원문 Figure 13, p.20)

이 그림 하나로 OSFT 전체를 거의 다 설명할 수 있다.

입력 질문 배치를 고른다.
현재 모델이 답을 만든다.
그 답을 다시 데이터로 삼아 SFT를 한다.
다시 같은 루프를 돈다.

복잡한 reward model, verifier-based advantage, policy ratio 같은 RL 파이프라인 없이
"생성 -> 즉시 SFT" 만으로 reasoning을 끌어올린다는 점이 이 논문의 가장 큰 장점이다.

왜 이 방식이 먹히는가 - "latent preference를 강화한다"

논문이 가장 흥미롭게 보는 메커니즘은 다음이다.

OSFT는 모델에게 새로운 사실을 주입한다기보다,
pretraining 단계에서 이미 형성된 더 나은 경로에 대한 기존 선호를 강화한다.

이 해석을 가장 잘 보여주는 그림이 Figure 2다.

Figure 2 - 더 나은 경로는 원래 모델 안에 있었고, OSFT가 그 격차를 벌린다

(원문 Figure 2, p.2)

이 그림은 base model과 OSFT model이 같은 문제를 풀 때의 경로 확률을 비교한다.

핵심 메시지

base model도 사실은 더 나은 prefix와 suffix에 더 높은 확률을 일부 부여하고 있었다.
그런데 sampling 과정에서 조금 덜 좋은 경로를 밟아버릴 수 있다.
OSFT 이후에는 정답 경로와 오답 경로의 확률 격차가 크게 벌어진다.
그래서 모델이 이미 알고 있던 더 나은 reasoning path를 더 안정적으로 따라가게 된다.

논문 표현을 빌리면, OSFT는 기존 preference의 margin을 넓힌다.
이 점에서 논문은 DPO 같은 contrastive alignment와 닮은 면도 언급한다.

temperature decoupling이 왜 중요한가

이 논문은 단순히 "self-generated SFT도 된다"에서 멈추지 않고,
왜 τ_s < τ_t 이어야 하는가를 이론적으로도 설명한다.

논문의 주장

τ_s = τ_t 인 coupled setting 에서는 기대 gradient가 방향성이 사라진다.
τ_s > τ_t 이면 샘플이 더 랜덤해져서 오히려 품질이 나빠질 수 있다.
τ_s < τ_t 이면 샘플 분포가 더 뾰족(sharper)해져서
모델이 기존에 더 선호하던 토큰/경로를 더 강하게 밀어주게 된다.

쉽게 말하면,
생성 단계에서 약간 더 확신 있는 답을 뽑고, 그 답을 기준으로 표준적인 학습을 걸면 모델의 기존 선호가 강화된다는 이야기다.

Figure 7 - decoupled setting이 실제로 중요하다

(원문 Figure 7, p.9)

이 그림은 temperature ablation의 핵심이다.

봐야 할 포인트

실선은 decoupled (τ_t = 1.0)
점선은 coupled (τ_t = τ_s)

논문 결과상 coupled temperature는 거의 의미 있는 개선을 못 만든다.
반대로 τ_s < τ_t = 1 설정에서는 일관된 개선이 나타난다.

이건 OSFT를 그냥 "self-distillation의 한 변형" 정도로 보면 놓치기 쉬운 포인트다.
이 논문에서는 temperature 분리 자체가 방법론의 핵심이다.

실험 세팅 요약

논문에서 중요한 실험 조건만 뽑아보면 다음과 같다.

학습 질문셋: DeepScaleR
평가 벤치마크: Math500, AMC, OlympiadBench, Minerva, AIME24, AIME25
비교 대상: RLVR (GRPO), 그리고 일부 ablation에서는 DAPO, Dr. GRPO
기본 평가 temperature: τ_eval = 1
OSFT rollout 수: G = 1
GRPO rollout 수: G = 8
KL regularizer: 모든 방법에서 꺼서 core learning algorithm만 비교

이 마지막 조건은 중요하다.
즉, 이 논문은 OSFT vs RLVR의 순수한 학습 다이내믹을 비교하려고 세팅을 최대한 맞춰둔 편이다.

메인 결과 - OSFT는 어디까지 올라가나

논문의 가장 중요한 정량 메시지는 다음 두 문장으로 요약할 수 있다.

OSFT는 base model보다 확실히 좋아진다.
OSFT는 GRPO와 꽤 비슷한 수준까지 간다.

특히 Qwen2.5-Math-7B 기준으로 Table 1의 평균값을 요약하면:

Qwen2.5-Math-7B 평균 (논문 Table 1)	Base	RLVR (GRPO)	OSFT
Average pass@1	12.43	33.45	35.97
Average pass@8	41.47	57.65	55.61
Rollouts per prompt `G`	-	8	1

이 표를 어떻게 읽으면 좋은가

pass@1 평균은 OSFT가 오히려 더 높다.
pass@8 평균은 GRPO가 조금 더 높다.
그런데 OSFT는 기본 rollout 수가 1 이다.
즉, 논문은 훨씬 단순하고 가벼운 학습으로도 꽤 비슷한 추론 성능을 낼 수 있다고 말한다.

다만 이 결과를 과장하면 안 된다.
논문도 분명히 적고 있듯이, k > 8로 갈수록 GRPO가 앞서는 구간이 많다.
즉, 탐색(exploration)까지 완전히 대체했다기보다, single-shot 또는 small-k 추론 강화에 특히 강하다고 보는 편이 정확하다.

Figure 4 - math 특화 모델(Qwen2.5-Math)에서는 거의 정면 대결이 된다

(원문 Figure 4, p.8)

이 그림은 Qwen2.5-Math 1.5B와 7B에서 OSFT와 GRPO를 비교한다.

읽는 포인트

1.5B와 7B 모두에서 OSFT가 꾸준히 GRPO 근처를 따라간다.
점선 horizontal line은 temperature sweep으로 찾은 base model 최고점인데,
OSFT와 GRPO 모두 이 선을 넘어가는 경우가 많다.
즉, 단순히 디코딩 temperature만 잘 고르는 수준이 아니라,
모델 자체가 더 좋아졌다고 볼 여지가 있다.

Figure 5 - 일반 목적 base model에서도 통한다

(원문 Figure 5, p.8)

이건 꽤 중요한 결과다.
OSFT가 math-specialized model에서만 먹히는 편법인지, 아니면 좀 더 일반적인 현상인지를 보는 그림이다.

논문 결과상:

Qwen2.5-7B 같은 일반 목적 base model 에서도
OSFT가 GRPO와 매우 비슷한 추세를 보인다.
특히 Math500, Olympiad, Minerva에서는
base model best line을 넘는 개선이 비교적 분명하다.

즉, 논문의 주장 범위 안에서는
OSFT가 math 전용 모델에만 국한된 현상은 아니다라고 볼 수 있다.

Figure 3 - OSFT와 RLVR 둘 다 "certainty"를 올린다

(원문 Figure 3, p.7)

논문은 certainty를 보기 위해 benchmark별 perplexity(PPL) 도 측정한다.

해석은 간단하다.

PPL이 낮아질수록, 모델이 그 분포에 대해 더 확신 있게 출력한다.
OSFT는 물론이고 GRPO와 그 변형들 역시 PPL을 낮춘다.
그래서 논문은 RLVR의 개선도 일부는 certainty 강화와 관련 있을 수 있다고 본다.

여기서 논문이 던지는 더 큰 질문은 이거다.

RLVR의 이득 중 일부는 "reward 때문"이라기보다
모델의 내부 선호를 더 날카롭게 만들어 주는 효과 때문이 아닐까?

논문은 이 질문을 끝까지 증명하진 않지만,
적어도 OSFT와 RLVR이 비슷한 출력 분포적 성질을 보인다는 증거는 제시한다.

Ablation 1 - rollout을 늘리면 pass@1은 더 좋아진다

(원문 Figure 8, p.9)

OSFT 기본 설정은 G = 1 이지만, 논문은 G = 4 도 본다.

결론

G = 4 는 대체로 pass@1을 더 올린다.
하지만 pass@8은 거의 비슷하다.
논문은 효율성을 강조하기 위해 기본 비교에서는 G=1 을 유지한다.

즉, OSFT는

가볍게 돌리면 매우 효율적이고
더 많은 self-samples를 쓰면 pass@1 쪽으로 추가 이득이 있는 구조다.

Ablation 2 - 평가 temperature를 어떻게 두느냐에 따라 pass@1 / pass@8 성격이 다르다

(원문 Figure 9, p.10)

논문은 τ_eval ∈ {0.1, 0.3, 0.6, 1} 에 대해 ablation을 한다.

핵심은 Figure 1과 닿아 있다.

pass@1은 낮은 temperature에서 더 좋아지는 경우가 많다.
pass@8은 더 높은 temperature에서 이득을 볼 수 있다.
OSFT와 GRPO가 temperature에 따라 매우 유사한 변화 패턴을 보인다.

이건 중요하다.
왜냐하면 두 방법은 학습 원리가 꽤 다르지만, 최종 모델의 출력 분포 특성은 꽤 비슷하게 수렴한다는 뜻이기 때문이다.

논문이 남기는 가장 중요한 메시지

이 논문을 한 문장으로 요약하면:

Reward가 없어도, 모델 내부에 이미 잠재적으로 있는 더 나은 추론 경로를 강화하는 것만으로 reasoning이 꽤 올라갈 수 있다.

조금 더 풀어쓰면 이렇다.

RLVR은 분명 강력하다.
하지만 reasoning 개선의 전부가 reward-driven discovery는 아닐 수 있다.
모델이 원래 가지고 있던 latent preference / latent knowledge 를
더 안정적으로 꺼내게 만드는 것만으로도 꽤 큰 폭의 개선이 생길 수 있다.
OSFT는 이 지점을 아주 단순한 방식으로 찌른다.

이 논문을 읽을 때 주의할 점

1) 여전히 math reasoning 중심이다

주요 검증은 수학 벤치마크에 집중되어 있다.
즉, 모든 reasoning 영역에서 RL을 대체한다고 읽으면 과하다.

2) strong base model이 중요하다

논문 부록의 Llama3.1-8B-Instruct 결과를 보면,
OSFT와 GRPO의 차이는 크지 않지만 전체적인 향상 폭도 Qwen 계열보다 작다.
즉, base model의 기반 능력 자체가 중요하다.

3) large-k 탐색은 RLVR이 더 강한 면이 있다

OSFT는 특히 small-k / pass@1 쪽에서 인상적이다.
반면 큰 k에서의 exploration 성능은 여전히 RLVR이 더 나은 경우가 많다.

4) 평가는 verifier, decoding, seed에 민감하다

논문 부록 F에서도 강조하듯, 최종 점수는

verifier 로직
sampling parameter
seed
tensor parallelism
GPU architecture

등에 영향을 받는다.
즉, 수치 비교는 세팅까지 같이 봐야 한다.

5) 아직 preprint다

논문은 흥미롭고 결과도 강하지만, 현재 기준으로는 preprint 이다.
후속 재현과 추가 검증을 같이 보는 게 안전하다.

강조 문장

짧은 결론 버전

OSFT는 "모델이 스스로 만든 답을 다시 자기 자신에게 가르치는" 방식의 온라인 SFT다. 놀라운 점은 이 단순한 방법이 reward 없이도 GRPO에 근접한 reasoning 성능을 낸다는 것이다. 핵심은 모델이 이미 알고 있던 더 나은 reasoning path를 더 일관되게 선택하도록 만든다는 점이다.

조금 더 분석적인 결론 버전

이 논문은 reasoning 성능 향상이 꼭 reward-driven RL에서만 나오는 것이 아니라, pretraining 단계에서 형성된 latent preference를 sharpen하는 것만으로도 상당 부분 설명될 수 있음을 보여준다. OSFT는 바로 그 가설을 가장 단순한 형태로 구현한 방법이라고 볼 수 있다.

개인적으로 이 논문의 포인트를 한 문장으로 정리하면

"RL이 reasoning을 만드는 것인지, 아니면 이미 있는 reasoning을 더 잘 끌어내는 것인지"에 대한 아주 좋은 반론/보완 논문이다.

참고

Li et al., Online SFT for LLM Reasoning: Surprising Effectiveness of Self-Tuning Without Rewards, arXiv:2510.18814v1, 2025.
본 문서의 figure는 원문 PDF에서 핵심 시각 정보가 잘 보이도록 crop한 이미지다.

'AI 생성 글 정리 > agent' 카테고리의 다른 글

Multi-agent Architecture Search via Agentic Supernet 정리 (0)	2026.04.07
A-RAG: 계층형 검색 인터페이스로 확장되는 Agentic RAG (0)	2026.04.07
ChatDev 논문 정리 (0)	2026.04.06
LongRAG 논문 정리 (0)	2026.04.06
Flow Matching for Generative Modeling — 핵심 정리 (0)	2026.04.06

Honbul과 컴퓨터

Online SFT for LLM Reasoning - 보상 없이도 되는 Self-Tuning 정리

한 줄 요약

먼저 핵심만 5줄로

왜 이 논문이 흥미로운가

Figure 1 - 문제의식과 메인 결과