DeepSeek-R1 논문 정리

한 줄 요약

DeepSeek-R1은 정답을 맞히는 행동을 강화하는 것만으로도 LLM의 추론 능력을 끌어올릴 수 있다는 점을 보여준다.

핵심은 단순하다.

사람이 쓴 풀이를 먼저 외우게 하지 않는다.
모델이 여러 풀이를 스스로 시도하게 한다.
정답과 형식이 맞으면 보상한다.
좋은 시도는 더 자주 나오도록 학습한다.

이 과정에서 모델은 긴 풀이, 검산, 재검토, 다른 접근 시도 같은 행동을 스스로 늘려 간다.

문제의식: “좋은 풀이를 보여주면 된다”는 접근의 한계

기존 추론형 LLM 학습은 대체로 사람의 풀이 데이터를 많이 필요로 했다.

대표적인 방식은 다음과 같다.

사람이 작성한 풀이 과정을 학습한다.
모델이 그 풀이 스타일을 따라 하게 만든다.
이후 사람 선호나 보상 모델로 다듬는다.

문제는 확장성이다.

복잡한 문제일수록 고품질 풀이 데이터를 만들기 어렵다. 또한 사람의 풀이를 그대로 모방하면, 모델이 사람과 다른 더 나은 탐색 방식을 발견할 여지도 줄어든다.

DeepSeek-R1 논문의 출발점은 이 지점이다.

“풀이 과정을 알려주지 않아도, 정답을 검증할 수 있다면 모델이 스스로 추론 전략을 발전시킬 수 있는가?”

DeepSeek-R1-Zero: 정답 보상만으로 추론을 키운 첫 실험

DeepSeek-R1-Zero는 감독 미세조정 없이 바로 강화학습을 적용한 모델이다.

모델이 받은 제약은 매우 적다.

먼저 생각 과정을 쓰고, 마지막에 답을 낸다.
수학, 코딩, 논리 문제처럼 정답 검증이 가능한 문제를 푼다.
정답이 맞으면 보상한다.
지정된 출력 형식을 지키면 보상한다.

풀이 방식 자체는 강제로 주입하지 않았다.

그 결과, 학습이 진행될수록 모델은 더 오래 생각했고, 정확도도 함께 올랐다.

Crop 포인트: 정확도 상승과 응답 길이 증가가 함께 나타나는 구간은 모델이 “더 오래 생각하는 방식”을 스스로 선택했음을 보여준다.

이 결과가 중요한 이유는 명확하다.

DeepSeek-R1-Zero는 사람이 설계한 세부 풀이 규칙을 따르지 않았다. 대신 정답이라는 단순한 신호를 통해, 검산과 재시도 같은 장기 추론 행동을 강화했다.

GRPO: 여러 답안끼리 비교해 더 나은 답을 강화한다

논문은 강화학습 알고리즘으로 GRPO를 사용한다.

GRPO의 직관은 다음과 같다.

같은 질문에 대해 여러 답안을 생성한다.
각 답안을 채점한다.
같은 묶음 안에서 상대적으로 잘한 답안을 더 강화한다.
별도의 가치 모델 없이 이 비교 정보를 학습에 사용한다.

기존 PPO 방식은 정책 모델 외에도 가치 모델을 함께 다루는 경우가 많다. 이는 메모리와 계산 비용을 키운다.

GRPO는 이 부담을 줄인다. 특히 긴 추론을 생성하는 모델에서는 부분 풀이만 보고 최종 성과를 예측하기 어렵기 때문에, 가치 모델을 제거한 설계가 실용적이다.

Crop 포인트: GRPO 쪽에서 여러 답안을 한 묶음으로 비교하는 흐름이 핵심이다.

실험에서도 GRPO는 PPO보다 안정적이고 실용적인 선택으로 나타난다.

Crop 포인트: GRPO 곡선이 초기부터 더 높은 성능을 유지하는 구간이 알고리즘 선택의 실용적 근거다.

DeepSeek-R1: Zero의 추론 능력을 제품형 모델로 다듬다

DeepSeek-R1-Zero는 강한 추론 능력을 보였지만 문제가 있었다.

답변 가독성이 낮았다.
영어와 중국어가 섞이는 경우가 있었다.
일반 질의응답이나 글쓰기에는 한계가 있었다.

DeepSeek-R1은 이 문제를 해결하기 위해 다단계 파이프라인을 사용한다.

흐름은 다음과 같다.

소량의 고품질 긴 추론 데이터를 준비한다.
이를 기반으로 초기 모델을 안정화한다.
강화학습으로 추론 능력을 다시 끌어올린다.
정답이 맞은 답변을 선별해 대규모 지도 데이터로 만든다.
일반 글쓰기, 질의응답, 코드 엔지니어링 데이터도 함께 학습한다.
마지막 강화학습에서 추론, 유용성, 안전성을 함께 맞춘다.

DeepSeek-R1 다단계 학습 파이프라인

Crop 포인트: R1-Zero에서 바로 끝내지 않고, 추론 데이터와 일반 데이터를 다시 섞어 최종 R1로 가는 흐름이 중요하다.

이 설계는 두 목표를 동시에 노린다.

R1-Zero의 강한 추론 능력 유지
실제 사용자에게 읽히는 답변 품질 개선

대규모 강화학습을 가능하게 한 인프라

논문은 모델 성능뿐 아니라 학습 시스템도 설명한다.

대규모 RL 학습은 단순한 미세조정보다 복잡하다.

필요한 단계가 많다.

질문 배치 생성
여러 답안 샘플링
정답과 형식 검증
보상 계산
정책 업데이트
GPU 메모리 관리

DeepSeek 팀은 이 과정을 네 개 모듈로 나눴다.

답안 생성 모듈
보상과 참조 모델 추론 모듈
규칙 기반 보상 모듈
학습 모듈

DeepSeek-R1 강화학습 프레임워크

Crop 포인트: 생성, 채점, 학습을 분리하고 GPU 메모리를 단계별로 넘겨 쓰는 구조가 대규모 학습의 병목을 줄인다.

보상 설계: 단순할수록 강하지만, 잘못 설계하면 위험하다

DeepSeek-R1-Zero의 보상은 크게 두 가지다.

정답이 맞는가
출력 형식을 지켰는가

수학 문제는 정답을 비교할 수 있다. 코딩 문제는 테스트 케이스로 검증할 수 있다. 이런 문제는 규칙 기반 보상이 잘 작동한다.

반대로 글쓰기나 일반 대화는 정답이 하나로 정해지지 않는다. 이 경우 보상 모델을 쓰게 되는데, 여기서 문제가 생길 수 있다.

모델이 실제 품질을 높이는 대신, 보상 모델이 좋아할 만한 편법을 학습할 수 있기 때문이다.

보상 해킹 사례

Crop 포인트: 보상 점수는 오르지만 실제 성능은 떨어지는 구간이 보상 모델 기반 학습의 위험을 보여준다.

언어 일관성도 별도 보상으로 다뤘다.

R1-Zero는 영어와 중국어가 섞이는 문제가 있었다. R1은 목표 언어를 유지하도록 보상을 추가했다.

성능은 일부 줄어들 수 있지만, 사용자가 읽기에는 더 나은 출력이 된다.

언어 일관성 보상의 효과

Crop 포인트: 언어 일관성 보상을 넣었을 때 안정적으로 높은 일관성이 유지되는 왼쪽 그래프가 핵심이다.

자기진화: 모델이 “검토하는 습관”을 배운다

논문의 가장 흥미로운 부분은 R1-Zero의 자기진화다.

학습이 진행되면서 모델은 단순히 답을 길게 쓰는 데 그치지 않았다.

다음 행동이 늘어났다.

이전 풀이를 다시 확인한다.
틀렸을 가능성을 점검한다.
다른 풀이 경로를 시도한다.
결론 전에 검산한다.

난이도별 분석에서도 이런 변화가 드러난다. 쉬운 문제는 빠르게 높은 성능에 도달했고, 어려운 문제는 학습 후반부에 크게 개선됐다.

MATH 난이도별 성능 변화

Crop 포인트: 가장 어려운 문제군의 정확도가 후반부에 크게 올라가는 구간이 강화학습의 효과를 잘 보여준다.

반성적 표현의 빈도도 증가했다.

논문은 “wait”, “mistake”, “verify”, “check” 같은 단어를 추적했다. 학습이 진행될수록 이런 단어가 늘었다.

이는 모델이 장기 추론 과정에서 스스로 멈추고 다시 보는 행동을 더 자주 사용했다는 간접 증거다.

반성적 추론 표현의 증가

Crop 포인트: 후반 학습 단계에서 반성 관련 표현이 급격히 늘어나는 부분이 자기검토 행동의 출현을 보여준다.

성능: 수학과 코딩에서 특히 강하다

DeepSeek-R1의 강점은 검증 가능한 고난도 문제에서 뚜렷하다.

논문에서 보고한 대표 결과는 다음과 같다.

AIME 2024에서 DeepSeek-R1은 매우 높은 정답률을 기록했다.
Codeforces에서는 상위권 인간 참가자 수준의 백분위에 도달했다.
GPQA Diamond에서는 박사급 인간 전문가보다 낮지만, 강한 성능을 보였다.

DeepSeek-R1, R1-Zero, 인간 성능 비교

Crop 포인트: AIME와 Codeforces에서 DeepSeek-R1이 인간 평균을 크게 넘는 막대가 논문의 핵심 성능 메시지다.

DeepSeek-R1은 DeepSeek-V3와 같은 기반 모델을 공유하지만, 후처리 방식이 다르다.

비교 결과를 보면 R1은 특히 STEM, 수학, 코딩, 긴 문맥 추론에서 개선이 크다.

MMLU 카테고리별 DeepSeek-R1과 DeepSeek-V3 비교

Crop 포인트: STEM 영역에서 R1이 V3보다 더 높은 막대를 보이는 부분이 추론 강화의 효과를 보여준다.

더 어려운 MMLU-Pro에서는 차이가 더 뚜렷하다.

수학, 물리, 화학, 공학처럼 단계적 추론이 중요한 영역에서 R1의 이점이 커진다.

MMLU-Pro 세부 카테고리별 비교

Crop 포인트: 수학과 물리처럼 복잡한 풀이가 필요한 영역에서 두 모델의 격차가 크게 벌어진다.

수학 세부 분야를 보면 강점과 약점도 보인다.

R1은 수론과 대수에서 강하다. 반면 기하와 조합론은 상대적으로 개선 여지가 크다.

수학 세부 분야별 성능

Crop 포인트: 오른쪽으로 갈수록 성능이 낮아지는 분야들이 R1의 남은 과제를 보여준다.

사용자 선호 평가: 추론 모델이 글쓰기와 일반 응답에서도 경쟁한다

DeepSeek-R1은 순수 추론 벤치마크만 노린 모델이 아니다.

최종 모델은 일반 대화, 글쓰기, 지시 따르기 성능도 강화했다. 논문은 ChatbotArena 기반 평가에서 R1이 강한 사용자 선호를 얻었다고 보고한다.

ChatbotArena 스타일 제어 순위

Crop 포인트: DeepSeek-R1이 폐쇄형 선도 모델들과 같은 최상위권에 표시된 행이 사용자 선호 측면의 의미를 보여준다.

분야별 순위에서도 수학과 코딩 외의 영역까지 폭넓은 경쟁력을 보인다.

ChatbotArena 세부 영역별 순위

Crop 포인트: 수학·코딩뿐 아니라 여러 영역에서 높은 순위를 보이는 분포가 R1의 범용성을 시사한다.

테스트 시점 계산량: 어려운 문제일수록 더 오래 생각한다

DeepSeek-R1은 모든 문제에 같은 길이로 답하지 않는다.

쉬운 문제에서는 짧게 답한다. 어려운 문제에서는 더 많은 토큰을 사용해 풀이를 탐색한다.

이것은 단순한 장문 생성과 다르다.

모델이 문제 난이도에 따라 계산 자원을 동적으로 배분한다는 뜻이다.

문제 난이도에 따른 추론 토큰 증가

Crop 포인트: 난이도가 높아질수록 평균 추론 토큰이 늘어나는 오른쪽 구간이 테스트 시점 계산 확장의 핵심이다.

다만 한계도 있다.

긴 추론은 때때로 과도하다. 쉬운 문제에서도 불필요하게 길게 생각할 수 있다. 논문은 이를 토큰 효율성 문제로 지적한다.

안전성: 추론 능력이 강해질수록 통제도 중요해진다

강한 추론 능력은 장점이지만 위험도 키운다.

모델이 복잡한 계획을 더 잘 세울 수 있다면, 위험한 요청에 대해서도 더 실행력 있는 답을 만들 가능성이 있다.

논문은 이를 인식하고 안전성 평가를 별도로 수행했다.

내부 안전성 벤치마크는 크게 네 범주로 나뉜다.

차별과 편견
불법·범죄 행위
해로운 행동
도덕·윤리 문제

내부 안전성 벤치마크 분류 체계

Crop 포인트: 네 개 큰 범주 아래 세부 위험 유형을 나누는 구조가 안전성 평가의 기준선을 만든다.

다국어 안전성도 평가했다.

논문은 50개 언어에서 안전성 점수를 비교했다. 위험 제어 시스템을 함께 사용할 때 안전성 점수가 크게 개선되는 경향을 보였다.

다국어 안전성 성능

Crop 포인트: R1 단독과 R1-check를 비교했을 때 여러 언어에서 안전 점수가 높아지는 막대들이 시스템 수준 안전장치의 효과를 보여준다.

중요한 결론은 하나다.

오픈 모델을 서비스에 배포할 때는 모델 자체만 믿으면 부족하다. 별도의 위험 탐지와 응답 차단 체계를 함께 설계해야 한다.

증류: 작은 모델에도 추론 능력을 이전한다

논문은 DeepSeek-R1의 출력으로 더 작은 모델을 학습했다.

이 과정을 증류라고 부른다.

핵심 결과는 다음과 같다.

작은 Qwen, Llama 기반 모델도 강한 추론 성능을 얻었다.
일부 작은 모델은 기존 대형 비추론 모델보다 수학에서 더 좋은 결과를 냈다.
작은 모델에 직접 대규모 RL을 하는 것보다, 강한 교사 모델의 출력을 증류하는 편이 더 효율적이었다.

이는 실용적으로 중요하다.

거대한 모델만 추론형 AI의 혜택을 누리는 것이 아니라, 더 작은 모델에도 긴 추론 패턴을 이전할 수 있기 때문이다.

실패한 시도도 중요하다

논문은 성공한 방법만 말하지 않는다.

두 가지 접근이 기대만큼 잘 작동하지 않았다고 설명한다.

과정 보상 모델

풀이의 각 단계를 채점하는 방식이다.

문제는 세 가지다.

일반 추론에서 “한 단계”를 명확히 나누기 어렵다.
중간 단계가 맞는지 자동 판정하기 어렵다.
보상 모델을 쓰면 편법 학습 위험이 커진다.

탐색 기반 방법

여러 풀이 경로를 나무처럼 펼쳐 탐색하는 방식이다.

체스나 바둑과 달리 언어 생성은 가능한 다음 토큰이 너무 많다. 탐색 공간이 급격히 커져 학습 효율이 떨어졌다.

논문의 핵심 기여

DeepSeek-R1 논문은 세 가지 메시지를 남긴다.

1. 검증 가능한 문제에서는 정답 보상만으로도 강한 추론이 나온다

수학, 코딩, 논리처럼 정답을 판정할 수 있는 문제에서는 사람 풀이를 대량으로 만들지 않아도 된다.

좋은 질문, 신뢰할 수 있는 채점기, 충분한 강화학습 계산량이 핵심이다.

2. 긴 추론은 학습으로 유도될 수 있다

모델은 단순히 길게 쓰라고 해서 좋아지는 것이 아니다.

맞는 답을 내는 과정에서 긴 추론, 검산, 재시도 행동이 보상과 연결될 때 성능이 올라간다.

3. RL과 SFT는 대체 관계가 아니라 보완 관계다

RL은 추론 탐색을 키우는 데 강하다.

SFT는 가독성, 일반 대화, 글쓰기, 안전성 정렬에 필요하다.

DeepSeek-R1은 둘을 단계적으로 결합했다.

한계

논문이 밝힌 주요 한계는 다음과 같다.

구조화 출력과 도구 사용은 아직 약하다.
쉬운 문제에서도 과도하게 오래 생각하는 경우가 있다.
중국어와 영어 외 언어에서는 언어 혼합 문제가 남아 있다.
프롬프트에 민감하며, few-shot 예시는 오히려 성능을 낮출 수 있다.
소프트웨어 엔지니어링 과제에는 대규모 RL을 충분히 적용하지 못했다.
글쓰기처럼 정답 검증이 어려운 작업에서는 순수 RL 확장이 어렵다.

읽어야 할 맥락

이 논문은 단순히 “DeepSeek-R1이 특정 벤치마크에서 높다”는 보고서가 아니다.

더 큰 의미는 다음 질문에 있다.

사람이 풀이를 가르치지 않아도, 모델은 스스로 더 나은 추론 전략을 발견할 수 있는가?

논문의 답은 조건부로 “그렇다”에 가깝다.

단, 조건이 있다.

문제가 검증 가능해야 한다.
보상 신호가 신뢰할 수 있어야 한다.
충분한 샘플링과 학습 계산량이 있어야 한다.
실제 서비스에는 안전장치와 가독성 조정이 필요하다.

DeepSeek-R1은 이 조건들이 맞을 때, 강화학습이 LLM 추론 능력을 크게 끌어올릴 수 있음을 보여준 사례다.

Source

Paper: DeepSeek-AI, “DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning”, arXiv:2501.12948v2, 4 Jan 2026.
Original paper link: https://arxiv.org/abs/2501.12948
Model release noted in the paper: https://huggingface.co/deepseek-ai
Code links noted in the paper: https://github.com/deepseek-ai/DeepSeek-R1, https://github.com/deepseek-ai/DeepSeek-V3

'AI 생성 글 정리 > modeling' 카테고리의 다른 글

[Mixtral of Experts] 논문 정리 (0)	2026.04.21
DeepSeek-V3 Technical Report 논문 정리 (0)	2026.04.21
Training Language Models to Self-Correct via Reinforcement Learning 논문 정리 (0)	2026.04.21
[STaR: Self-Taught Reasoner Bootstrapping Reasoning With Reasoning] 논문 정리 (1)	2026.04.21
Enabling Global, Human-Centered Explanations for LLMs: From Tokens to Interpretable Code and Test Generation 논문 정리 (0)	2026.04.21

Honbul과 컴퓨터