한 줄 요약
STaR는 소수의 풀이 예시와 정답만 있는 대규모 데이터를 이용해, 언어 모델이 스스로 풀이 과정을 만들고 그중 성공한 풀이를 다시 학습하는 방법이다.
핵심은 단순하다.
- 먼저 모델이 문제를 풀며 풀이 과정을 생성한다.
- 정답을 맞힌 풀이만 학습 데이터로 남긴다.
- 틀린 문제는 정답을 힌트로 주고, 그 정답을 설명하는 풀이를 다시 만들게 한다.
- 이렇게 모은 풀이 데이터로 모델을 미세조정한다.
- 이 과정을 반복한다.
논문은 이 반복 루프가 산술, 상식 추론, 초등 수학 문장제에서 성능을 끌어올린다는 점을 보인다.

Crop 포인트: 오답이 나온 경우에도 정답 힌트를 통해 다시 풀이를 만들고, 그 풀이가 다음 학습 데이터로 들어가는 아래쪽 루프가 STaR의 핵심입니다.
문제의식
Chain-of-Thought처럼 중간 추론 과정을 쓰게 하면 언어 모델의 성능이 좋아진다.
하지만 기존 방식에는 한계가 있었다.
1. 사람이 풀이 데이터를 직접 만들면 비싸다
수천, 수만 개의 문제에 대해 사람이 풀이를 작성해야 한다.
도메인이 바뀌면 다시 만들어야 한다.
2. few-shot 프롬프트만 쓰면 성능이 제한된다
몇 개의 풀이 예시를 프롬프트에 넣으면 도움이 된다.
하지만 대규모 데이터로 직접 정답을 학습한 모델보다 낮은 경우가 많다.
3. 템플릿 기반 풀이는 범용성이 낮다
산술처럼 규칙이 명확한 문제에는 템플릿을 만들 수 있다.
상식 추론처럼 답이 문맥에 따라 달라지는 문제에는 적용하기 어렵다.
STaR는 이 세 문제 사이의 절충안을 제시한다.
풀이를 사람이 대량으로 만들지 않는다.
대신 모델이 스스로 만들게 한다.
STaR의 기본 아이디어
STaR는 Self-Taught Reasoner의 약자다.
이름 그대로 “스스로 학습하는 추론기”를 목표로 한다.
필요한 입력은 두 가지다.
- 정답이 있는 문제 데이터셋
- 아주 적은 수의 풀이 예시
처음에는 모델이 약하다.
그래도 몇몇 문제는 맞힐 수 있다.
STaR는 바로 그 맞힌 문제를 이용한다.
반복 과정
- 문제를 보여주고 풀이와 답을 생성하게 한다.
- 최종 답이 정답과 같으면 그 풀이를 채택한다.
- 틀린 문제는 정답을 힌트로 주고 풀이를 다시 생성하게 한다.
- 힌트를 보고 만든 풀이도 최종 답이 맞으면 채택한다.
- 채택된 풀이들로 원래 모델을 다시 미세조정한다.
- 개선된 모델로 같은 과정을 반복한다.
여기서 중요한 점이 있다.
모델을 계속 이어서 학습하지 않는다.
각 반복마다 원래 사전학습 모델에서 다시 출발해, 새로 수집한 풀이 데이터로 미세조정한다.
이렇게 하면 한 반복에서 생긴 오류나 과적합이 다음 반복으로 그대로 누적되는 위험을 줄일 수 있다.
수식 없이 이해하는 학습 원리
논문은 STaR를 강화학습과 비슷한 관점으로 설명한다.
직관은 다음과 같다.
모델은 문제를 보고 두 가지를 만든다.
- 풀이 과정
- 최종 답
정답을 맞히면 그 풀이 경로는 “좋은 행동”으로 본다.
틀리면 버린다.
즉, 정답 여부가 보상 역할을 한다.
다만 STaR는 복잡한 강화학습 알고리즘을 쓰지 않는다.
대신 정답을 만든 풀이만 모아 지도학습 데이터로 바꾸는 방식을 쓴다.
이 덕분에 구현이 단순하다.
기존 언어 모델 미세조정 파이프라인으로도 적용할 수 있다.
Rationalization: 틀린 문제도 버리지 않는 장치
단순히 “맞힌 풀이만 학습”하면 문제가 생긴다.
모델이 이미 맞힐 수 있는 문제만 계속 학습한다.
어려운 문제는 계속 데이터에서 빠진다.
그래서 논문은 rationalization을 추가한다.
한국어로 풀면 “정답을 보고 그 정답이 왜 맞는지 설명하게 하는 과정”이다.
모델이 문제를 틀렸을 때, 정답을 힌트로 준다.
그다음 모델이 그 정답을 뒷받침하는 풀이를 만든다.

Crop 포인트: 정답 선택지에 표시된 힌트가 모델에게 거꾸로 reasoning을 구성할 출발점을 제공한다는 점이 중요합니다.
이 방식에는 두 가지 효과가 있다.
- 틀린 문제에서도 학습 신호를 얻을 수 있다.
- 모델이 아직 직접 풀지 못한 난이도의 문제를 학습 데이터에 포함할 수 있다.
다만 위험도 있다.
모델이 실제로 이해한 것이 아니라, 정답에 맞춰 그럴듯한 설명을 꾸밀 수 있다.
따라서 STaR의 rationale은 “성능 향상에 도움이 되는 중간 산출물”이지, 항상 모델 내부 사고를 충실히 보여주는 증거는 아니다.
실험 설정
논문은 GPT-J를 기본 모델로 사용했다.
GPT-J는 60억 개 파라미터를 가진 공개 언어 모델이다.
평가한 과제는 세 가지다.
| 과제 | 목적 | 특징 |
|---|---|---|
| 산술 덧셈 | 여러 자리 숫자 덧셈 | 중간 계산 과정이 명확함 |
| CommonsenseQA | 5지선다 상식 추론 | 정답은 있으나 풀이 품질 평가는 어려움 |
| GSM8K | 초등 수학 문장제 | 언어 이해와 계산이 함께 필요함 |
산술 실험: 작은 성공을 반복해 더 긴 계산으로 확장
산술 과제는 두 숫자를 더하는 문제다.
모델은 단순히 답만 내지 않는다.
각 자리의 덧셈과 올림 처리를 단계적으로 적는다.

Crop 포인트: 각 줄이 자리별 계산과 올림 정보를 담고 있어, 모델이 최종 답을 바로 외우는 대신 절차를 따라가도록 유도합니다.
결과는 rationalization의 효과를 잘 보여준다.
rationalization 없이도 성능은 오른다.
하지만 긴 자리수 문제는 이전 단계가 충분히 좋아진 뒤에야 늦게 개선된다.
반면 rationalization을 쓰면 여러 자리수에서 동시에 더 빠르게 좋아진다.

Crop 포인트: 오른쪽 그래프에서는 rationalization을 쓴 모델이 초반부터 여러 자리수 덧셈에서 함께 상승하는 패턴을 보입니다.
주요 결과는 다음과 같다.
- STaR는 16회 반복 후 전체 산술 정확도 89.5%를 기록했다.
- 정답만 직접 학습한 기준 모델은 76.3%였다.
- rationalization을 사용하면 2자리 덧셈 성능이 첫 미세조정 이후 1% 미만에서 32%까지 올랐다.
논문은 더 긴 자리수로 확장하는 실험도 수행했다.
초기에는 1자리부터 5자리까지 학습했다.
나중에 더 긴 자리수 문제를 추가했다.
그 결과, 학습 중 보지 않은 9자리와 10자리 덧셈도 일부 해결했다.

Crop 포인트: 학습 후반에 추가된 긴 자리수 곡선들이 완전히 0에 머물지 않고 상승한다는 점이 절차 학습의 확장 가능성을 보여줍니다.
CommonsenseQA: 상식 추론에서도 효과가 있는가
CommonsenseQA는 5지선다 상식 추론 데이터셋이다.
이 과제는 산술보다 어렵다.
이유는 두 가지다.
첫째, 운으로 맞힐 확률이 있다.
5지선다이므로 무작위로도 약 20%는 맞는다.
둘째, 정답을 맞혔다고 해서 풀이가 좋은 것은 아니다.
잘못된 이유로 우연히 정답을 고를 수 있다.
그럼에도 STaR는 강한 성능 향상을 보였다.
| 모델 | CommonsenseQA 개발 세트 정확도 | 학습 데이터 사용량 |
|---|---|---|
| Few-shot Direct GPT-J | 20.9% | 거의 없음 |
| Few-shot CoT GPT-J | 36.6% | 거의 없음 |
| GPT-J Direct Finetuned | 60.0% | 100% |
| STaR without rationalization | 68.8% | 69.7% |
| STaR with rationalization | 72.5% | 86.7% |
| GPT-3 Direct Finetuned | 73.0% | 100% |
가장 중요한 비교는 GPT-J Direct Finetuned와 STaR다.
정답만 직접 학습한 GPT-J는 60.0%였다.
STaR는 rationalization 없이도 68.8%를 기록했다.
rationalization을 추가하면 72.5%까지 상승했다.
이는 논문에서 비교한 30배 큰 GPT-3 직접 미세조정 모델의 73.0%와 비슷한 수준이다.
풀이 품질: 정답뿐 아니라 설명도 나아지는가
논문은 CommonsenseQA에서 사례 분석도 제시한다.
STaR 학습 후 모델은 이전에 틀렸던 문제를 맞히기도 했다.
또, 이미 맞혔던 문제에서도 더 자연스럽고 설득력 있는 풀이를 생성했다.

Crop 포인트: 취소선 처리된 초기 풀이와 그 아래 개선된 풀이의 대비가 STaR 반복 학습의 질적 변화를 보여줍니다.
논문은 사람 평가도 수행했다.
같은 문제를 맞힌 경우에 대해, 사람들에게 여러 풀이를 비교하게 했다.
결과는 다음과 같다.
- STaR 풀이가 few-shot 풀이보다 더 높은 순위를 받을 가능성이 30% 높았다.
- STaR 풀이가 기존 인간 작성 풀이보다 선호될 가능성도 74% 높았다.
하지만 저자들은 이를 “인간 수준 설명 능력”으로 해석하지 않는다.
오히려 좋은 rationale을 수집하고 평가하는 일이 어렵다는 증거로 본다.
GSM8K: 수학 문장제에서는 더 어려웠다
GSM8K는 초등 수학 문장제 데이터셋이다.
산술처럼 계산 절차가 필요하다.
동시에 문제 문장을 이해해야 한다.
STaR는 여기서도 기준 모델보다 나아졌다.
| 모델 | GSM8K 테스트 정확도 | 학습 데이터 사용량 |
|---|---|---|
| Few-shot Direct GPT-J | 3.0% | 거의 없음 |
| Few-shot CoT GPT-J | 3.1% | 거의 없음 |
| GPT-J Direct Finetuned | 5.8% | 100% |
| STaR without rationalization | 10.1% | 25.0% |
| STaR with rationalization | 10.7% | 28.7% |
절대 성능은 높지 않다.
하지만 직접 정답만 학습한 기준보다 거의 두 배 개선됐다.
흥미로운 점은 rationalization의 추가 이득이 크지 않았다는 것이다.
이 과제에서는 정답을 보고 풀이를 만드는 것만으로는 충분한 일반화가 일어나지 않았을 가능성이 있다.
논문은 모델이 생성한 계산 단계 수와 인간 풀이의 계산 단계 수를 비교했다.
대부분은 비슷했지만, 모델은 종종 더 짧은 풀이를 만들었다.

Crop 포인트: 밝은 영역이 대각선 근처에 모여 있어, 모델의 풀이 길이가 인간 풀이 길이와 대체로 맞아떨어진다는 점을 보여줍니다.
때로는 모델이 실제로 더 간단한 풀이를 찾았다.
다음 예시는 전체 병 수의 절반만 바로 계산하면 되는 문제다.
인간 풀이 데이터는 세부 유형별 병 수를 모두 계산한다.
STaR 모델은 불필요한 중간 정보를 건너뛰고 바로 답에 도달했다.

Crop 포인트: 오른쪽 STaR 풀이가 왼쪽 인간 풀이보다 훨씬 짧지만 같은 답에 도달한다는 점이 핵심입니다.
왜 잘 작동하는가
STaR의 강점은 “정답만 있는 데이터”를 “풀이가 있는 데이터”로 바꾸는 데 있다.
언어 모델은 이미 약간의 추론 능력을 갖고 있다.
STaR는 그 약한 능력을 증폭한다.
작동 원리는 다음처럼 볼 수 있다.
- 모델이 맞힌 풀이를 찾는다.
- 맞힌 풀이를 다시 학습한다.
- 모델이 더 많은 문제를 맞힌다.
- 더 많은 풀이 데이터가 생긴다.
- 다시 학습한다.
이 과정은 자기 학습과 비슷하다.
다만 일반적인 자기 학습과 달리, STaR는 최종 답뿐 아니라 풀이 과정 자체를 학습 대상으로 삼는다.
한계와 주의점
1. 초기 모델이 너무 약하면 시작이 어렵다
첫 반복에서 어느 정도는 문제를 맞혀야 한다.
논문은 GPT-2가 산술 영역에서도 충분히 부트스트랩되지 않았다고 보고한다.
즉, STaR는 “무에서 유”를 만드는 방식이 아니다.
이미 있는 약한 추론 능력을 키우는 방식이다.
2. 운으로 맞힌 답이 나쁜 풀이를 통과시킬 수 있다
CommonsenseQA처럼 선택지가 적은 과제에서는 우연히 정답을 맞힐 수 있다.
이 경우 잘못된 rationale이 학습 데이터에 들어갈 수 있다.
이는 STaR의 핵심 위험이다.
3. Rationalization은 편향을 증폭할 수 있다
정답 힌트를 주고 설명을 만들게 하면, 모델은 정답에 맞춰 그럴듯한 이유를 꾸밀 수 있다.
데이터셋의 편향이나 모델의 기존 편향이 정답 선택에 도움이 된다면, STaR가 이를 강화할 수 있다.
4. 설명의 충실성은 보장되지 않는다
STaR의 rationale은 모델 성능을 높이는 데 유용하다.
하지만 그 rationale이 모델 내부 의사결정을 그대로 반영한다고 말하기는 어렵다.
모델이 먼저 답을 고른 뒤, 사후적으로 설명을 생성했을 수도 있다.
5. 높은 샘플링 다양성이 항상 도움이 되지 않는다
논문은 온도를 높여 여러 풀이를 샘플링하는 방법을 실험했다.
결과는 좋지 않았다.
다양한 출력은 늘어나지만, 틀린 reasoning으로 우연히 정답을 맞히는 사례도 함께 늘었다.
이런 데이터는 일반화에 방해가 된다.
이 논문의 의미
STaR의 핵심 기여는 단순하다.
정답만 있는 데이터셋에서 rationale 데이터셋을 자동으로 키우는 방법을 제시했다.
이 방법은 다음 조건에서 특히 유용하다.
- 정답 검증은 가능하다.
- 풀이 작성 비용은 높다.
- 모델이 few-shot으로 약간의 추론은 할 수 있다.
- 최종 답보다 중간 reasoning을 학습시키고 싶다.
STaR는 이후 많은 자기 개선형 추론 기법의 초기 형태로 볼 수 있다.
특히 다음 흐름을 선명하게 보여준다.
모델이 만든 reasoning을 다시 모델 학습에 사용하면, reasoning 능력 자체를 점진적으로 끌어올릴 수 있다.
단, 이 과정은 무조건 안전하거나 충실한 설명을 보장하지 않는다.
좋은 필터링, 편향 점검, 설명의 신뢰성 평가가 함께 필요하다.
핵심 정리
- STaR는 소수의 rationale 예시로 대규모 rationale 학습 데이터를 만든다.
- 정답을 맞힌 생성 풀이만 채택해 미세조정한다.
- 틀린 문제는 정답 힌트를 주고 rationalization으로 다시 학습 신호를 만든다.
- 산술, CommonsenseQA, GSM8K에서 기준 모델보다 성능이 개선됐다.
- 특히 CommonsenseQA에서는 GPT-J 기반 STaR가 30배 큰 GPT-3 직접 미세조정 모델과 비슷한 수준까지 접근했다.
- 하지만 우연히 맞힌 나쁜 풀이, 편향 증폭, 설명 충실성 문제는 여전히 남는다.
Source
- Eric Zelikman, Yuhuai Wu, Jesse Mu, Noah D. Goodman. “STaR: Self-Taught Reasoner Bootstrapping Reasoning With Reasoning.” arXiv:2203.14465v2, 20 May 2022.
- Paper: https://arxiv.org/abs/2203.14465
- PDF: https://arxiv.org/pdf/2203.14465
'AI 생성 글 정리 > modeling' 카테고리의 다른 글
| DeepSeek-R1 논문 정리 (1) | 2026.04.21 |
|---|---|
| Training Language Models to Self-Correct via Reinforcement Learning 논문 정리 (0) | 2026.04.21 |
| Enabling Global, Human-Centered Explanations for LLMs: From Tokens to Interpretable Code and Test Generation 논문 정리 (0) | 2026.04.21 |
| The Sparsely-Gated Mixture-of-Experts Layer 논문 정리 (0) | 2026.04.21 |
| GShard 논문 정리 (1) | 2026.04.21 |