[Fast Quiet-STaR: Thinking Without Thought Tokens] 논문 정리

한 줄 요약

Fast Quiet-STaR는 추론 성능을 올리는 ‘생각 토큰’의 장점은 유지하면서, 추론 지연은 크게 줄이는 훈련 방법이다.

핵심은 단순하다.

처음에는 길게 생각하게 한다.
이후 점점 짧게 생각하게 만든다.
마지막에는 생각 토큰을 아예 출력하지 않아도 되게 만든다.

즉, 모델이 외부로 드러내던 사고 과정을 내부 표현으로 압축하도록 훈련한다.

왜 이 논문이 중요한가

대형 언어 모델은 더 큰 모델과 더 많은 데이터로 성능을 끌어올려 왔다.

하지만 복잡한 추론에서는 그것만으로 충분하지 않다.

최근 연구 흐름은 모델이 답을 내기 전에 “생각”하도록 만드는 방향으로 이동했다. Chain-of-Thought, o1 계열 모델, DeepSeek-R1 같은 접근이 여기에 속한다.

Quiet-STaR는 이 흐름을 더 세밀하게 밀어붙인다.

질문 단위가 아니라 토큰 단위로 생각하게 한다.

문제는 비용이다.

Quiet-STaR는 다음 토큰을 예측할 때마다 생각 토큰을 생성한다. 성능은 좋아지지만, 추론 시간이 크게 늘어난다.

Crop 포인트: NTP 위치의 Fast Quiet-STaR NTP 막대는 추가 추론 시간 없이 정확도가 올라가는 핵심 결과를 보여준다.

기존 Quiet-STaR의 병목

Quiet-STaR는 다음 토큰을 바로 예측하지 않는다.

먼저 짧은 내부 추론 문장을 만든다. 그다음 그 추론을 참고해 다음 토큰을 예측한다.

이 방식은 세 단계로 이해할 수 있다.

Think: 현재 위치에서 필요한 생각 토큰을 생성한다.
Talk: 생각 전 예측과 생각 후 예측을 섞는다.
Learn: 실제 다음 토큰 예측에 도움이 된 생각을 강화한다.

직관적으로는 모델에게 “말하기 전에 잠깐 생각하라”고 가르치는 방식이다.

다만 이 생각이 모든 토큰마다 반복된다.

그래서 긴 문장을 생성할수록 비용이 커진다.

Fast Quiet-STaR의 핵심 아이디어

논문은 하나의 가정에서 출발한다.

긴 사고 과정을 배운 모델이라면, 그 사고를 더 짧고 추상적인 형태로 압축할 수 있다.

이를 위해 저자들은 커리큘럼 러닝을 사용한다.

커리큘럼 러닝은 쉬운 과제에서 시작해 점점 어려운 과제로 옮겨가는 훈련 방식이다.

Fast Quiet-STaR에서는 “쉬움”과 “어려움”이 데이터 난이도가 아니라 생각 토큰 수로 정의된다.

많은 생각 토큰: 자세히 생각할 수 있어 쉬운 조건
적은 생각 토큰: 압축해서 생각해야 하므로 어려운 조건
생각 토큰 없음: 내부적으로만 추론해야 하는 가장 어려운 조건

Crop 포인트: 하단의 예시는 긴 풀이가 점점 짧은 풀이로 압축되면서도 정답을 유지하는 과정을 보여준다.

훈련 절차

Fast Quiet-STaR는 단계적으로 훈련된다.

1단계: 긴 생각으로 추론 패턴 학습

먼저 Quiet-STaR 방식으로 충분한 생각 토큰을 사용한다.

이 단계에서는 모델이 자세한 사고 경로를 만들 수 있다.

목표는 “생각하면 예측이 좋아진다”는 패턴을 학습하는 것이다.

2단계: 생각 토큰을 줄이며 압축 학습

그다음 생각 토큰 수를 줄인다.

모델은 같은 추론을 더 짧은 표현으로 수행해야 한다.

논문에서는 긴 설정에서 시작해 중간 설정을 거쳐 더 짧은 설정으로 이동한다.

이 과정이 Fast Quiet-STaR의 핵심이다.

3단계: 생각 토큰 없이 NTP로 전환

마지막에는 표준 다음 토큰 예측 방식으로 전환한다.

이 모델을 Fast Quiet-STaR NTP라고 부른다.

여기서는 추론 중에 별도 생각 토큰을 생성하지 않는다.

대신 이전 단계의 Fast Quiet-STaR가 보여준 예측 품질을 따라가도록 강화학습으로 미세 조정한다.

결과적으로 모델은 겉으로는 일반 언어 모델처럼 동작한다.

하지만 내부적으로는 압축된 추론 능력을 유지한다.

실험 설정

논문은 두 개의 7B급 모델에서 실험했다.

Mistral 7B
Qwen2.5 7B

평가는 네 개 벤치마크에서 진행했다.

PIQA
SIQA
CommonsenseQA
GSM8K

비교 대상은 세 가지다.

사전학습 모델
기존 Quiet-STaR
Fast Quiet-STaR 및 Fast Quiet-STaR NTP

주요 결과

가장 중요한 결과는 두 가지다.

첫째, 같은 추론 시간 조건에서 Fast Quiet-STaR가 Quiet-STaR보다 더 높은 정확도를 보인다.

둘째, Fast Quiet-STaR NTP는 생각 토큰을 생성하지 않는데도 사전학습 모델보다 크게 좋아진다.

Mistral 7B에서는 평균 정확도가 9.0%p 증가했다.

Qwen2.5 7B에서는 평균 정확도가 5.7%p 증가했다.

Crop 포인트: 파란색 Performance Δ 행은 Fast Quiet-STaR NTP가 사전학습 모델 대비 얼마나 개선됐는지를 직접 보여준다.

속도 관점의 의미

Quiet-STaR는 정확도를 올리지만 생성 지연이 크다.

반면 Fast Quiet-STaR NTP는 사전학습 모델과 같은 NTP 방식으로 동작한다.

따라서 추론 시간은 거의 동일하다.

논문에서는 256개 토큰 프롬프트에서 128개 토큰을 생성하는 조건을 비교했다.

사전학습 모델: 3.2초
Quiet-STaR 16-8: 52.7초
Fast Quiet-STaR NTP: 3.2초

성능은 Fast Quiet-STaR NTP가 사전학습 모델보다 높다.

또 Quiet-STaR 16-8보다 빠르면서도 평균 정확도는 더 높다.

Crop 포인트: 첫 번째 열의 3.2초와 52.7초 차이는 Fast Quiet-STaR NTP의 실질적인 배포 이점을 보여준다.

커리큘럼 러닝이 실제로 중요한가

논문은 반대 방향 훈련도 실험했다.

즉, 짧은 생각 토큰에서 시작해 긴 생각 토큰으로 이동하는 방식이다.

결과는 좋지 않았다.

어려운 조건에서 바로 시작하면 모델이 안정적인 추론 패턴을 얻지 못했다.

쉬운 조건에서 시작해 점점 압축하는 방식이 더 효과적이었다.

Crop 포인트: Fast Quiet-STaR 곡선이 역방향 훈련 곡선보다 위에 머무는 구간이 커리큘럼 방향의 중요성을 보여준다.

NTP 전환에는 어떤 초기 모델이 좋은가

Fast Quiet-STaR NTP를 만들 때도 초기화가 중요하다.

논문은 세 가지 출발점을 비교했다.

사전학습 모델
Quiet-STaR 16-8
Fast Quiet-STaR 8-4

가장 좋은 출발점은 Fast Quiet-STaR 8-4였다.

이 모델은 이미 짧고 정보성 있는 생각을 학습했기 때문이다.

긴 생각에 의존하는 모델보다 NTP로 전환하기 쉽다.

Crop 포인트: Fast Quiet-STaR 8-4로 초기화한 막대가 대부분의 태스크에서 가장 높은 성능을 보인다.

중간 단계를 건너뛰면 어떻게 되는가

저자들은 Quiet-STaR 16-8에서 바로 NTP로 전환하는 실험도 했다.

이 경우 평균 정확도는 Fast Quiet-STaR NTP보다 5.2%p 낮았다.

즉, “긴 생각 → 생각 없음”으로 바로 이동하면 성능 손실이 크다.

중간 압축 단계가 필요하다.

table3_ntp_curriculum_shortcut

Crop 포인트: 마지막 AVG 열의 +5.2는 중간 커리큘럼 단계를 거친 NTP 전환의 이득을 요약한다.

데이터가 더 많아서 좋아진 것은 아니다

Fast Quiet-STaR의 성능 향상이 단순히 더 오래 학습해서 생긴 것인지도 확인했다.

GSM8K에서 학습 단계별 정확도를 추적한 결과, 기존 Quiet-STaR는 일정 시점 이후 성능이 떨어졌다.

반면 Fast Quiet-STaR는 추가 단계가 많지 않아도 높은 성능을 유지했다.

저자들은 성능 향상의 원인이 데이터 노출량보다 점진적 압축 훈련 방식에 있다고 해석한다.

Crop 포인트: Fast Quiet-STaR 8-4 곡선이 후반에도 높은 수준을 유지하는 부분이 데이터 효율성을 보여준다.

Chain-of-Thought와의 관계

Fast Quiet-STaR NTP는 Chain-of-Thought를 대체하는 방식이 아니다.

오히려 함께 사용할 수 있다.

GSM8K에서 CoT와 다수결 샘플링을 적용했을 때도 Fast Quiet-STaR NTP가 사전학습 모델보다 높았다.

다수결 샘플 수가 늘어날수록 격차도 커졌다.

최대 설정에서는 정확도가 43.3%에서 52.4%로 증가했다.

Crop 포인트: 오른쪽 maj@6 열은 Fast Quiet-STaR NTP가 CoT 기반 생성에서도 추가 이득을 만든다는 점을 보여준다.

생각 토큰은 어떻게 달라졌는가

논문은 실제 생성된 생각 토큰도 비교했다.

Quiet-STaR 8-4는 제한된 생각 토큰 안에서 구조적인 추론을 잘 만들지 못하는 경우가 있었다.

반면 Fast Quiet-STaR 8-4는 더 짧고 목표 지향적인 힌트를 생성했다.

예를 들어 “절반”, “더하기”, “필요한 중간값” 같은 핵심 계산 단서가 더 직접적으로 나타났다.

Crop 포인트: Fast Quiet-STaR 8-4의 생각 토큰은 정답 계산에 필요한 핵심 단서를 짧게 남긴다.

추가 예시에서도 같은 패턴이 반복된다.

Fast Quiet-STaR는 긴 문장형 풀이보다 필요한 숫자 관계를 압축해 표현한다.

Quiet-STaR는 때때로 문제와 직접 관련이 낮은 문장을 생성한다.

Crop 포인트: 각 예시의 Answer 직전 생각 토큰을 보면 Fast Quiet-STaR가 정답에 가까운 중간값을 더 자주 만든다.

장기 추론 비용의 의미

훈련 비용도 크지 않다.

논문에 따르면 전체 Fast Quiet-STaR 훈련 파이프라인은 약 0.5M 토큰의 추가 학습으로 진행된다.

8개의 H800 GPU에서 약 54분이 걸렸다.

저자들은 단일 H800 GPU에서의 추론 예시도 제시했다.

동일한 생성 조건에서 Quiet-STaR 16-8은 한 번에 52.7초가 걸렸다.

Fast Quiet-STaR NTP는 3.2초가 걸렸다.

67번의 추론만 수행해도 훈련 시간에 해당하는 시간을 회수할 수 있다는 분석이다.

실제 서비스처럼 수백만 번 추론하는 환경에서는 비용 차이가 훨씬 커진다.

한계

이 논문에도 한계가 있다.

첫째, 평가는 주로 수학과 상식 추론 중심이다.

다른 도메인에서 같은 효과가 나는지는 추가 검증이 필요하다.

둘째, 방법 자체가 Quiet-STaR 계열 추론 방식에 맞춰져 있다.

다른 추론 프레임워크로 바로 확장된다고 보기는 어렵다.

결론

Fast Quiet-STaR의 기여는 명확하다.

토큰 단위 사고가 주는 성능 이득을 유지하면서, 생각 토큰 생성 비용을 줄인다.

핵심은 사고 과정의 단계적 압축이다.

긴 사고를 먼저 배우고, 짧은 사고로 줄이고, 마지막에는 외부에 드러나지 않는 내부 추론으로 바꾼다.

그 결과 Fast Quiet-STaR NTP는 일반 NTP 모델과 같은 추론 지연을 유지하면서도 더 높은 추론 성능을 보인다.

실무적으로는 “느린 추론 모델의 성능 이득을 빠른 모델에 옮길 수 있는가”라는 질문에 대한 흥미로운 답이다.

Source

Wei Huang, Yizhe Xiong, Xin Ye, Zhijie Deng, Hui Chen, Zijia Lin, Guiguang Ding. Fast Quiet-STaR: Thinking Without Thought Tokens. arXiv:2505.17746v2, 2025.
원문: arXiv:2505.17746

'AI 생성 글 정리 > modeling' 카테고리의 다른 글

[Checkmating One, by Using Many: Combining Mixture of Experts with MCTS to Improve in Chess] 논문 정리 (0)	2026.04.28
Quiet-STaR: Language Models Can Teach Themselves to Think Before Speaking 논문 정리 (0)	2026.04.28
Inference-Time Diffusion Model Distillation 논문 정리 (1)	2026.04.28
ReasoningBank 논문 정리 (0)	2026.04.27
Image Generators are Generalist Vision Learners 논문 정리 (0)	2026.04.27

Honbul과 컴퓨터

[Fast Quiet-STaR: Thinking Without Thought Tokens] 논문 정리

한 줄 요약

왜 이 논문이 중요한가

기존 Quiet-STaR의 병목

Fast Quiet-STaR의 핵심 아이디어