본문 바로가기
AI 생성 글 정리/modeling

[Fast Quiet-STaR: Thinking Without Thought Tokens] 논문 정리

by Honbul 2026. 4. 28.

한 줄 요약

Fast Quiet-STaR는 추론 성능을 올리는 ‘생각 토큰’의 장점은 유지하면서, 추론 지연은 크게 줄이는 훈련 방법이다.

핵심은 단순하다.

  • 처음에는 길게 생각하게 한다.
  • 이후 점점 짧게 생각하게 만든다.
  • 마지막에는 생각 토큰을 아예 출력하지 않아도 되게 만든다.

즉, 모델이 외부로 드러내던 사고 과정을 내부 표현으로 압축하도록 훈련한다.


왜 이 논문이 중요한가

대형 언어 모델은 더 큰 모델과 더 많은 데이터로 성능을 끌어올려 왔다.

하지만 복잡한 추론에서는 그것만으로 충분하지 않다.

최근 연구 흐름은 모델이 답을 내기 전에 “생각”하도록 만드는 방향으로 이동했다. Chain-of-Thought, o1 계열 모델, DeepSeek-R1 같은 접근이 여기에 속한다.

Quiet-STaR는 이 흐름을 더 세밀하게 밀어붙인다.

질문 단위가 아니라 토큰 단위로 생각하게 한다.

 

문제는 비용이다.

Quiet-STaR는 다음 토큰을 예측할 때마다 생각 토큰을 생성한다. 성능은 좋아지지만, 추론 시간이 크게 늘어난다.

 

Crop 포인트: NTP 위치의 Fast Quiet-STaR NTP 막대는 추가 추론 시간 없이 정확도가 올라가는 핵심 결과를 보여준다.


기존 Quiet-STaR의 병목

Quiet-STaR는 다음 토큰을 바로 예측하지 않는다.

먼저 짧은 내부 추론 문장을 만든다. 그다음 그 추론을 참고해 다음 토큰을 예측한다.

이 방식은 세 단계로 이해할 수 있다.

  • Think: 현재 위치에서 필요한 생각 토큰을 생성한다.
  • Talk: 생각 전 예측과 생각 후 예측을 섞는다.
  • Learn: 실제 다음 토큰 예측에 도움이 된 생각을 강화한다.

직관적으로는 모델에게 “말하기 전에 잠깐 생각하라”고 가르치는 방식이다.

다만 이 생각이 모든 토큰마다 반복된다.

그래서 긴 문장을 생성할수록 비용이 커진다.


Fast Quiet-STaR의 핵심 아이디어

논문은 하나의 가정에서 출발한다.

긴 사고 과정을 배운 모델이라면, 그 사고를 더 짧고 추상적인 형태로 압축할 수 있다.

 

이를 위해 저자들은 커리큘럼 러닝을 사용한다.

커리큘럼 러닝은 쉬운 과제에서 시작해 점점 어려운 과제로 옮겨가는 훈련 방식이다.

Fast Quiet-STaR에서는 “쉬움”과 “어려움”이 데이터 난이도가 아니라 생각 토큰 수로 정의된다.

  • 많은 생각 토큰: 자세히 생각할 수 있어 쉬운 조건
  • 적은 생각 토큰: 압축해서 생각해야 하므로 어려운 조건
  • 생각 토큰 없음: 내부적으로만 추론해야 하는 가장 어려운 조건

Crop 포인트: 하단의 예시는 긴 풀이가 점점 짧은 풀이로 압축되면서도 정답을 유지하는 과정을 보여준다.


훈련 절차

Fast Quiet-STaR는 단계적으로 훈련된다.

1단계: 긴 생각으로 추론 패턴 학습

먼저 Quiet-STaR 방식으로 충분한 생각 토큰을 사용한다.

이 단계에서는 모델이 자세한 사고 경로를 만들 수 있다.

목표는 “생각하면 예측이 좋아진다”는 패턴을 학습하는 것이다.

2단계: 생각 토큰을 줄이며 압축 학습

그다음 생각 토큰 수를 줄인다.

모델은 같은 추론을 더 짧은 표현으로 수행해야 한다.

논문에서는 긴 설정에서 시작해 중간 설정을 거쳐 더 짧은 설정으로 이동한다.

이 과정이 Fast Quiet-STaR의 핵심이다.

3단계: 생각 토큰 없이 NTP로 전환

마지막에는 표준 다음 토큰 예측 방식으로 전환한다.

이 모델을 Fast Quiet-STaR NTP라고 부른다.

여기서는 추론 중에 별도 생각 토큰을 생성하지 않는다.

대신 이전 단계의 Fast Quiet-STaR가 보여준 예측 품질을 따라가도록 강화학습으로 미세 조정한다.

결과적으로 모델은 겉으로는 일반 언어 모델처럼 동작한다.

하지만 내부적으로는 압축된 추론 능력을 유지한다.


실험 설정

논문은 두 개의 7B급 모델에서 실험했다.

  • Mistral 7B
  • Qwen2.5 7B

평가는 네 개 벤치마크에서 진행했다.

  • PIQA
  • SIQA
  • CommonsenseQA
  • GSM8K

비교 대상은 세 가지다.

  • 사전학습 모델
  • 기존 Quiet-STaR
  • Fast Quiet-STaR 및 Fast Quiet-STaR NTP

주요 결과

가장 중요한 결과는 두 가지다.

 

첫째, 같은 추론 시간 조건에서 Fast Quiet-STaR가 Quiet-STaR보다 더 높은 정확도를 보인다.

 

둘째, Fast Quiet-STaR NTP는 생각 토큰을 생성하지 않는데도 사전학습 모델보다 크게 좋아진다.

Mistral 7B에서는 평균 정확도가 9.0%p 증가했다.

Qwen2.5 7B에서는 평균 정확도가 5.7%p 증가했다.

 

Crop 포인트: 파란색 Performance Δ 행은 Fast Quiet-STaR NTP가 사전학습 모델 대비 얼마나 개선됐는지를 직접 보여준다.


속도 관점의 의미

Quiet-STaR는 정확도를 올리지만 생성 지연이 크다.

반면 Fast Quiet-STaR NTP는 사전학습 모델과 같은 NTP 방식으로 동작한다.

따라서 추론 시간은 거의 동일하다.

논문에서는 256개 토큰 프롬프트에서 128개 토큰을 생성하는 조건을 비교했다.

  • 사전학습 모델: 3.2초
  • Quiet-STaR 16-8: 52.7초
  • Fast Quiet-STaR NTP: 3.2초

성능은 Fast Quiet-STaR NTP가 사전학습 모델보다 높다.

또 Quiet-STaR 16-8보다 빠르면서도 평균 정확도는 더 높다.

 

Crop 포인트: 첫 번째 열의 3.2초와 52.7초 차이는 Fast Quiet-STaR NTP의 실질적인 배포 이점을 보여준다.


커리큘럼 러닝이 실제로 중요한가

논문은 반대 방향 훈련도 실험했다.

즉, 짧은 생각 토큰에서 시작해 긴 생각 토큰으로 이동하는 방식이다.

결과는 좋지 않았다.

어려운 조건에서 바로 시작하면 모델이 안정적인 추론 패턴을 얻지 못했다.

쉬운 조건에서 시작해 점점 압축하는 방식이 더 효과적이었다.

 

Crop 포인트: Fast Quiet-STaR 곡선이 역방향 훈련 곡선보다 위에 머무는 구간이 커리큘럼 방향의 중요성을 보여준다.


NTP 전환에는 어떤 초기 모델이 좋은가

Fast Quiet-STaR NTP를 만들 때도 초기화가 중요하다.

논문은 세 가지 출발점을 비교했다.

  • 사전학습 모델
  • Quiet-STaR 16-8
  • Fast Quiet-STaR 8-4

가장 좋은 출발점은 Fast Quiet-STaR 8-4였다.

이 모델은 이미 짧고 정보성 있는 생각을 학습했기 때문이다.

긴 생각에 의존하는 모델보다 NTP로 전환하기 쉽다.

 

Crop 포인트: Fast Quiet-STaR 8-4로 초기화한 막대가 대부분의 태스크에서 가장 높은 성능을 보인다.


중간 단계를 건너뛰면 어떻게 되는가

저자들은 Quiet-STaR 16-8에서 바로 NTP로 전환하는 실험도 했다.

이 경우 평균 정확도는 Fast Quiet-STaR NTP보다 5.2%p 낮았다.

즉, “긴 생각 → 생각 없음”으로 바로 이동하면 성능 손실이 크다.

중간 압축 단계가 필요하다.

table3_ntp_curriculum_shortcut

Crop 포인트: 마지막 AVG 열의 +5.2는 중간 커리큘럼 단계를 거친 NTP 전환의 이득을 요약한다.


데이터가 더 많아서 좋아진 것은 아니다

Fast Quiet-STaR의 성능 향상이 단순히 더 오래 학습해서 생긴 것인지도 확인했다.

GSM8K에서 학습 단계별 정확도를 추적한 결과, 기존 Quiet-STaR는 일정 시점 이후 성능이 떨어졌다.

반면 Fast Quiet-STaR는 추가 단계가 많지 않아도 높은 성능을 유지했다.

저자들은 성능 향상의 원인이 데이터 노출량보다 점진적 압축 훈련 방식에 있다고 해석한다.

 

Crop 포인트: Fast Quiet-STaR 8-4 곡선이 후반에도 높은 수준을 유지하는 부분이 데이터 효율성을 보여준다.


Chain-of-Thought와의 관계

Fast Quiet-STaR NTP는 Chain-of-Thought를 대체하는 방식이 아니다.

오히려 함께 사용할 수 있다.

GSM8K에서 CoT와 다수결 샘플링을 적용했을 때도 Fast Quiet-STaR NTP가 사전학습 모델보다 높았다.

다수결 샘플 수가 늘어날수록 격차도 커졌다.

최대 설정에서는 정확도가 43.3%에서 52.4%로 증가했다.

 

Crop 포인트: 오른쪽 maj@6 열은 Fast Quiet-STaR NTP가 CoT 기반 생성에서도 추가 이득을 만든다는 점을 보여준다.


생각 토큰은 어떻게 달라졌는가

논문은 실제 생성된 생각 토큰도 비교했다.

Quiet-STaR 8-4는 제한된 생각 토큰 안에서 구조적인 추론을 잘 만들지 못하는 경우가 있었다.

반면 Fast Quiet-STaR 8-4는 더 짧고 목표 지향적인 힌트를 생성했다.

예를 들어 “절반”, “더하기”, “필요한 중간값” 같은 핵심 계산 단서가 더 직접적으로 나타났다.

 

Crop 포인트: Fast Quiet-STaR 8-4의 생각 토큰은 정답 계산에 필요한 핵심 단서를 짧게 남긴다.

 

추가 예시에서도 같은 패턴이 반복된다.

Fast Quiet-STaR는 긴 문장형 풀이보다 필요한 숫자 관계를 압축해 표현한다.

Quiet-STaR는 때때로 문제와 직접 관련이 낮은 문장을 생성한다.

 

Crop 포인트: 각 예시의 Answer 직전 생각 토큰을 보면 Fast Quiet-STaR가 정답에 가까운 중간값을 더 자주 만든다.


장기 추론 비용의 의미

훈련 비용도 크지 않다.

논문에 따르면 전체 Fast Quiet-STaR 훈련 파이프라인은 약 0.5M 토큰의 추가 학습으로 진행된다.

8개의 H800 GPU에서 약 54분이 걸렸다.

저자들은 단일 H800 GPU에서의 추론 예시도 제시했다.

동일한 생성 조건에서 Quiet-STaR 16-8은 한 번에 52.7초가 걸렸다.

Fast Quiet-STaR NTP는 3.2초가 걸렸다.

67번의 추론만 수행해도 훈련 시간에 해당하는 시간을 회수할 수 있다는 분석이다.

실제 서비스처럼 수백만 번 추론하는 환경에서는 비용 차이가 훨씬 커진다.


한계

이 논문에도 한계가 있다.

 

첫째, 평가는 주로 수학과 상식 추론 중심이다.

다른 도메인에서 같은 효과가 나는지는 추가 검증이 필요하다.

 

둘째, 방법 자체가 Quiet-STaR 계열 추론 방식에 맞춰져 있다.

다른 추론 프레임워크로 바로 확장된다고 보기는 어렵다.


결론

Fast Quiet-STaR의 기여는 명확하다.

토큰 단위 사고가 주는 성능 이득을 유지하면서, 생각 토큰 생성 비용을 줄인다.

 

핵심은 사고 과정의 단계적 압축이다.

긴 사고를 먼저 배우고, 짧은 사고로 줄이고, 마지막에는 외부에 드러나지 않는 내부 추론으로 바꾼다.

그 결과 Fast Quiet-STaR NTP는 일반 NTP 모델과 같은 추론 지연을 유지하면서도 더 높은 추론 성능을 보인다.

실무적으로는 “느린 추론 모델의 성능 이득을 빠른 모델에 옮길 수 있는가”라는 질문에 대한 흥미로운 답이다.


Source

  • Wei Huang, Yizhe Xiong, Xin Ye, Zhijie Deng, Hui Chen, Zijia Lin, Guiguang Ding. Fast Quiet-STaR: Thinking Without Thought Tokens. arXiv:2505.17746v2, 2025.
  • 원문: arXiv:2505.17746