본문 바로가기
AI 생성 글 정리/modeling

Quiet-STaR: Language Models Can Teach Themselves to Think Before Speaking 논문 정리

by Honbul 2026. 4. 28.

핵심 요약

이 논문은 언어 모델이 말하기 전에 조용히 생각하도록 훈련하는 방법을 제안한다.

기존의 추론 학습은 주로 수학 문제, 상식 문제, 코드 문제처럼 정답이 있는 데이터셋에 의존했다.

Quiet-STaR는 방향을 바꾼다.

  • 모든 일반 텍스트에는 숨은 추론이 있다고 본다.
  • 모델이 각 단어 위치에서 짧은 내부 생각을 만든다.
  • 그 생각이 이후 텍스트 예측에 도움이 되면 강화한다.
  • 도움이 되지 않으면 학습 신호에서 밀려난다.

핵심 메시지는 단순하다.

추론을 별도 과제로 가르치지 않아도, 일반 웹 텍스트를 예측하는 과정에서 모델은 스스로 유용한 생각을 배울 수 있다.

 

Crop 포인트: 위쪽 원문 토큰에서 아래쪽 내부 생각으로 내려갔다가 다시 예측으로 합쳐지는 Think → Talk → Learn 흐름이 Quiet-STaR의 전체 구조다.

왜 중요한가

언어 모델은 보통 다음 단어를 바로 예측하도록 훈련된다.

하지만 사람은 항상 바로 말하지 않는다.

증명을 읽을 때는 빠진 단계를 추론한다.
대화를 이해할 때는 상대의 의도를 짐작한다.
수학 문제를 풀 때는 중간 계산을 한다.

 

논문은 이 점에 주목한다.

대부분의 텍스트에는 겉으로 쓰이지 않은 이유, 계획, 연결고리가 있다.
그렇다면 모델도 텍스트 사이의 빈칸을 예측하면서 추론을 배울 수 있다.

Quiet-STaR는 이 아이디어를 훈련 절차로 구현한다.

기존 STaR와의 차이

STaR는 모델이 문제에 대한 풀이 과정을 만들고, 정답에 도달한 풀이만 다시 학습하는 방식이다.

효과는 있었지만 한계가 뚜렷했다.

  • 문제-정답 데이터셋이 필요하다.
  • 사람이 만든 평가 기준에 묶인다.
  • 특정 과제에 최적화되기 쉽다.
  • 일반 텍스트 속 추론을 직접 활용하지 못한다.

Quiet-STaR는 이 구조를 일반 언어 모델링으로 확장한다.

정답 문제를 푸는 대신, 모델은 웹 텍스트의 다음 내용을 더 잘 예측하기 위해 내부 생각을 만든다.

즉, 추론 학습의 단위가 문제 하나에서 텍스트의 모든 위치로 바뀐다.

방법 1: 모든 위치에서 조용히 생각하기

가장 큰 계산 문제는 명확하다.

모델이 모든 단어 뒤에서 생각을 생성하려면 비용이 폭발한다.

Quiet-STaR는 이를 병렬 생성으로 해결한다.

아이디어는 다음과 같다.

  • 원문 전체를 한 번 읽는다.
  • 각 단어 위치에서 가능한 내부 생각을 동시에 시작한다.
  • 각 생각은 자기 경로와 이전 원문만 볼 수 있다.
  • 다른 위치에서 생성된 생각은 보지 못하게 막는다.

이렇게 하면 여러 위치의 내부 생각을 한 번에 굴릴 수 있다.

 

Crop 포인트: 오른쪽의 대각선 형태 마스크가 각 생각 경로를 서로 분리해, 여러 내부 생각을 동시에 생성하게 만든다.

방법 2: 생각을 무조건 믿지 않기

훈련 초반의 내부 생각은 품질이 낮다.

모델이 아직 “생각하는 법”을 모르기 때문이다.

따라서 Quiet-STaR는 생각 기반 예측을 바로 강요하지 않는다.

대신 두 예측을 섞는다.

  • 원래 모델이 바로 내놓는 예측
  • 내부 생각을 거친 뒤 내놓는 예측

작은 신경망이 두 예측 중 어느 쪽을 얼마나 반영할지 정한다.

이 장치는 중요하다.

초기에는 나쁜 생각이 모델을 망치지 않게 막는다.
학습이 진행되면 유용한 생각이 예측에 더 많이 반영된다.

방법 3: 바로 다음 단어만 보지 않기

내부 생각의 가치는 바로 다음 단어 하나로 판단하기 어렵다.

좋은 생각은 다음 단어보다, 이어지는 문맥 전체를 더 잘 맞히게 만들 수 있다.

그래서 Quiet-STaR는 짧은 미래 구간까지 함께 본다.

 

여기서 중요한 장치가 teacher forcing이다.

모델이 중간 단어를 틀렸다고 가정하고 흐름을 끊는 대신, 실제 텍스트를 알려주면서 뒤쪽 예측까지 평가한다.

그 결과 보상은 더 안정적이 된다.

내부 생각이 단기적인 우연이 아니라, 뒤따르는 의미 흐름을 얼마나 잘 설명하는지 볼 수 있기 때문이다.

 

Crop 포인트: 점선으로 이어진 경로는 실제 다음 토큰을 넣어 주며, 내부 생각이 더 먼 미래 예측에도 도움이 되는지 평가하는 부분이다.

방법 4: 도움이 된 생각만 강화하기

Quiet-STaR는 내부 생각을 사람이 채점하지 않는다.

판단 기준은 모델 자신의 예측 개선이다.

  • 어떤 생각이 이후 텍스트를 더 그럴듯하게 만들면 강화한다.
  • 평균보다 못한 생각은 강화하지 않는다.
  • 이 과정을 반복하며 생각 생성 방식 자체를 개선한다.

논문은 이를 REINFORCE 계열의 학습 신호로 구현한다.

핵심은 수식보다 직관이다.

“이 생각을 했더니 미래 텍스트를 더 잘 맞혔다면, 앞으로 비슷한 상황에서 그런 생각을 더 하도록 만든다.”

실험 설정

논문은 Mistral 7B 기반 모델을 사용했다.

주요 학습 데이터는 OpenWebMath다.

OpenWebMath는 수학·기술적 웹 문서 비중이 높다.
논문은 이 데이터에 추론이 필요한 텍스트가 더 많이 들어 있다고 봤다.

추가로 C4에서도 실험했다.

평가는 별도 미세조정 없이 진행했다.

주요 평가 과제는 두 가지다.

  • GSM8K: 초등 수준 수학 문장제
  • CommonsenseQA: 상식 추론 문제

결과 1: 조용한 생각은 직접 답변 성능도 올렸다

OpenWebMath로 Quiet-STaR를 적용한 결과, 별도 과제 학습 없이도 성능이 올랐다.

평가 과제 기본 모델 Quiet-STaR
GSM8K 5.9% 10.9%
CommonsenseQA 36.3% 47.2%

 

중요한 패턴은 하나 더 있다.

내부 생각 길이가 길수록 성능이 더 좋아지는 경향이 나타났다.

이는 단순한 “잠깐 멈춤”보다, 여러 토큰으로 구성된 실제 언어적 생각이 더 유용하다는 근거다.

 

Crop 포인트: 두 그래프 모두에서 긴 내부 생각을 사용한 곡선이 기준선보다 뚜렷하게 위로 올라가며, 생각 길이와 성능 향상이 연결된다.

 

C4에서도 개선은 있었다.

다만 폭은 OpenWebMath보다 작았다.

  • GSM8K는 5.9%에서 8.1%로 상승했다.
  • CommonsenseQA는 36.3%에서 42.6%로 상승했다.

이는 추론 밀도가 높은 데이터가 Quiet-STaR 학습에 더 유리할 수 있음을 시사한다.

결과 2: Chain-of-Thought와도 함께 쓸 수 있다

Quiet-STaR는 Chain-of-Thought와 경쟁하는 방식이 아니다.

역할이 다르다.

Chain-of-Thought는 사용자가 모델에게 “단계별로 생각해 보라”고 말하게 하는 외부 추론이다.

Quiet-STaR는 모델이 토큰 생성 중간에 조용히 쓰는 내부 추론이다.

 

논문은 둘을 결합해 실험했다.

GSM8K에서 여러 풀이 샘플을 뽑아 다수결로 답을 정했을 때, Quiet-STaR를 적용한 모델이 일반 Chain-of-Thought 기준선보다 더 높은 성능을 보였다.

 

Crop 포인트: 샘플 수가 늘어날수록 파란 선과 회색 선의 간격이 커지며, 내부 생각이 외부 추론 생성도 보조한다는 점이 드러난다.

 

논문은 예시 출력도 제시한다.

Quiet-STaR 모델은 같은 수학 문장제에서 더 구조화된 풀이를 생성하는 경향을 보였다.

완벽하지는 않지만, 기본 모델보다 중간 단계가 안정적이었다.

결과 3: 모든 토큰이 아니라 어려운 토큰에서 효과가 크다

Quiet-STaR가 모든 다음 단어 예측을 크게 개선한 것은 아니다.

대부분의 일반 텍스트 토큰은 추가 생각이 없어도 쉽게 예측된다.

예를 들어 흔한 접미사나 문법적으로 뻔한 단어는 굳이 추론이 필요 없다.

반면 어려운 토큰에서는 효과가 두드러졌다.

논문은 생각을 넣었을 때 예측 손실이 어떻게 변하는지 분포로 확인했다.

핵심은 다음과 같다.

  • 쉬운 토큰은 변화가 작다.
  • 어려운 토큰은 개선 폭이 커질 수 있다.
  • 생각은 평균 토큰보다 “판단이 필요한 토큰”에서 더 가치 있다.

Crop 포인트: 오른쪽 위로 퍼지는 밀도 영역은 원래 예측이 어려웠던 토큰일수록 내부 생각으로 손실이 줄어드는 사례가 있음을 보여준다.

결과 4: 어떤 토큰에서 도움이 되는가

논문은 토큰별 기여도를 시각화했다.

초록색은 생각이 예측을 도운 위치다.
노란색은 오히려 방해가 된 위치다.

도움이 되는 위치는 주로 이런 곳이다.

  • 증명이나 풀이의 다음 단계
  • 정리 이름이나 관련 개념 회상
  • 문맥상 필요한 핵심 전환점
  • 이후 설명을 연결하는 단서

즉, Quiet-STaR의 내부 생각은 단순 반복보다 문맥 연결과 정보 회상에 더 가깝게 작동한다.

 

Crop 포인트: 초록색으로 진하게 표시된 단어들이 내부 생각의 도움을 받은 지점이며, 특히 풀이 전개와 힌트 연결부에서 기여가 집중된다.

계산 비용의 문제

Quiet-STaR는 공짜가 아니다.

모델은 다음 토큰을 내기 전에 내부 생각을 여러 개 생성한다.

따라서 일반 생성보다 계산 비용이 크다.

논문은 계산량을 보정한 그래프도 제시한다.

이 관점에서 보면 긴 내부 생각은 성능을 올리지만, 더 많은 추론 호출을 요구한다.

 

Crop 포인트: 가로축이 실제 훈련 스텝이 아니라 추론 호출 수로 바뀌면서, 성능 향상과 계산 비용의 교환관계가 더 분명해진다.

 

이 한계는 동시에 가능성이기도 하다.

현재 언어 모델은 추가 계산을 어디에 써야 할지 정교하게 알기 어렵다.

Quiet-STaR는 계산을 “생각”에 쓰는 방향을 제시한다.

향후에는 모델이 스스로 판단할 수 있다.

  • 지금 생각이 필요한가
  • 얼마나 길게 생각해야 하는가
  • 어떤 위치에서만 생각해야 하는가

논문도 동적 생각 생성이 자연스러운 후속 연구라고 본다.

한계

논문이 인정한 한계는 분명하다.

 

첫째, 실험은 주로 7B 규모 모델에서 이뤄졌다.

더 큰 모델에서 효과가 어떻게 변할지는 추가 검증이 필요하다.

 

둘째, 처음부터 학습한 모델이 아니라 사전학습된 모델을 계속 학습했다.

Quiet-STaR가 사전학습 초기부터 들어갔을 때의 효과는 아직 열려 있다.

 

셋째, 내부 생각의 신뢰성은 보장되지 않는다.

생각이 사람이 보기에는 그럴듯해도, 실제 모델 내부 처리와 완전히 일치한다고 단정할 수 없다.

 

넷째, 유해하거나 편향된 생각이 보상될 가능성도 있다.

미래 텍스트 예측에 도움이 된다는 기준이 항상 바람직한 추론을 뜻하지는 않는다.

 

다섯째, 현재 방식은 계산 비용이 크다.

모든 위치에서 생각을 만드는 것은 실용 배포 단계에서 부담이 될 수 있다.

논문의 핵심 기여

Quiet-STaR의 기여는 성능 수치보다 프레임 전환에 있다.

기존 관점은 이랬다.

추론 데이터셋을 만들고, 모델에게 그 문제를 풀게 하자.

 

Quiet-STaR의 관점은 다르다.

모든 텍스트에는 숨은 추론이 있으니, 언어 모델링 자체를 추론 학습 신호로 쓰자.

 

이를 위해 논문은 다음을 결합했다.

  • 모든 토큰 위치에서 내부 생각 생성
  • 병렬 생성용 attention mask
  • 생각 시작·종료를 알리는 학습 가능한 토큰
  • 원래 예측과 생각 기반 예측을 섞는 mixing head
  • 바로 다음 단어를 넘어선 미래 문맥 평가
  • 도움이 된 생각을 강화하는 보상 학습

이 조합이 일반 텍스트 기반 추론 학습의 첫 실용적 형태를 보여준다.

읽어야 할 포인트

이 논문은 “모델이 정말 생각하는가”를 증명하지 않는다.

더 정확히는 다음 질문에 답한다.

언어 모델이 스스로 만든 내부 언어를 사용해 미래 텍스트를 더 잘 예측하도록 훈련할 수 있는가?

 

논문의 답은 긍정적이다.

그리고 그 효과는 단순한 언어 모델링 개선을 넘어, 별도 미세조정 없는 수학·상식 추론 성능 향상으로 이어졌다.

Quiet-STaR는 완성된 해결책이 아니다.

하지만 “추론은 정답 데이터셋에서만 배울 수 있다”는 전제를 약화시킨다.

일반 텍스트 자체가 모델에게 생각하는 법을 가르칠 수 있다는 가능성을 보여준다.

Source

  • Paper: Quiet-STaR: Language Models Can Teach Themselves to Think Before Speaking
  • Authors: Eric Zelikman, Georges Harik, Yijia Shao, Varuna Jayasiri, Nick Haber, Noah D. Goodman
  • arXiv: 2403.09629v2
  • Date: 2024-03-18
  • Original link: https://arxiv.org/abs/2403.09629