Scaling up Test-Time Compute with Latent Reasoning: A Recurrent Depth Approach 논문 정리

한 줄 요약

이 논문은 언어모델이 더 오래 “생각”하는 방법을 바꾼다.

기존 추론 모델은 보통 더 많은 토큰을 생성하며 생각한다.
이 논문은 토큰을 늘리는 대신, 모델 내부의 잠재 공간에서 같은 계산 블록을 여러 번 반복하게 만든다.

핵심은 Recurrent Depth다.

모델 파라미터 수는 3.5B다.
학습 토큰은 약 800B다.
테스트 시점에는 recurrent block을 더 많이 반복한다.
반복 횟수가 늘면 일부 추론 벤치마크 성능이 오른다.
추가 chain-of-thought 전용 데이터 없이도 작동한다.

Crop 포인트: 반복 횟수가 늘수록 GSM8K CoT와 ARC Challenge 성능이 상승하며, 쉬운 과제는 더 빨리 포화된다.

이 논문이 겨냥한 문제

대형 언어모델의 추론 능력을 높이는 방법은 크게 두 가지였다.

첫째, 모델을 더 크게 만든다.
둘째, 답변 전에 긴 chain-of-thought를 생성하게 한다.

두 방법 모두 비용이 크다.

모델을 키우면 학습과 배포 비용이 커진다.
chain-of-thought를 길게 쓰면 추론 시간이 늘고, 긴 문맥창이 필요하다.
또한 모델이 내부에서 다룰 수 있는 생각을 매번 언어 토큰으로 바꿔야 한다.

논문은 이 지점에 의문을 던진다.

꼭 모든 생각을 말로 써야 하는가?

저자들의 답은 아니다.
언어화되지 않은 고차원 벡터 공간에서도 추론이 가능하다고 본다.

핵심 아이디어: 말로 생각하지 않고, 내부에서 반복 계산하기

논문이 제안한 모델은 세 부분으로 구성된다.

Prelude: 입력 토큰을 잠재 표현으로 바꾼다.
Recurrent Block: 같은 블록을 여러 번 반복하며 내부 상태를 갱신한다.
Coda: 최종 내부 상태를 다시 토큰 확률로 바꾼다.

중요한 점은 중간의 recurrent block이다.
이 블록은 한 번만 지나가지 않는다.
테스트 시점에 4번, 8번, 32번, 64번처럼 더 많이 반복할 수 있다.

즉, 모델은 답변 토큰을 내기 전에 내부 상태를 여러 차례 다듬는다.

Crop 포인트: 파란 Prelude와 빨간 Coda 사이의 초록 Recurrent Block이 반복되며, 입력 정보가 매 반복마다 다시 주입된다.

이 구조는 고정 깊이 트랜스포머와 다르다.

일반 트랜스포머는 층 수가 고정돼 있다.
한 번 학습된 뒤에는 추론 시 계산 깊이를 크게 바꾸기 어렵다.

반면 이 모델은 학습된 같은 블록을 반복한다.
그래서 추론 시점에 더 오래 돌릴 수 있다.

저자들은 이를 잠재 공간에서의 추론으로 해석한다.

왜 매 반복마다 입력을 다시 넣는가

이 모델은 내부 상태만 반복해서 굴리지 않는다.
입력에서 만든 잠재 표현을 매 반복마다 다시 넣는다.

직관은 단순하다.

문제를 계속 풀 때, 이전 생각만 보는 것이 아니라 원문 문제도 계속 확인해야 한다.
그래야 계산 과정이 입력과 분리되지 않는다.

저자들은 이를 안정성의 핵심으로 본다.

입력을 처음에만 넣으면 반복 과정이 초기 상태에 과하게 의존할 수 있다.
반대로 매 반복마다 입력을 넣으면 모델은 같은 문제를 기준으로 내부 상태를 점진적으로 정리한다.

학습 방식: 다양한 생각 시간을 미리 경험하게 하기

모델은 학습 중에도 반복 횟수를 고정하지 않는다.

각 학습 배치마다 반복 횟수를 무작위로 뽑는다.
대부분은 평균 근처의 반복 횟수를 사용한다.
가끔은 훨씬 긴 반복도 경험한다.

이 분포는 중요한 역할을 한다.

모델이 짧은 계산에도 적응하고, 긴 계산에도 망가지지 않게 만든다.
테스트 시점에 반복 횟수를 늘릴 수 있는 이유도 여기에 있다.

Crop 포인트: 반복 횟수는 평균 근처에 몰려 있지만 오른쪽 꼬리가 길어, 모델이 드물게 긴 계산도 경험한다.

학습 비용을 줄이기 위한 장치도 있다.

반복 전체를 모두 역전파하지 않는다.
마지막 몇 번의 반복만 학습 신호를 직접 계산한다.
이 방식은 메모리를 줄인다.

하지만 입력 표현은 매 반복마다 들어가기 때문에 Prelude도 계속 학습된다.

학습 데이터: 일반 텍스트보다 코드와 수학을 많이 섞음

저자들은 추론 행동을 보기 위해 데이터 구성을 의도적으로 조정했다.

데이터의 큰 비중은 다음 영역이다.

일반 웹 텍스트
코드
과학 텍스트
합성 텍스트
수학 데이터

일반 언어 능력만 최적화한 구성이 아니다.
수학, 코드, 과학 자료를 많이 넣어 추론 행동이 나타날 가능성을 높였다.

Crop 포인트: 코드와 과학 텍스트 비중이 크며, 데이터 혼합 자체가 추론 행동을 유도하도록 설계됐다.

저자들도 이 데이터 혼합이 최적이라고 주장하지 않는다.
단일 대규모 학습 run만 수행했기 때문에, 데이터 구성에 대한 충분한 ablation은 없었다.

대규모 학습에서 가장 까다로운 부분: 안정성

작은 모델에서는 여러 normalization 방식이 대체로 작동했다.
하지만 대규모 모델에서는 그렇지 않았다.

초기 실험은 실패했다.

한 run은 hidden state가 붕괴했다.
모든 토큰이 거의 같은 내부 표현을 갖는 상태로 무너졌다.

다른 run은 반복을 사용하지 못했다.
반복 횟수를 늘려도 성능이 변하지 않았다.
모델이 recurrent state를 무시하는 방향으로 학습된 것이다.

최종 성공 run은 block 구성과 초기화를 바꾸고, 학습률을 낮춘 뒤 안정화됐다.

Crop 포인트: 실패 run은 손실과 hidden state 지표가 정체되거나 붕괴하지만, 최종 run은 반복 깊이를 활용하며 안정적으로 개선된다.

이 부분은 논문의 실용적 기여다.

“반복 구조가 아이디어상 가능하다”는 주장만이 아니다.
실제로 수십억 파라미터 규모에서 무엇이 불안정한지 보여준다.

최종 모델: 3.5B 파라미터, 약 800B 토큰

최종 모델은 Huginn-0125다.

구조상 실제 파라미터는 3.5B다.
하지만 recurrent block을 여러 번 반복하면 계산량은 훨씬 커진다.

논문은 이를 “materialized parameters”라는 관점으로 설명한다.
실제 저장된 파라미터는 작지만, 반복 계산으로 더 깊은 모델처럼 연산한다는 뜻이다.

학습은 Oak Ridge National Laboratory의 Frontier 슈퍼컴퓨터에서 수행됐다.
저자들은 AMD MI250X GPU 4096개 규모에서 학습했다.

학습 과정에서도 반복 깊이별 validation perplexity가 개선됐다.

Crop 포인트: 학습 토큰이 늘수록 전체 loss가 감소하고, 반복 횟수가 큰 설정의 validation perplexity도 함께 낮아진다.

벤치마크 결과: 쉬운 과제보다 추론 과제에서 반복 효과가 크다

결과를 해석할 때는 주의가 필요하다.

이 모델은 3.5B 파라미터지만, 반복 계산을 많이 쓰면 추론 시 연산량이 커진다.
따라서 단순히 같은 파라미터 수 모델과 비교하기 어렵다.

그래도 방향성은 명확하다.

반복 횟수를 늘리면 여러 과제에서 성능이 오른다.
특히 수학과 코드처럼 계산적 추론이 필요한 과제에서 효과가 크다.

논문이 보고한 대표 결과는 다음과 같다.

ARC Challenge는 반복 32회에서 38%대 정확도에 도달한다.
HellaSwag는 반복 8회 이후 빠르게 포화된다.
GSM8K CoT는 반복을 늘릴수록 계속 개선된다.
HumanEval도 반복을 늘릴 때 성능이 오른다.

Crop 포인트: HellaSwag는 빠르게 포화되지만, GSM8K CoT와 HumanEval은 더 많은 반복에서 계속 이득을 얻는다.

이 결과는 논문 전체의 핵심 주장과 맞물린다.

모든 문제에 같은 생각 시간이 필요한 것은 아니다.
쉬운 문제는 적은 반복으로 충분하다.
어려운 문제는 더 많은 내부 계산을 활용한다.

학습이 진행될수록 추론 과제는 더 늦게 열린다

학습 토큰이 늘어날 때 성능 변화도 흥미롭다.

언어 모델링 성능은 일정 지점 이후 완만해진다.
하지만 GSM8K CoT와 HumanEval 같은 과제는 학습 후반에도 계속 오른다.

단, 충분한 반복 계산을 제공할 때다.

반복을 거의 쓰지 않는 설정은 후반 학습에서도 큰 이득을 얻지 못한다.
이는 개선이 Prelude나 Coda에만 쌓인 것이 아니라, recurrent block의 반복 활용 능력에 들어갔다는 해석을 뒷받침한다.

Crop 포인트: 충분한 recurrent depth를 준 설정에서 GSM8K CoT와 HumanEval 성능이 학습 후반까지 꾸준히 오른다.

문맥이 많을수록 더 오래 생각한다

논문은 ARC Challenge에서 few-shot 예시 수를 바꾸며 테스트했다.

결과는 직관적이다.

문맥이 없으면 모델은 비교적 적은 반복에서 포화된다.
예시가 많아지면 더 많은 반복이 필요하다.
모델이 추가 문맥을 읽고 활용하는 데 더 긴 내부 계산을 쓰는 것으로 보인다.

Crop 포인트: few-shot 예시가 많을수록 성능 포화점이 오른쪽으로 이동하며, 추가 문맥이 더 많은 반복 계산을 요구한다.

OpenBookQA에서도 비슷한 경향이 보인다.

관련 사실을 함께 제공하면 성능이 크게 오른다.
이는 모델이 사실을 많이 외우는 방식보다, 주어진 문맥을 활용하는 방식에 더 강하다는 해석으로 이어진다.

recurrent depth가 LLM 추론 기능을 단순하게 만든다

저자들은 이 구조가 성능 향상만 주는 것이 아니라고 말한다.

몇 가지 추론 기능이 자연스럽게 가능해진다.

1. 토큰별 adaptive compute

각 토큰마다 필요한 반복 횟수를 다르게 둘 수 있다.

모델의 예측이 이미 안정적이면 일찍 멈춘다.
아직 불안정하면 더 반복한다.

고정 깊이 트랜스포머에서는 이를 위해 별도 exit head나 추가 학습이 필요한 경우가 많다.
이 모델은 반복 구조 자체가 이를 지원한다.

Crop 포인트: 과제 유형에 따라 수렴에 필요한 반복 횟수 분포가 달라지며, 모델이 문제별 난이도를 내부적으로 반영한다.

2. KV-cache 공유

같은 recurrent block을 반복하기 때문에 cache를 반복 단계 사이에서 공유할 수 있다.

이 방식은 추론 메모리 부담을 줄인다.
논문에서는 간단한 cache budget만으로도 MT-Bench 성능이 크게 흔들리지 않았다고 보고한다.

3. Continuous Chain-of-Thought

이 모델은 이전 토큰의 마지막 내부 상태를 다음 토큰의 시작점으로 사용할 수 있다.

이렇게 하면 말로 된 chain-of-thought 없이도, 잠재 공간에서 이전 계산을 이어받는다.
논문은 이를 continuous CoT와 연결한다.

4. Self-speculative decoding

작은 반복 횟수로 초안을 만들고, 큰 반복 횟수로 검증할 수 있다.

별도 draft model이 없어도 된다.
같은 모델을 얕게 쓰고 깊게 쓰는 방식이다.

내부에서는 무엇이 일어나는가

이 논문의 후반부는 모델의 latent trajectory를 본다.

단순히 성능이 올랐다는 데서 끝나지 않는다.
반복 중 내부 상태가 어떻게 움직이는지 시각화한다.

저자들은 특정 토큰에서 수렴 속도가 느려지는 현상을 관찰했다.
질문의 핵심 단어나 답변의 중요한 지점에서 더 많은 내부 변화가 발생한다.

Crop 포인트: 특정 토큰 행에서 색이 더 오래 밝게 유지되며, 모델이 그 지점에서 더 오래 내부 상태를 조정한다.

더 흥미로운 부분은 내부 궤적의 모양이다.

어떤 토큰은 한 점으로 수렴한다.
어떤 토큰은 반복하면서 궤도를 그린다.
어떤 토큰은 한 방향으로 미끄러지듯 이동한다.

저자들은 이를 다음처럼 해석한다.

수렴 경로는 안정적인 판단을 만들 수 있다.
궤도는 산술이나 구조적 추론에 쓰일 수 있다.
한 방향 이동은 반복 횟수나 상태 진행을 나타내는 내부 장치일 수 있다.

Crop 포인트: 가운데 행의 숫자 토큰에서 반복 궤도가 뚜렷하게 나타나며, 단순 수렴과 다른 계산 패턴을 보인다.

중요한 점은 이런 패턴이 명시적으로 강제되지 않았다는 것이다.
모델이 반복 학습 과정에서 스스로 획득한 계산 방식이다.

산술 과제에서 보이는 한계

논문은 다중 피연산자 덧셈도 테스트했다.

반복 계산은 도움이 된다.
하지만 모든 산술 문제가 해결되는 것은 아니다.

두 수를 더하는 문제는 비교적 잘 푼다.
피연산자 수가 많아지면 성능이 빠르게 떨어진다.
자릿수가 늘어나도 난도가 크게 올라간다.

Crop 포인트: 반복 횟수가 늘어도 피연산자 수와 자릿수가 함께 커지면 정확도가 급격히 낮아진다.

이 결과는 좋은 균형감을 준다.

모델은 latent recurrence로 추론 능력을 얻는다.
하지만 완전한 알고리즘 일반화를 달성한 것은 아니다.

논문의 주요 기여

이 논문의 기여는 네 가지로 정리할 수 있다.

1. 테스트 시점 계산 확장의 새로운 축

기존 방식은 파라미터를 키우거나, 말로 된 chain-of-thought를 길게 만든다.

이 논문은 세 번째 축을 제안한다.

같은 모델 내부에서 반복 계산을 더 많이 수행하는 방식이다.

2. chain-of-thought 데이터 없이 잠재 추론 학습

전용 CoT 데이터가 없어도 모델은 반복 구조를 학습한다.

이는 데이터 구축 비용을 낮출 수 있다.
특히 말로 표현하기 어려운 공간적 추론, 물리적 직관, 계획 수립 같은 영역에 잠재적 장점이 있다.

3. 작은 파라미터 수, 큰 계산량

이 모델은 저장해야 할 파라미터가 상대적으로 작다.
대신 추론 시 반복 계산으로 깊이를 늘린다.

이는 통신 비용이 큰 분산 학습 환경에서 장점이 될 수 있다.

4. 내부 계산 패턴의 관찰

논문은 latent trajectory를 분석해 수렴, 궤도, drift 같은 패턴을 보여준다.

이는 잠재 추론 모델의 해석 가능성 연구로 이어질 수 있다.

한계와 주의점

이 논문은 proof-of-concept다.

저자들도 이를 명확히 말한다.

단일 대규모 run

최종 모델은 하나의 큰 학습 run에 기반한다.
데이터 혼합, 학습률 스케줄, 모델 크기, 반복 분포에 대한 체계적 비교는 제한적이다.

비교 기준이 복잡함

파라미터 수만 보면 3.5B 모델이다.
하지만 반복 계산을 많이 쓰면 추론 연산량은 훨씬 커진다.

따라서 “같은 크기 모델보다 좋다”는 식의 단순 비교는 부정확하다.

사실 암기에는 약할 수 있음

OpenBookQA 결과에서 보듯, 관련 사실을 제공하면 성능이 오른다.
이는 문맥 추론 능력은 강하지만, 사실 저장 용량은 더 큰 모델보다 부족할 수 있음을 시사한다.

감독과 해석 가능성 문제

말로 된 chain-of-thought는 사람이 읽을 수 있다.
잠재 공간 추론은 직접 읽기 어렵다.

성능상 장점이 있어도, 모델이 무엇을 생각했는지 검증하기는 더 어렵다.

논문 후반의 latent trajectory 분석은 이 문제를 다루기 위한 초기 시도다.

전체 평가

이 논문은 “더 많은 토큰으로 생각하기”에 대한 대안을 제시한다.

모델은 내부 상태를 반복적으로 다듬는다.
그리고 테스트 시점에 반복 횟수를 늘려 더 많은 계산을 사용한다.

결과는 완성형이라기보다 방향 제시에 가깝다.

하지만 방향은 분명하다.

추론은 꼭 언어 토큰으로만 외부화될 필요가 없다.
반복 구조는 테스트 시점 계산 확장에 자연스럽다.
어려운 과제일수록 더 많은 latent compute를 활용할 수 있다.
내부 궤적은 단순 수렴을 넘어 구조화된 계산 패턴을 보인다.

가장 중요한 메시지는 이것이다.

언어모델의 “생각 시간”은 출력 토큰 길이만으로 정의될 필요가 없다.

Source

Jonas Geiping, Sean McLeish, Neel Jain, John Kirchenbauer, Siddharth Singh, Brian R. Bartoldson, Bhavya Kailkhura, Abhinav Bhatele, Tom Goldstein. Scaling up Test-Time Compute with Latent Reasoning: A Recurrent Depth Approach. arXiv:2502.05171v2, 17 Feb 2025.
Paper: https://arxiv.org/abs/2502.05171
PDF: https://arxiv.org/pdf/2502.05171
Model: https://huggingface.co/tomg-group-umd/huginn-0125
Code and Data: https://github.com/seal-rg/recurrent-pretraining

'AI 생성 글 정리 > modeling' 카테고리의 다른 글

DeepSeek-V4: Towards Highly Efficient Million-Token Context Intelligence 논문 정리 (1)	2026.04.26
[Parcae: Scaling Laws For Stable Looped Language Models] 논문 정리 (0)	2026.04.22
TURBOQUANT 논문 정리 (0)	2026.04.22
Training language models to follow instructions with human feedback 논문 정리 (0)	2026.04.21
Chain-of-Thought Prompting Elicits Reasoning in Large Language Models 논문 정리 (0)	2026.04.21

Honbul과 컴퓨터