[Parcae: Scaling Laws For Stable Looped Language Models] 논문 정리

한눈에 보기

이 논문은 루프드 언어 모델을 안정적으로 학습시키는 방법을 제안한다.

루프드 모델은 같은 중간 블록을 여러 번 반복해서 쓴다.

목표는 단순하다.

파라미터 수를 크게 늘리지 않는다.
대신 같은 블록을 더 많이 돌려 연산량을 늘린다.
학습 시점과 추론 시점 모두에서 “더 생각하기”를 가능하게 한다.

하지만 기존 루프드 모델에는 문제가 있었다.

반복이 깊어질수록 내부 상태가 폭주했다.

학습 손실도 갑자기 튀었다.

Parcae는 이 문제를 동역학 시스템 관점으로 다시 해석한다.

그리고 반복 상태가 폭주하지 않도록 구조와 학습 절차를 함께 바꾼다.

주목할 지점: 왼쪽은 반복 상태를 안정화하는 구조이고, 오른쪽은 반복 횟수가 학습 연산량의 독립적인 조절 축이 될 수 있음을 보여준다.

핵심 결과는 다음과 같다.

기존 대규모 루프드 모델보다 검증 perplexity를 최대 6.3% 낮췄다.
같은 파라미터와 데이터 조건에서 Transformer보다 Core 점수를 최대 2.99점 높였다.
770M 규모 Parcae는 Core 기준으로 1.3B Transformer에 가까운 품질을 보였다.
학습 중 반복 횟수와 데이터 양은 함께 늘려야 효율적이었다.
추론 시 반복을 더 늘리면 성능이 좋아지지만, 일정 지점에서 포화된다.

왜 이 논문이 중요한가

언어 모델 성능을 올리는 전통적인 방법은 두 가지다.

파라미터를 늘린다.
학습 데이터를 늘린다.

이 방식은 잘 작동한다.

하지만 배포 비용이 커진다.

특히 추론 환경에서는 메모리와 지연 시간이 중요하다.

엣지 디바이스나 비용 제한이 큰 서비스에서는 더 작은 모델로 더 높은 품질을 내야 한다.

루프드 모델은 이 지점에서 매력적이다.

같은 블록을 반복해서 쓰면, 파라미터는 거의 유지하면서 연산량을 늘릴 수 있다.

비유하면 다음과 같다.

고정 깊이 Transformer는 정해진 단계만 생각한다.

루프드 모델은 같은 사고 과정을 여러 번 반복할 수 있다.

문제는 반복이 불안정하다는 점이다.

Parcae는 이 반복을 안정화해 “루프”를 실제 스케일링 축으로 만들려 한다.

기존 루프드 모델의 문제: 상태 폭주

기존 루프드 모델은 중간 블록을 반복하면서 입력 정보를 계속 주입한다.

이때 이전 반복의 내부 상태와 새로 들어오는 입력이 섞인다.

섞는 방식이 잘못되면 문제가 생긴다.

내부 상태가 매 반복마다 커진다.

처음에는 작은 흔들림처럼 보인다.

하지만 반복되면 손실이 튀고, 학습이 무너진다.

논문은 이를 잔차 스트림의 폭주로 본다.

잔차 스트림은 Transformer 내부에서 정보가 지나가는 주된 통로다.

루프드 모델에서는 이 통로가 여러 번 재사용된다.

그래서 작은 불안정성도 반복을 거치며 크게 증폭된다.

주목할 지점: 불안정한 기준 모델은 내부 상태 크기가 급격히 커지고, Parcae는 반복 중에도 상태 크기를 안정적으로 유지한다.

기존 연구는 이 문제를 완화하기 위해 잔차 정규화를 사용했다.

그러나 이는 근본 해결책이라기보다 응급 처치에 가까웠다.

학습률 선택에 민감했고, 큰 규모에서는 여전히 손실 스파이크가 발생했다.

Parcae의 관점: 반복 모델은 동역학 시스템이다

논문은 루프드 모델을 단순한 “깊은 네트워크”가 아니라 상태가 시간에 따라 변하는 시스템으로 본다.

여기서 시간은 실제 시간이 아니다.

반복 횟수다.

한 번 반복할 때마다 내부 상태가 갱신된다.

이 관점에서 중요한 질문은 하나다.

이전 상태를 얼마나 강하게 다음 상태에 남길 것인가?

너무 강하게 남기면 상태가 폭주한다.

너무 약하게 남기면 반복의 의미가 사라진다.

Parcae는 이전 상태를 안정적으로 감쇠시키는 방향으로 설계한다.

즉, 반복할수록 상태가 무제한 커지지 않도록 한다.

주목할 지점: 학습률이 커질수록 불안정한 모델은 상태 전이 지표가 빠르게 안정권을 벗어나며, 이것이 상태 폭주와 직접 연결된다.

이 설명은 복잡한 수식을 쓰지 않아도 직관적으로 이해할 수 있다.

마이크와 스피커가 너무 가까우면 하울링이 생긴다.

소리가 다시 마이크로 들어가고, 더 큰 소리로 증폭되고, 다시 반복된다.

루프드 모델의 불안정성도 비슷하다.

반복 구조가 이전 상태를 계속 키우면 내부 표현이 폭주한다.

Parcae는 이 되먹임을 안정권 안에 묶어 둔다.

Parcae의 구조적 해법

Parcae는 크게 세 부분으로 구성된다.

Prelude: 입력 토큰을 내부 표현으로 바꾼다.
Recurrent Block: 같은 중간 블록을 여러 번 반복한다.
Coda: 최종 내부 상태를 언어 모델 출력으로 바꾼다.

차이는 반복 블록에 있다.

Parcae는 반복 상태를 갱신할 때 다음 세 가지를 적용한다.

1. 이전 상태를 안정적으로 감쇠

반복 블록은 이전 상태를 그대로 두지 않는다.

상태가 반복될수록 폭주하지 않도록 전이 방식을 제한한다.

핵심은 “상태를 키우는 전이”가 아니라 “상태를 통제하는 전이”를 학습하게 하는 것이다.

2. 입력 주입을 정규화

Prelude가 만든 입력 표현은 반복 블록으로 들어간다.

이 입력 표현의 크기가 너무 커지면 반복 첫 단계부터 문제가 생긴다.

Parcae는 이 입력을 정규화한다.

덕분에 반복 블록이 받는 신호의 규모가 안정된다.

3. 시퀀스별 반복 깊이 샘플링

기존 방식은 미니배치 전체에 같은 반복 깊이를 적용했다.

Parcae는 한 미니배치 안에서도 시퀀스마다 다른 반복 깊이를 샘플링한다.

이 방식은 모델이 다양한 반복 깊이에 더 자연스럽게 노출되도록 만든다.

그 결과 학습 중 손실 스파이크가 줄어든다.

주목할 지점: 시퀀스별 샘플링은 미니배치 단위 샘플링에서 나타나는 날카로운 손실 스파이크를 크게 줄인다.

손실 스파이크가 줄어드는 이유도 논문은 내부 지표로 확인한다.

반복 마지막 단계에서 상태가 크게 튀지 않는다.

즉, 모델이 반복을 거치며 더 안정적인 고정점에 접근한다.

주목할 지점: 시퀀스별 샘플링은 반복 마지막 단계의 급격한 잔차 점프를 줄여 안정적인 반복 동작을 만든다.

대규모 학습에서 추가로 필요한 것: Prelude 정규화

논문은 1.3B 규모 실험에서 후반 학습 불안정성을 관찰했다.

초반에는 안정적이었다.

하지만 학습 후반에 내부 상태가 커지고 손실이 튀었다.

원인을 추적해 보니 반복 블록 자체보다 Prelude 출력의 입력 주입이 문제였다.

Prelude가 만든 표현이 반복 블록 첫 단계에서 지나치게 커졌다.

Parcae는 Prelude 출력에 정규화를 추가한다.

이 간단한 변경으로 큰 규모에서도 상태 폭주가 억제된다.

주목할 지점: 정규화를 넣지 않은 모델은 규모가 커질수록 반복 상태가 크게 흔들리지만, 정규화를 넣은 모델은 훨씬 낮은 수준을 유지한다.

정규화는 안정성만 개선하지 않았다.

140M과 370M 규모에서는 검증 손실 수렴도 더 좋아졌다.

주목할 지점: Prelude 정규화는 작은 규모와 중간 규모에서도 검증 손실을 더 낮은 경로로 수렴시킨다.

결과 1: 기존 루프드 모델보다 안정적이고 정확하다

논문은 Parcae를 기존 Recurrent Depth Model과 비교했다.

조건은 파라미터와 데이터가 맞춰진 설정이다.

결과는 분명하다.

100M 규모에서 Parcae는 검증 perplexity를 낮췄다.
350M 규모에서도 같은 경향이 유지됐다.
여러 downstream 벤치마크 평균 점수도 개선됐다.

특히 기존 모델은 학습률이 올라가면 쉽게 발산했다.

Parcae는 더 넓은 학습률 범위에서 수렴했다.

이 점은 구조적 안정화가 실제 학습 안정성으로 이어진다는 증거다.

결과 2: 같은 규모 Transformer보다 효율적이다

Parcae는 고정 깊이 Transformer와도 비교됐다.

모든 비교는 같은 파라미터 규모와 같은 데이터 조건을 맞춘 설정이다.

아래는 핵심 결과다.

규모	Transformer 검증 PPL	Parcae 검증 PPL	Transformer Core	Parcae Core	Transformer Core-Extended	Parcae Core-Extended
140M	21.48	19.06	13.00	14.04	8.80	9.67
370M	15.79	14.49	17.46	20.00	11.71	12.75
770M	13.08	12.49	22.42	25.07	14.20	15.19
1.3B	11.95	11.42	25.45	28.44	15.90	17.08

해석은 간단하다.

Parcae는 같은 파라미터 규모에서 더 낮은 perplexity와 더 높은 benchmark 점수를 낸다.

특히 Core 기준으로 770M Parcae는 1.3B Transformer에 가까운 성능을 보인다.

이는 루프가 단순한 파라미터 공유가 아니라, 품질 향상을 위한 실질적 연산 축이 될 수 있음을 보여준다.

결과 3: 학습 연산량을 늘릴 때 반복도 함께 늘려야 한다

논문은 동일한 연산량 조건에서 두 가지 선택지를 비교한다.

더 많은 데이터를 학습할 것인가?
같은 데이터를 줄이고 반복 횟수를 늘릴 것인가?

결론은 어느 한쪽만이 아니다.

반복 횟수와 데이터 양을 함께 조절해야 한다.

반복이 너무 적으면 모델이 충분히 “생각”하지 못한다.

반복이 너무 많으면 데이터가 부족해진다.

최적점은 둘 사이의 균형에 있다.

주목할 지점: 같은 연산량에서도 반복 횟수에 따라 손실이 달라지며, 각 연산량마다 가장 효율적인 반복 지점이 존재한다.

이 결과는 중요한 의미를 갖는다.

기존 스케일링 법칙은 주로 파라미터와 데이터의 관계를 다뤘다.

Parcae는 여기에 반복 깊이를 추가한다.

즉, 모델 품질을 높이는 축이 하나 더 생긴다.

주목할 지점: 연산량이 커질수록 최적 반복 횟수와 학습 토큰 수가 함께 증가하며, 두 값 모두 예측 가능한 패턴을 따른다.

논문은 고정 깊이 방식과 반복 최적화 방식을 비교한다.

반복을 적절히 쓰는 모델이 더 낮은 손실 경계를 만든다.

즉, 같은 파라미터와 같은 연산량에서도 반복을 쓰는 편이 더 효율적일 수 있다.

주목할 지점: 파란 경계는 반복을 최적으로 조절했을 때 더 낮은 손실에 도달할 수 있음을 보여준다.

결과 4: 추론 시에도 반복은 성능을 높인다

Parcae는 추론 시점에도 반복 횟수를 조절할 수 있다.

학습 때보다 더 여러 번 반복하면 성능이 개선된다.

하지만 무한히 좋아지지는 않는다.

일정 횟수 이후에는 개선이 작아진다.

논문은 이를 포화되는 추론 스케일링으로 설명한다.

주목할 지점: 반복을 늘리면 perplexity는 낮아지고 benchmark 정확도는 올라가지만, 훈련된 반복 수준 근처에서 개선 폭이 줄어든다.

이 포화는 부정적인 결과만은 아니다.

오히려 실용적으로 중요하다.

필요할 때만 반복을 더 쓰면 된다.

쉬운 입력에는 적게 쓰고, 어려운 입력에는 더 많이 쓰는 방식이 가능하다.

다만 논문은 학습 반복 깊이가 추론 반복의 상한을 결정한다고 본다.

훈련 중 깊은 반복을 경험하지 못한 모델은 추론에서 반복을 많이 늘려도 큰 이득을 얻기 어렵다.

주목할 지점: 서로 다른 학습 반복 깊이의 모델도 추론 반복을 늘리면 비슷한 형태로 포화 곡선에 접근한다.

논문은 이 관계를 하나의 통합 스케일링 관점으로 묶는다.

학습 스케일링은 도달 가능한 바닥 성능을 정한다.

추론 반복은 그 바닥에 얼마나 빨리 접근할지를 정한다.

주목할 지점: 통합 예측 곡선은 실제 검증 손실과 거의 같은 포화 형태를 따라가며, 학습과 추론 반복을 하나의 패턴으로 설명한다.

핵심 기여 정리

1. 루프드 모델 불안정성의 원인을 명확히 설명

논문은 기존 루프드 모델이 왜 폭주하는지 동역학 시스템 관점에서 설명한다.

단순히 “깊어서 불안정하다”가 아니다.

이전 상태를 다음 상태로 넘기는 방식이 반복 과정에서 상태를 증폭시킬 수 있기 때문이다.

2. 안정성을 구조적으로 보장하는 Parcae 제안

Parcae는 반복 상태 전이가 안정권 안에 머물도록 제한한다.

또 입력 주입을 정규화하고, 시퀀스별 반복 깊이 샘플링을 사용한다.

구조와 학습 절차를 함께 바꾼 점이 중요하다.

3. 반복을 새로운 스케일링 축으로 제시

논문은 반복이 단순한 테크닉이 아니라 스케일링 법칙의 한 축이 될 수 있음을 보인다.

파라미터, 데이터, 반복 깊이를 함께 고려해야 한다.

4. 추론 시 연산량 조절 가능성 제시

Parcae는 추론 시 반복 횟수를 늘려 품질을 높일 수 있다.

이는 입력 난이도에 따라 연산량을 조절하는 모델 설계로 이어질 수 있다.

실무적 의미

Parcae가 특히 의미 있는 곳은 메모리 제약이 있는 환경이다.

파라미터를 두 배로 키우는 대신, 같은 파라미터를 더 반복해서 쓸 수 있다.

이 방식은 다음 상황에서 유리할 수 있다.

모델 메모리가 병목인 환경
지연 시간보다 메모리 절감이 더 중요한 서비스
입력별로 연산량을 조절하고 싶은 추론 시스템
작은 모델로 큰 모델에 가까운 품질을 내야 하는 배포 시나리오

다만 공짜는 아니다.

반복을 늘리면 추론 시간이 늘어난다.

따라서 Parcae의 장점은 “항상 빠르다”가 아니다.

“파라미터를 늘리지 않고 품질과 연산량을 교환할 수 있다”에 가깝다.

한계와 남은 질문

논문도 몇 가지 한계를 인정한다.

실험 규모

최대 1.3B 파라미터까지 실험했다.

현대 대형 언어 모델 기준에서는 아직 중간 규모다.

더 큰 모델과 더 큰 연산량에서도 같은 법칙이 유지되는지는 추가 검증이 필요하다.

루프 배치와 구조

이 논문은 중간 블록을 반복하는 구조에 집중한다.

하지만 반복을 어디에 둘지, 몇 층을 반복할지, 어떤 블록을 반복할지는 아직 열린 문제다.

추론 지연 시간

반복은 품질을 높이지만 지연 시간을 늘린다.

실제 서비스에서는 품질, 비용, 지연 시간의 균형이 중요하다.

반복 횟수를 입력별로 자동 조절하는 전략이 필요하다.

더 큰 반복 깊이

논문은 반복이 안정화될 수 있음을 보였다.

하지만 훨씬 더 깊은 반복에서 어떤 현상이 생기는지는 아직 충분히 연구되지 않았다.

결론

Parcae는 루프드 언어 모델을 안정적으로 학습시키기 위한 구조적 제안이다.

핵심은 반복을 안정적인 상태 갱신 문제로 바라보는 것이다.

이 관점 덕분에 기존 루프드 모델의 상태 폭주를 설명하고, 이를 막는 설계를 만들 수 있었다.

논문의 가장 큰 메시지는 다음과 같다.

파라미터를 키우는 것만이 스케일링은 아니다.

같은 파라미터를 안정적으로 반복하는 것도 스케일링이 될 수 있다.

Parcae는 이 가능성을 언어 모델 학습과 추론 양쪽에서 보여준다.

Source

Hayden Prairie, Zachary Novack, Taylor Berg-Kirkpatrick, Daniel Y. Fu, “Parcae: Scaling Laws For Stable Looped Language Models”, arXiv:2604.12946v1, 2026-04-14.
Original link: https://arxiv.org/abs/2604.12946

'AI 생성 글 정리 > modeling' 카테고리의 다른 글

Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models 논문 정리 (0)	2026.04.26
DeepSeek-V4: Towards Highly Efficient Million-Token Context Intelligence 논문 정리 (1)	2026.04.26
Scaling up Test-Time Compute with Latent Reasoning: A Recurrent Depth Approach 논문 정리 (0)	2026.04.22
TURBOQUANT 논문 정리 (0)	2026.04.22
Training language models to follow instructions with human feedback 논문 정리 (0)	2026.04.21

Honbul과 컴퓨터

[Parcae: Scaling Laws For Stable Looped Language Models] 논문 정리

한눈에 보기

왜 이 논문이 중요한가

기존 루프드 모델의 문제: 상태 폭주

Parcae의 관점: 반복 모델은 동역학 시스템이다