본문 바로가기
AI 생성 글 정리/modeling

Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models 논문 정리

by Honbul 2026. 4. 26.

한 줄 요약

이 논문은 대규모 언어 모델에 조건부 메모리(conditional memory) 라는 새로운 희소성 축을 제안한다.

핵심 아이디어는 단순하다.

  • 추론이 필요한 부분은 MoE 전문가가 처리한다.
  • 이름, 관용구, 반복 패턴처럼 정적인 부분은 거대한 메모리 테이블에서 바로 꺼내 쓴다.
  • 이렇게 하면 모델의 초반 층이 “이미 알고 있는 패턴”을 다시 계산하는 데 쓰이지 않는다.

저자들은 이 구조를 Engram이라는 모듈로 구현했다.

 


왜 MoE만으로는 부족한가

MoE는 필요한 전문가만 활성화해 계산량을 아낀다.
그래서 전체 파라미터 수를 크게 늘려도, 실제 계산 비용은 비교적 낮게 유지할 수 있다.

하지만 MoE는 여전히 계산 중심 구조다.

언어에는 계산보다 조회에 가까운 패턴이 많다.

예를 들어 다음과 같은 표현이다.

  • “Alexander the Great”
  • “Princess of Wales”
  • “Milky Way”
  • 중국어 성어와 역사 인물명

이런 표현은 매번 깊은 추론을 할 필요가 없다.
이미 저장된 정적 패턴을 빠르게 찾아오면 된다.

문제는 Transformer에 이런 내장 조회 장치가 없다는 점이다.
그래서 모델은 초반 여러 층을 써서 정적인 패턴을 다시 조립한다.

논문의 출발점은 이 낭비를 줄이는 것이다.


Engram: 계산 대신 조회를 넣은 모듈

Engram은 최근 토큰 묶음을 보고, 그에 맞는 메모리 벡터를 찾아온다.
전통적인 n-gram 아이디어를 현대적인 대규모 모델 구조에 맞게 확장한 방식이다.

작동 흐름은 다음과 같다.

  • 토큰을 정규화해 비슷한 표기를 같은 범주로 묶는다.
  • 2-gram, 3-gram 같은 짧은 로컬 패턴을 만든다.
  • 이 패턴을 해시로 변환해 거대한 임베딩 테이블에서 값을 조회한다.
  • 현재 문맥과 맞는지 게이트가 판단한다.
  • 맞는 경우에만 메모리 정보를 Transformer의 hidden state에 더한다.

즉, Engram은 “찾아온 기억”을 무조건 쓰지 않는다.
현재 문맥과 맞을 때만 통과시킨다.

 

주목할 부분: Engram은 Attention과 MoE 앞에서 로컬 패턴을 먼저 조회해, 이후 층이 더 복잡한 문맥 처리에 집중하도록 만든다.


시스템 설계: 메모리는 GPU 밖에 둘 수 있다

Engram의 조회 주소는 입력 토큰만 보면 미리 알 수 있다.
이 점이 MoE와 다르다.

MoE는 hidden state를 본 뒤 어떤 전문가를 쓸지 결정한다.
반면 Engram은 토큰 패턴이 정해지면 조회할 메모리 위치도 정해진다.

이 덕분에 추론 시 다음 최적화가 가능하다.

  • 큰 메모리 테이블은 호스트 메모리에 둔다.
  • 필요한 행만 미리 가져온다.
  • 앞쪽 Transformer 블록이 계산되는 동안 전송을 겹친다.
  • GPU가 기다리는 시간을 줄인다.

논문은 100B 규모 Engram 테이블을 호스트 메모리에 둔 실험도 수행했다.
처리량 손실은 4B dense 백본에서 약 1.9%, 8B dense 백본에서 약 2.8%였다.

 

주목할 부분: 추론 단계에서는 Engram 테이블을 호스트 쪽에 두고, 필요한 조회 결과만 GPU 계산과 겹쳐 가져오는 구조가 핵심이다.


핵심 스케일링 법칙: MoE와 메모리는 경쟁자가 아니다

저자들은 “희소 파라미터 예산을 어디에 써야 하는가”를 실험했다.

비교 조건은 엄격하다.

  • 전체 파라미터 수를 맞춘다.
  • 토큰당 활성화되는 파라미터 수도 맞춘다.
  • 학습 계산량도 맞춘다.
  • 차이는 MoE 전문가에 줄 예산과 Engram 메모리에 줄 예산뿐이다.

결과는 U자형이었다.

MoE에 전부 투자해도 최적이 아니었다.
Engram에 전부 투자해도 최적이 아니었다.

가장 좋은 지점은 대략 다음 구조였다.

  • 희소 예산의 대부분은 MoE 전문가에 둔다.
  • 일부는 Engram 메모리에 배정한다.
  • 논문 실험에서는 약 20~25%를 Engram에 주는 구성이 가장 강했다.

이 결과는 중요한 의미를 가진다.

Engram은 MoE를 대체하지 않는다.
MoE가 잘 못하는 정적 조회를 보완한다.

 

주목할 부분: 왼쪽의 U자형 최저점은 “전부 MoE”보다 “MoE와 Engram의 혼합”이 더 낫다는 실험적 근거다.


대규모 사전학습 결과

저자들은 262B 토큰으로 네 모델을 학습했다.

  • Dense-4B
  • MoE-27B
  • Engram-27B
  • Engram-40B

중요한 비교는 MoE-27B vs Engram-27B다.

두 모델은 전체 파라미터와 활성 파라미터가 같다.
Engram-27B는 MoE 전문가 수를 줄이고, 그 예산을 5.7B 규모 Engram 메모리에 배정했다.

그 결과 Engram-27B는 MoE-27B를 여러 영역에서 앞섰다.

영역 대표 지표 MoE-27B Engram-27B 차이
지식 MMLU 57.4 60.4 +3.0
중국어 지식 CMMLU 57.9 61.9 +4.0
추론 BBH 50.9 55.9 +5.0
과학 추론 ARC-Challenge 70.1 73.8 +3.7
독해 DROP 55.7 59.0 +3.3
코드 HumanEval 37.8 40.8 +3.0
수학 MATH 28.3 30.7 +2.4

 

주목할 점은 지식형 태스크만 오른 것이 아니라는 점이다.
일반 추론, 코드, 수학에서도 개선이 컸다.

논문은 이를 “초반 층의 부담 감소”로 해석한다.
정적 패턴을 Engram이 가져가면, 백본은 더 복잡한 문제에 깊이를 쓸 수 있다.

 

주목할 부분: 마지막 10k 학습 구간에서도 Engram-27B의 곡선이 다수 벤치마크에서 MoE-27B보다 높은 위치를 유지한다.


긴 문맥에서 더 강한 이유

Engram은 로컬 패턴을 조회로 처리한다.
그러면 Attention은 더 먼 문맥을 보는 데 여유를 얻는다.

논문은 긴 문맥 확장 후 LongPPL과 RULER로 평가했다.

특히 RULER의 검색형 태스크에서 차이가 컸다.

  • Multi-Query NIAH: 84.2 → 97.0
  • Variable Tracking: 77.0 → 89.0
  • Frequent Words Extraction: 73.0 → 99.3

이 결과는 Engram의 장점이 단순 암기에 그치지 않음을 보여준다.
로컬 의존성을 덜어내면, 긴 문맥에서 전역 정보 처리 능력도 좋아진다.


내부 분석: Engram은 모델을 “더 깊게” 만든다

논문은 Engram이 실제로 어떤 효과를 내는지 분석했다.

두 가지 도구를 썼다.

  • 중간 층의 예측이 최종 예측에 얼마나 가까운지 보는 분석
  • 서로 다른 모델의 층 표현이 얼마나 비슷한지 비교하는 분석

결과는 일관적이었다.

Engram 모델은 초반 층부터 최종 예측에 더 가까운 표현을 만든다.
또한 Engram의 얕은 층 표현이 MoE의 더 깊은 층 표현과 비슷하게 나타났다.

예를 들어 Engram-27B의 5번째 층은 MoE-27B의 약 12번째 층과 가까운 표현을 보였다.

해석은 명확하다.

Engram은 초반 feature composition을 건너뛰게 한다.
그래서 같은 층 수라도 실제로는 더 깊은 모델처럼 작동한다.

 

주목할 부분: CKA heatmap의 대각선 위쪽 정렬은 Engram의 얕은 층이 MoE의 더 깊은 층과 기능적으로 가까워졌다는 신호다.


어디에 넣어야 가장 좋은가

Engram은 아무 층에나 넣으면 되는 모듈이 아니다.

너무 이른 층에 넣으면 문맥 정보가 부족하다.
게이트가 어떤 메모리를 써야 하는지 덜 정확하게 판단할 수 있다.

너무 늦은 층에 넣으면 이미 백본이 로컬 패턴을 계산해버린 뒤다.
메모리 조회의 이점이 줄어든다.

실험에서는 단일 삽입 기준으로 2번째 층이 가장 좋았다.
또한 같은 메모리 예산을 두 모듈로 나누어 2번째 층과 6번째 층에 넣으면 더 좋아졌다.

구성 요소별로는 다음 세 가지가 특히 중요했다.

  • 문맥 기반 게이팅
  • 토크나이저 압축
  • multi-branch 구조에 맞춘 branch-specific fusion

주목할 부분: 레이어 스윕에서 2번째 층이 가장 낮은 손실을 보이며, 게이팅과 토큰 압축을 제거하면 성능이 눈에 띄게 나빠진다.


Engram은 어떤 지식을 맡는가

저자들은 추론 시 Engram 출력을 완전히 막는 실험을 했다.
백본은 그대로 두고, Engram이 제공하는 메모리만 차단한 것이다.

결과는 기능 분리가 뚜렷했다.

독해 태스크는 비교적 잘 유지됐다.

  • C3: 93% 유지
  • RACE-Middle: 89% 유지
  • DROP: 81% 유지

반면 사실 지식 태스크는 크게 무너졌다.

  • TriviaQA: 29% 유지
  • PopQA: 44% 유지
  • TriviaQA-ZH: 44% 유지

즉, Engram은 단순 보조 장치가 아니다.
모델의 사실 지식과 정적 패턴 저장소 역할을 강하게 맡는다.

 

주목할 부분: 사실 지식 막대가 크게 낮아지는 영역은 Engram이 parametric knowledge 저장에 직접 관여한다는 근거다.


게이트는 실제로 정적 패턴을 고른다

마지막으로 논문은 Engram 게이트 값을 시각화했다.

게이트는 특정 토큰에서 강하게 켜졌다.
특히 정적인 표현이 완성되는 위치에서 활성화가 높았다.

예시는 다음과 같다.

  • “Alexander the Great”
  • “the Milky Way”
  • “Princess of Wales”
  • “四大发明”
  • “张仲景”

이는 Engram이 단어 하나를 외우는 것이 아니라, 짧은 구문 단위의 패턴을 인식한다는 점을 보여준다.

 

주목할 부분: 붉게 활성화된 구간은 이름, 관용구, 역사적 표현처럼 조회로 처리하기 좋은 패턴이 완성되는 지점이다.


이 논문의 핵심 기여

이 논문의 주장은 단순히 “큰 임베딩 테이블을 붙이면 좋다”가 아니다.

핵심은 구조적 분업이다.

  • MoE는 동적인 계산을 맡는다.
  • Engram은 정적인 조회를 맡는다.
  • Attention은 로컬 패턴보다 전역 문맥에 더 집중한다.
  • 시스템은 거대한 메모리를 GPU 밖에 두고도 활용할 수 있다.

따라서 Engram은 새로운 파라미터 확장 방식이다.
계산량을 크게 늘리지 않고도 모델의 저장 능력을 확장한다.

이 점에서 논문은 “조건부 계산” 중심의 희소 모델에 “조건부 메모리”라는 축을 추가한다.


한계와 읽을 때의 주의점

이 결과는 강하지만, 그대로 일반화하기 전에 확인할 점도 있다.

  • arXiv v1 논문이므로 독립 재현 결과가 아직 중요하다.
  • Engram-40B가 모든 태스크에서 Engram-27B를 압도하지는 않는다.
  • 저자들은 Engram-40B가 아직 충분히 학습되지 않았을 가능성을 제시한다.
  • 메모리는 정적 파라미터이므로, 최신 지식 업데이트에는 별도 학습이나 편집이 필요할 수 있다.
  • 실제 효율은 하드웨어, 캐시 정책, 메모리 계층 설계에 영향을 받는다.

결론

Engram의 메시지는 명확하다.

언어 모델은 모든 것을 계산으로 해결할 필요가 없다.
반복적이고 정적인 패턴은 조회로 처리할 수 있다.

MoE가 “어떤 계산을 할 것인가”를 고르는 구조라면, Engram은 “어떤 기억을 꺼낼 것인가”를 고르는 구조다.

이 둘을 함께 쓰면 더 효율적인 희소 모델이 된다.
특히 지식, 추론, 코드, 수학, 긴 문맥 검색에서 모두 개선이 관찰됐다.

다음 세대 대규모 언어 모델에서 중요한 질문은 단순히 “얼마나 크게 만들 것인가”가 아닐 수 있다.

더 중요한 질문은 이것이다.

무엇을 계산하고, 무엇을 기억으로 조회할 것인가.


Source

  • Xin Cheng, Wangding Zeng, Damai Dai, Qinyu Chen, Bingxuan Wang, Zhenda Xie, Kezhao Huang, Xingkai Yu, Zhewen Hao, Yukun Li, Han Zhang, Huishuai Zhang, Dongyan Zhao, Wenfeng Liang. “Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models.” arXiv:2601.07372v1, 12 Jan 2026.
  • Original: https://arxiv.org/abs/2601.07372
  • Code: https://github.com/deepseek-ai/Engram