본문 바로가기
AI 생성 글 정리/agent

Mamba 논문 핵심 정리

by Honbul 2026. 4. 2.

Mamba: Linear-Time Sequence Modeling with Selective State Spaces (Albert Gu, Tri Dao)

한 줄 요약
Mamba는 SSM(State Space Model)에 “선택(selectivity)”을 넣어서, 긴 문맥을 선형 시간으로 처리하면서도 Transformer가 잘하던 content-based reasoning에 가까운 능력을 회복하려는 논문이다.


0. 먼저 결론부터

이 논문의 핵심은 단순히 “attention 없이도 빠른 모델을 만들었다”가 아니다. 저자들이 진짜로 해결하려는 문제는 기존 선형 시간 모델들이 왜 언어에서 Transformer만큼 강하지 못했는가이다.
논문은 그 이유를 입력 내용에 따라 무엇을 기억하고, 무엇을 버릴지 결정하지 못하는 한계로 본다. 그리고 그 해법으로 Selective SSM(S6), hardware-aware selective scan, 단순화된 Mamba block을 제안한다.

이 논문에서 꼭 기억할 5가지

  1. 기존 SSM의 약점은 “내용 기반 선택”이 약하다는 점이다.
  2. Mamba의 핵심은 SSM 파라미터를 입력 의존적으로 바꾸는 것이다.
  3. 이 선택 메커니즘 때문에 더 이상 convolution으로 계산할 수 없어서, GPU 친화적인 scan 구현이 필요해진다.
  4. 결과적으로 언어·DNA·오디오에서 좋은 성능을 보이며, 특히 긴 문맥에서 강점을 드러낸다.
  5. 하지만 모든 연속 신호(raw audio)에서 선택성이 항상 유리한 것은 아니다. 이 점을 부록 ablation이 솔직하게 보여준다.

1. 왜 이 논문이 나왔나

Transformer는 강력하지만, 긴 시퀀스에서 비용이 크다. self-attention은 시퀀스 길이에 대해 계산량이 커지고, 추론 시에는 KV cache도 계속 유지해야 한다.
반대로 SSM 계열은 선형 시간, 상수 시간 step 추론, 긴 문맥 처리에 유리하다. 문제는 기존 SSM이 언어처럼 이산적이고 정보 밀도가 높은 데이터에서는 attention만큼 강하지 않았다는 점이다.

논문의 문제의식은 명확하다.

  • Transformer는 압축하지 않고 문맥을 거의 그대로 들고 가기 때문에 강하다.
  • RNN/SSM은 문맥을 작은 상태(state)에 압축해야 해서 효율적이다.
  • 따라서 좋은 시퀀스 모델의 본질은
    “작은 상태에 중요한 정보만 남길 수 있는가”로 바뀐다.
  • 저자들은 여기서 결정적인 능력을 selection이라고 부른다.

즉, Mamba는 “더 빠른 attention 대체재”라기보다,
“효율적인 recurrence가 Transformer급으로 똑똑해지려면 무엇이 필요하나?”에 대한 답에 가깝다.


2. 핵심 아이디어 ①: Selective SSM(S6)

기존 S4류 SSM은 시간에 따라 동역학이 바뀌지 않는 LTI(Linear Time Invariant) 모델이다.
쉽게 말해, 시점마다 같은 규칙으로 정보를 흘려보낸다. 이 방식은 길게 기억하는 데는 좋지만, 현재 토큰의 내용에 따라 “이건 기억하고 저건 버리기”가 어렵다.

Mamba는 여기서 SSM 파라미터 중 일부를 입력 의존적(input-dependent) 으로 만든다.

기존 S4:
  Δ, B, C 가 시간축에서 고정

Selective SSM (S6):
  B_t = s_B(x_t)
  C_t = s_C(x_t)
  Δ_t = softplus(Δ + s_Δ(x_t))

 

여기서 직관은 다음과 같다.

  • Δ_t: 지금 입력을 얼마나 강하게 반영할지, 혹은 이전 상태를 얼마나 유지할지를 조절한다.
  • B_t: 현재 입력을 상태 안으로 얼마나 넣을지 결정한다.
  • C_t: 상태에서 출력으로 무엇을 꺼낼지 결정한다.

저자들은 특히 Δ가 가장 중요한 선택 파라미터라고 본다. 논문 ablation에서도 Δ만 selective하게 만들어도 성능이 크게 오르고, B/C까지 함께 selective하게 만들면 추가 이득이 난다.

직관적으로 이해하기

이 논문에서 selection은 사실상 “state에 들어갈 정보의 입구와 출구를 내용 기반으로 조절하는 장치”다.
그래서 Mamba는 단순히 오래 기억하는 모델이 아니라, 중요한 것만 오래 기억하는 모델을 목표로 한다.


Figure 1. Selective SSM의 전체 그림

 

 

해설
이 그림은 논문의 핵심을 가장 압축적으로 보여준다. 기존 SSM은 큰 latent state를 직접 펼치지 않고 time-invariant한 구조를 이용해 효율을 얻었다. 하지만 Mamba는 selection을 위해 Δ, B, C를 입력에 따라 바꾸고, 대신 상태를 GPU 메모리 계층 안에서 조심스럽게 확장·계산한다.
즉, “선택성”과 “효율성”을 동시에 살리기 위해 알고리즘과 커널 구현이 함께 바뀐다는 메시지다.
출처: Figure 1, p.3


3. 핵심 아이디어 ②: 왜 synthetic task가 중요한가

논문은 바로 대규모 언어 실험으로 들어가지 않고, 먼저 아주 중요한 두 장난감 문제를 든다.

  1. Selective Copying
  2. Induction Heads

이 둘은 “긴 문맥”보다 더 중요한 것을 보여준다.
바로 문맥에서 어떤 정보를 선택적으로 보존할 수 있는가이다.


Figure 2. Selective Copying과 Induction Heads

 

 

해설
왼쪽의 단순 Copying은 사실 LTI 모델도 잘 푼다. 왜냐하면 “몇 칸 뒤에 복사하면 된다”는 시간 규칙만 알면 되기 때문이다.
하지만 오른쪽의 Selective Copying은 간격이 매번 달라진다. 이때는 “어떤 토큰이 중요한가”를 내용으로 판단해야 한다.
아래의 Induction Heads도 마찬가지다. 문맥 안에서 패턴을 찾고, 그에 맞는 항목을 다시 꺼내야 한다.

이 그림이 전달하는 포인트는 명확하다.

  • 기존 LTI SSM은 시간 위치는 잘 다루지만
  • 내용 기반 선택(content-aware selection) 이 필요한 문제에서는 약하다.

논문 결과도 이 직관을 그대로 뒷받침한다.

  • Selective Copying에서 Mamba + S6는 99.8% 정확도
  • 같은 Mamba block 안에서도 S4만 쓰면 56.4%
  • Induction Heads에서는 학습 길이 256에서 학습한 뒤 길이 1,048,576까지 완전 일반화한다

출처: Figure 2, p.6 / Table 1, p.11 / Table 11, p.29

이 결과를 블로그에서 어떻게 해석하면 좋은가

이 synthetic 실험은 “장난감 문제”라서 덜 중요한 것이 아니라,
오히려 왜 Mamba가 언어에서 좋아질 수 있었는지 원인 수준에서 설명해 주는 실험이다.


4. 핵심 아이디어 ③: 선택성이 생기면 계산은 어떻게 하나

문제는 여기서 생긴다.
SSM 파라미터가 시점마다 달라지면, 기존처럼 convolution으로 빠르게 계산하기가 어렵다.
즉, selection을 넣는 순간 효율성이 깨질 위험이 있다.

저자들은 이를 hardware-aware selective scan으로 해결한다.

핵심 구현 포인트

  • kernel fusion
  • parallel scan
  • recomputation

직관적으로 보면 다음과 같다.

  1. 큰 상태를 GPU HBM에 통째로 쓰지 않는다.
  2. 필요한 계산을 빠른 SRAM 쪽에서 최대한 fused해서 수행한다.
  3. backward에서 메모리를 줄이기 위해 일부는 저장하지 않고 다시 계산한다.

그래서 이 논문은 모델 아이디어만이 아니라,
“이 아이디어를 실제로 빠르게 돌릴 수 있는 구현”까지 같이 제안한 논문이다.

이 부분이 중요한 이유는, Mamba의 성능 주장은 수학적 구조 + 시스템 최적화가 함께 만들어낸 결과이기 때문이다.


Figure 3. Mamba block 아키텍처

 

 

해설
이 그림은 H3 block과 Gated MLP를 결합해 Mamba block으로 단순화하는 과정을 보여준다.
요점은 다음 두 가지다.

  • 기존 SSM 계열의 block + MLP를 번갈아 쌓는 대신,
  • 한 block 안에 sequence transformation과 gated MLP 성격을 함께 넣어 반복한다.

그래서 Mamba는 attention이 없을 뿐 아니라, 논문 표현대로는 별도의 MLP block조차 없는 단순한 반복 구조에 가깝다.
모델 설계가 균질해지고, 구현도 비교적 단순해진다.

출처: Figure 3, p.8


5. Mamba를 이해하는 핵심 문장

Mamba를 설명할 때 아래 한 문장이 가장 중요하다.

Mamba의 핵심은 attention을 흉내 내는 것이 아니라, recurrence가 입력 내용에 따라 state를 선택적으로 갱신하도록 만든 것이다.

 

즉,

  • Transformer는 문맥을 거의 직접 참조하고,
  • Mamba는 문맥을 작은 state로 압축하되,
  • 그 압축 과정을 내용 기반으로 제어한다.

이 차이를 이해하면 이후 실험 결과가 자연스럽게 읽힌다.


6. 언어 모델링 결과: “처음으로 정말 Transformer급인 선형 시간 모델”

논문의 가장 큰 임팩트는 언어 결과다.
저자들은 Mamba를 다양한 efficient 모델 및 strong Transformer recipe와 비교한다.


Figure 4. Language scaling laws

 

 

해설
이 그래프의 메시지는 선명하다.

  • Mamba는 다른 attention-free 모델보다 꾸준히 낮은 perplexity를 보인다.
  • 특히 문맥 길이가 8k로 늘어날수록 강한 Transformer++와의 격차가 줄어든다.
  • 저자들은 이를 두고 “Transformer급 성능에 도달한 최초의 attention-free model”이라고 주장한다.

이 논문을 블로그에 정리할 때는 단순히 “Mamba가 좋다”보다
“언어에서 통하던 이유 없는 선형 모델의 낙관론이 아니라, 실제 scaling curve로 설득했다”는 점을 강조하는 편이 좋다.

출처: Figure 4, p.11

다운스트림도 왜 중요하나

Table 3에서는 zero-shot 평가도 제시한다.
대표적으로:

  • Mamba-1.4B 평균 59.7
  • Pythia-1.4B 평균 55.2
  • RWKV-1.5B 평균 54.3

또한

  • Mamba-2.8B 평균 63.3
  • Pythia-2.8B 평균 59.1
  • RWKV-3B 평균 59.6

즉, 논문 내 서술대로 대체로 두 배 가까운 크기의 baseline과 비슷한 수준까지 올라간다.
출처: Table 3, p.12


7. DNA 결과: 긴 문맥에서 selection의 장점이 더 잘 보이는 분야

DNA는 텍스트처럼 이산 토큰 시퀀스이면서도,
실제로는 아주 긴 거리의 의존성이 중요하다.
그래서 Mamba의 설계 철학이 잘 드러나는 테스트베드다.


Figure 5. DNA scaling laws

 

 

해설
왼쪽 그래프는 모델 크기를 키울수록 Mamba가 더 잘 스케일된다는 점을 보여준다.
논문은 큰 모델 구간에서 Mamba가 Transformer++와 HyenaDNA를 대략 3~4배 적은 파라미터로 맞출 수 있다고 해석한다.
오른쪽 그래프는 더 인상적이다. 문맥 길이를 1M까지 늘렸을 때 Mamba는 성능이 계속 좋아지지만, HyenaDNA는 오히려 악화된다.

이 차이는 selection의 의미를 잘 보여준다.

  • LTI 계열은 긴 문맥 전체를 거의 균일하게 섞기 쉽고
  • Mamba는 불필요한 정보는 무시하고 필요한 것만 유지할 수 있다.

출처: Figure 5, p.13


Figure 6. Great Apes DNA 분류

 

 

해설
이 다운스트림 실험은 사람/침팬지/고릴라/오랑우탄/보노보처럼 DNA가 매우 비슷한 종들을 구분하는 문제다.
길이가 길어질수록 Mamba가 더 크게 이득을 본다.

논문 수치 기준:

  • HyenaDNA 1.4M: 54.87% @ 1M 길이
  • Mamba 1.4M: 71.67%
  • Mamba 7M: 81.31%

이 결과는 “긴 문맥을 처리할 수 있다”에서 한 걸음 더 나아가,
“긴 문맥을 실제로 활용한다”는 증거로 읽을 수 있다.

출처: Figure 6, p.14 / Table 13, p.34


8. Audio 결과: 잘 되지만, 여기서 논문의 한계도 드러난다

오디오에서는 두 가지를 구분해서 보는 게 좋다.

  1. 장문맥 오디오 pretraining
  2. raw waveform에서 selection이 항상 유리한가

Figure 7. Audio pretraining

 

 

해설
YouTubeMix 피아노 데이터에서는 문맥이 길어질수록 Mamba가 꾸준히 좋아지고, 기존 S4+FFN(SaShiMi 계열)보다 더 낮은 BPB를 보인다.
즉, 오디오에서도 긴 문맥 활용 + 성능 개선은 분명하다.

출처: Figure 7, p.14

음성 생성 결과도 강하다

SC09 생성 실험에서 논문은 다음을 보고한다.

  • SaShiMi 5.8M: FID 1.99
  • Mamba 6.1M: FID 0.94
  • Mamba 24.3M: FID 0.67

작은 Mamba조차 더 큰 GAN/확산계열 baseline을 이기고, 큰 Mamba는 더 개선된다.
출처: Table 4, p.15


Figure 8. Efficiency benchmark

 

 

해설
왼쪽은 selective scan 구현이 standard PyTorch scan보다 훨씬 빠르다는 점을,
오른쪽은 실제 autoregressive inference에서 Mamba가 Transformer보다 훨씬 높은 throughput을 보인다는 점을 보여준다.

논문이 강조하는 수치는 다음과 같다.

  • scan 구현은 표준 구현 대비 20~40배 빠름
  • Mamba 추론 throughput은 비슷한 크기 Transformer 대비 4~5배 수준
  • KV cache가 없어서 더 큰 batch를 밀어 넣기 쉽다

이 그래프는 Mamba의 가치가 “품질”만이 아니라
“긴 문맥에서 품질을 유지하면서도 실제 추론 효율이 좋다”는 데 있음을 보여준다.

출처: Figure 8, p.15 / Appendix D, p.28 / Appendix E.5, p.35-36


9. 꼭 같이 봐야 하는 caveat: raw audio에서는 selection이 항상 정답이 아니다

이 논문의 장점은 자기 모델의 약점도 보여준다는 점이다.


Figure 10. Audio ablation

 

 

해설
이 그림은 raw audio waveform처럼 아주 매끄럽고 균일하게 샘플링된 연속 신호에서는, 오히려 LTI SSM의 inductive bias가 잘 맞을 수 있음을 보여준다.
왼쪽 그래프를 보면 full Mamba(S6)는 S4 계열보다 오히려 불리하다.
다만 오른쪽처럼 outer block이 먼저 신호를 압축한 뒤 center block만 바꾸면 차이가 줄어든다.

이건 굉장히 중요한 메시지다.

  • Mamba의 selection은 텍스트·DNA 같은 이산적/정보 밀도 높은 데이터에서 특히 강하다.
  • 반대로 연속적이고 smooth한 raw signal에서는 기존 LTI bias가 더 적합할 수 있다.

즉, Mamba는 “모든 모달리티에서 무조건 superior”라기보다,
selection이 필요한 문제에서 특히 강한 일반 backbone으로 보는 것이 정확하다.

출처: Figure 10, p.35


10. 이 논문에서 진짜 새로웠던 점

1) “긴 문맥”이 아니라 “선택적 압축”을 본다

많은 long-context 논문은 길이에 집중한다.
하지만 Mamba는 긴 문맥에서 무엇을 남기고 무엇을 버릴 것인가를 본다.
이 관점 전환이 논문의 가장 큰 가치다.

2) 모델 아이디어와 시스템 구현이 같이 간다

selection만 넣으면 계산이 느려질 수 있다.
논문은 selective scan까지 같이 제안해서 “실제로 돌아가는 설계”를 만든다.

3) ablation이 논문 주장과 잘 맞아떨어진다

  • Δ가 가장 중요하다.
  • B/C를 함께 selective하게 만들면 더 좋아진다.
  • state dimension을 늘리면 selective SSM에서 특히 이득이 커진다.

즉, 실험이 단순히 “잘 나왔다”가 아니라
저자들이 제시한 메커니즘 가설을 꽤 일관되게 뒷받침한다.


11. 한계와 주의할 점

이 논문을 소개할 때는 아래 세 가지를 같이 적는 것이 균형 잡힌 정리다.

  1. raw continuous signal에서는 selection이 항상 유리하지 않다.
    논문 부록의 오디오 ablation이 이를 명확히 보여준다.
  2. 당시 기준 초대형 LLM 규모에서의 검증은 제한적이다.
    논문도 7B+ 이상에서의 비교는 더 봐야 한다고 적는다.
  3. Mamba의 효율 주장은 구현 품질과 커널 최적화에 강하게 의존한다.
    단순 개념 구현만으로는 논문 수준 throughput이 바로 나오지 않을 수 있다.

12. 요약

버전 A — 가장 짧은 요약

Mamba 논문은 기존 SSM이 언어에서 약했던 이유를 “무엇을 기억하고 무엇을 버릴지 내용에 따라 결정하지 못한다”는 점으로 본다. 이를 해결하기 위해 입력에 따라 SSM 파라미터가 달라지는 Selective SSM을 제안하고, 동시에 이를 빠르게 계산하기 위한 hardware-aware selective scan을 설계한다. 결과적으로 Mamba는 선형 시간 시퀀스 모델이면서도 언어·DNA·오디오에서 강한 성능을 보이고, 특히 긴 문맥과 추론 효율 측면에서 Transformer의 강력한 대안으로 제시된다.


13. 마지막으로 기억하면 좋은 문장

Mamba의 본질은 긴 문맥 그 자체가 아니라, 긴 문맥에서 중요한 정보만 state에 남길 수 있게 만든 선택 메커니즘이다.

이 한 문장을 중심으로 읽으면,
Figure 2의 synthetic task부터 Figure 4의 언어 결과, Figure 5의 DNA 결과, Figure 10의 한계까지 한 흐름으로 정리된다.


참고

  • Albert Gu, Tri Dao, Mamba: Linear-Time Sequence Modeling with Selective State Spaces, arXiv:2312.00752v2, 2024.
  • 본 문서는 논문 본문과 부록의 figure/table을 중심으로 재구성한 한국어 요약이다.