DeepSeek-V4: Towards Highly Efficient Million-Token Context Intelligence 논문 정리

이 논문의 핵심 질문은 명확합니다.

백만 토큰 문맥을 실제 서비스에서 쓸 수 있을 만큼 빠르고 싸게 만들 수 있는가?

DeepSeek-AI는 그 답으로 DeepSeek-V4 시리즈를 제시합니다.

모델은 두 가지입니다.

DeepSeek-V4-Pro: 전체 1.6T 파라미터, 토큰당 49B 활성화
DeepSeek-V4-Flash: 전체 284B 파라미터, 토큰당 13B 활성화

둘 다 1M 토큰 컨텍스트를 지원합니다.

하지만 논문의 초점은 단순히 “길게 넣을 수 있다”가 아닙니다.

핵심은 길게 넣어도 계산량과 메모리 사용량이 폭발하지 않게 하는 구조입니다.

Crop 포인트: 오른쪽 두 그래프에서 DeepSeek-V4-Pro와 Flash의 선이 DeepSeek-V3.2보다 훨씬 낮게 유지되는 부분이 백만 토큰 컨텍스트의 비용 절감 효과를 보여줍니다.

한눈에 보는 결론

DeepSeek-V4는 세 가지 방향에서 이전 세대의 한계를 줄이려 합니다.

긴 문맥 처리 비용을 낮춘다
- CSA와 HCA라는 새로운 attention 구조를 사용합니다.
- 토큰 전체를 매번 모두 보는 대신, 중요한 정보를 압축하고 필요한 부분만 더 세밀하게 봅니다.
깊은 모델의 신호 흐름을 안정화한다
- mHC라는 연결 방식을 도입합니다.
- 기존 잔차 연결을 더 넓고 안정적인 정보 통로로 확장합니다.
학습과 추론 인프라를 함께 최적화한다
- Muon optimizer, FP4 양자화, MoE 통신 최적화, KV cache 관리가 함께 설계됩니다.
- 논문은 아키텍처만이 아니라 시스템 전체를 다룹니다.

결과적으로 논문은 다음을 주장합니다.

1M 토큰 환경에서 DeepSeek-V4-Pro는 DeepSeek-V3.2 대비 단일 토큰 추론 FLOPs를 27% 수준으로 줄입니다.
KV cache는 10% 수준으로 줄입니다.
DeepSeek-V4-Flash는 더 공격적으로 줄여, FLOPs는 10% 수준, KV cache는 7% 수준까지 낮춥니다.

여기서 중요한 점은 “긴 문맥을 지원한다”가 아니라 긴 문맥을 상시 운용 가능한 비용 구조로 만든다는 것입니다.

왜 1M 토큰 컨텍스트가 어려운가

긴 문맥은 단순히 입력창을 크게 만든다고 해결되지 않습니다.

언어 모델은 새 토큰을 생성할 때 앞서 나온 내용을 참고합니다.

문맥이 짧을 때는 괜찮습니다.

하지만 문맥이 수십만, 백만 토큰으로 늘어나면 문제가 커집니다.

앞선 정보를 저장해야 합니다.
저장한 정보를 다시 읽어야 합니다.
어떤 정보가 중요한지 판단해야 합니다.
이 과정이 매 생성 토큰마다 반복됩니다.

그래서 긴 문맥 모델의 병목은 보통 두 곳에서 생깁니다.

계산량과 KV cache 메모리입니다.

KV cache는 모델이 이미 읽은 문맥을 다시 계산하지 않기 위해 저장해 둔 내부 메모입니다.

문맥이 길어질수록 이 메모도 커집니다.

DeepSeek-V4의 설계는 이 병목을 정면으로 줄이는 데 집중합니다.

전체 구조: 기존 Transformer 위에 장문 효율 장치를 얹다

DeepSeek-V4는 완전히 새로운 모델 계열이라기보다, Transformer 구조 위에 여러 개선을 결합한 모델입니다.

기본 골격은 다음과 같습니다.

Transformer block
DeepSeekMoE 기반 feed-forward layer
Multi-Token Prediction 모듈
CSA와 HCA를 섞은 attention
mHC 기반 연결 구조
Muon optimizer 기반 학습

Crop 포인트: Transformer block 안에서 CSA/HCA, DeepSeekMoE, Residual Mixing이 반복되는 흐름이 DeepSeek-V4의 핵심 구조입니다.

이 그림에서 눈여겨볼 부분은 attention과 MoE가 독립적으로 놓여 있지 않다는 점입니다.

DeepSeek-V4는 장문 attention, 전문가 라우팅, 잔차 연결을 하나의 시스템으로 묶습니다.

즉, “성능 좋은 모델”을 만든 뒤 나중에 긴 문맥을 붙인 것이 아닙니다.

처음부터 장문 처리와 효율적 추론을 목표로 설계한 구조입니다.

mHC: 잔차 연결을 더 넓고 안정적인 통로로 만들기

Transformer에는 잔차 연결이 있습니다.

쉽게 말해, 각 층이 입력을 완전히 덮어쓰지 않고 이전 정보를 다음 층으로 넘기는 우회로입니다.

이 우회로는 깊은 모델에서 중요합니다.

하지만 모델이 매우 커지고 깊어지면, 정보가 지나치게 커지거나 불안정하게 섞일 수 있습니다.

DeepSeek-V4는 이를 위해 Manifold-Constrained Hyper-Connections, 줄여서 mHC를 사용합니다.

직관은 이렇습니다.

기존 잔차 흐름을 하나의 길이 아니라 여러 갈래의 정보 통로로 확장합니다.
각 층은 이 통로들을 섞어서 다음 층으로 보냅니다.
단, 섞는 방식이 과도하게 커지지 않도록 제약을 둡니다.

논문은 이 제약을 통해 신호가 층을 지나며 폭발하지 않도록 만든다고 설명합니다.

값을 마음대로 키우는 연결이 아니라, 정보를 보존하면서 안정적으로 재배치하는 연결에 가깝습니다.

이 설계의 의도는 두 가지입니다.

모델 표현력을 키웁니다.
깊은 MoE 모델 학습의 불안정성을 줄입니다.

CSA: 압축한 뒤, 필요한 기억만 골라서 보기

DeepSeek-V4의 핵심 attention 중 하나는 Compressed Sparse Attention, 즉 CSA입니다.

CSA는 긴 문맥을 그대로 모두 보지 않습니다.

먼저 여러 토큰의 정보를 하나의 압축된 KV 항목으로 묶습니다.

그다음 현재 토큰이 참고할 만한 압축 항목을 고릅니다.

마지막으로 선택된 항목만 attention에 사용합니다.

즉, CSA의 흐름은 다음과 같습니다.

긴 문맥을 작은 블록 단위로 압축합니다.
작은 인덱서가 현재 토큰과 관련 높은 블록을 찾습니다.
상위 후보만 attention에 넣습니다.
최근 토큰은 별도 슬라이딩 윈도우로 보존합니다.

Crop 포인트: 중앙의 Top-k Selector가 압축된 KV 항목 중 일부만 고르는 부분이 CSA의 비용 절감 원리입니다.

CSA는 “긴 문서 전체를 매번 정독하지 말고, 색인을 보고 필요한 페이지를 찾아 읽자”는 방식에 가깝습니다.

여기서 슬라이딩 윈도우가 중요합니다.

압축은 장문 정보를 줄이는 데 좋지만, 방금 나온 단어와 문장처럼 가까운 정보는 세밀하게 봐야 합니다.

그래서 CSA는 압축된 장기 기억과 최근의 원본 기억을 함께 사용합니다.

HCA: 더 강하게 압축하고, 압축된 전체를 보기

두 번째 attention은 Heavily Compressed Attention, 즉 HCA입니다.

HCA는 CSA보다 더 강하게 압축합니다.

대신 sparse selection은 사용하지 않습니다.

압축된 항목 전체에 대해 attention을 수행합니다.

직관적으로 보면 HCA는 장문 전체를 아주 거친 요약 지도처럼 만듭니다.

세부사항은 줄어들지만, 전체 흐름을 저렴하게 유지할 수 있습니다.

Crop 포인트: Token-Level Compressor가 많은 KV 항목을 하나의 Heavily Compressed KV 항목으로 만드는 지점이 HCA의 핵심입니다.

CSA와 HCA는 역할이 다릅니다.

CSA는 관련성이 높은 장기 기억을 골라 봅니다.
HCA는 더 넓은 범위를 저렴한 요약 형태로 봅니다.

DeepSeek-V4는 둘을 섞어 사용합니다.

이 하이브리드 설계 덕분에 긴 문맥에서 계산량과 메모리 사용량을 동시에 줄입니다.

KV cache를 줄이는 방식: 저장 구조까지 바꾼다

긴 문맥 추론에서 attention 계산만 줄여서는 충분하지 않습니다.

KV cache 저장 방식도 바뀌어야 합니다.

DeepSeek-V4는 여러 종류의 cache를 분리합니다.

CSA/HCA용 압축 KV cache
Sliding Window Attention용 최근 토큰 cache
아직 압축할 만큼 충분히 쌓이지 않은 tail token 상태

이 구조는 일반적인 PagedAttention 방식과 맞지 않습니다.

그래서 논문은 DeepSeek-V4 전용 KV cache layout을 설계합니다.

Crop 포인트: 왼쪽 State Cache와 오른쪽 KV Cache가 분리된 구조가 서로 다른 attention 정책을 함께 운용하는 방법을 보여줍니다.

이 분리는 실용적으로 중요합니다.

최근 토큰은 자주 바뀌고, 압축된 장기 기억은 상대적으로 안정적입니다.

둘을 같은 방식으로 저장하면 낭비가 커집니다.

DeepSeek-V4는 두 성격을 분리해 관리합니다.

또 하나의 특징은 on-disk KV cache입니다.

공유 prefix가 있는 요청에서 이미 계산한 cache를 디스크에 저장해 재사용합니다.

예를 들어 같은 긴 문서에 대해 여러 질문을 할 때, 매번 처음부터 읽지 않아도 됩니다.

MoE 인프라: 통신과 계산을 겹쳐서 숨기기

DeepSeek-V4는 MoE 모델입니다.

MoE는 토큰마다 일부 전문가만 활성화합니다.

이 방식은 계산 효율이 좋지만, 전문가가 여러 장치에 나뉘어 있으면 통신 비용이 생깁니다.

DeepSeek-V4는 이 병목을 줄이기 위해 전문가 처리 과정을 작은 wave로 쪼갭니다.

한 wave의 통신이 끝나면 바로 계산을 시작합니다.

동시에 다음 wave의 통신을 진행합니다.

Crop 포인트: 아래쪽 “Ours” 구간에서 Dispatch, Linear 계산, Combine이 wave 단위로 겹쳐지는 부분이 통신 지연을 숨기는 핵심입니다.

논문은 이 방식이 일반 추론 workload에서 강한 speedup을 보였다고 보고합니다.

특히 RL rollout이나 agent serving처럼 작은 batch가 길게 이어지는 상황에서 효과가 큽니다.

이 부분은 모델 성능보다 시스템 성능에 가깝습니다.

하지만 DeepSeek-V4의 장문 컨텍스트 전략에서는 필수입니다.

백만 토큰을 지원해도, 실제 서비스에서 지연 시간이 너무 길면 의미가 줄어들기 때문입니다.

학습 최적화: Muon, FP4, 안정화 기법

논문은 학습 안정성도 큰 비중으로 다룹니다.

DeepSeek-V4는 대부분의 모듈에 Muon optimizer를 사용합니다.

직관적으로 Muon은 업데이트 방향을 더 정돈된 형태로 만들어 학습을 안정화하려는 optimizer입니다.

일부 모듈은 AdamW를 유지합니다.

예를 들어 embedding, prediction head, RMSNorm 관련 가중치 등입니다.

또한 DeepSeek-V4는 FP4 Quantization-Aware Training을 사용합니다.

적용 대상은 주로 두 곳입니다.

MoE expert weight
CSA indexer의 query-key 경로

이는 배포 단계의 메모리 사용량과 계산 비용을 줄이기 위한 조치입니다.

논문은 FP4를 단순 사후 압축으로 쓰지 않습니다.

학습 과정에서 양자화 영향을 반영해 모델이 낮은 정밀도에 적응하도록 합니다.

학습 불안정성: 라우팅과 outlier를 다루는 방법

대규모 MoE 모델은 학습 중 loss spike가 생기기 쉽습니다.

논문은 이 현상이 MoE layer의 outlier와 라우팅 메커니즘에 연결되어 있다고 설명합니다.

이를 줄이기 위해 두 가지 실용적 기법을 사용합니다.

첫째, Anticipatory Routing입니다.

현재 step의 feature는 현재 모델로 계산합니다.

하지만 라우팅 index는 이전 시점의 모델 기준으로 미리 계산해 둡니다.

이렇게 하면 backbone 업데이트와 routing 업데이트가 완전히 동시에 흔들리는 상황을 줄일 수 있습니다.

둘째, SwiGLU Clamping입니다.

SwiGLU 내부의 특정 값이 지나치게 커지지 않도록 제한합니다.

논문은 이 방식이 outlier를 줄이고 학습 안정성에 도움이 되었다고 보고합니다.

중요한 점은 저자들도 이 기법들의 원리를 완전히 설명했다고 보지는 않는다는 것입니다.

효과는 확인했지만, 이론적 이해는 future work로 남겼습니다.

사전학습: 긴 문맥을 단계적으로 늘린다

DeepSeek-V4-Flash는 32T 토큰으로 사전학습됩니다.

DeepSeek-V4-Pro는 33T 토큰으로 사전학습됩니다.

데이터는 다음 범주를 포함합니다.

수학
코드
웹 문서
장문 문서
과학 논문과 기술 보고서
다국어 데이터

긴 문맥 학습은 처음부터 1M으로 시작하지 않습니다.

먼저 짧은 sequence length에서 시작합니다.

그다음 점진적으로 16K, 64K, 1M으로 확장합니다.

Sparse attention도 처음부터 바로 넣지 않습니다.

초기에는 dense attention으로 학습하고, 이후 긴 문맥 단계에서 sparse attention을 도입합니다.

이 절차는 모델이 기본 언어 능력을 먼저 안정적으로 갖춘 뒤, 장문 효율 구조에 적응하도록 만드는 전략입니다.

후학습: 전문가를 따로 키운 뒤 하나로 합친다

DeepSeek-V4의 post-training은 두 단계로 요약할 수 있습니다.

첫 번째는 전문가 모델 학습입니다.

수학, 코드, agent, instruction following 같은 영역별 specialist를 따로 훈련합니다.

각 specialist는 SFT와 RL을 거칩니다.

두 번째는 On-Policy Distillation, 즉 OPD입니다.

여러 teacher 모델의 능력을 하나의 student 모델로 옮깁니다.

중요한 점은 student가 자기 자신의 생성 궤적 위에서 teacher의 분포를 학습한다는 것입니다.

쉽게 말해, student가 실제로 할 법한 행동을 기준으로 teacher에게서 배웁니다.

논문은 이 방식이 단순 weight merging이나 mixed RL보다 안정적이라고 설명합니다.

Reasoning mode: 빠른 답변과 깊은 사고를 분리한다

DeepSeek-V4는 reasoning effort를 세 단계로 나눕니다.

Non-think: 빠른 응답
High: 긴 추론을 사용하는 모드
Max: 가장 많은 reasoning budget을 사용하는 모드

이 구분은 단순 UX 옵션이 아닙니다.

각 모드는 RL 학습에서 다른 길이 제약과 context window를 갖습니다.

즉, 모델이 “얼마나 오래 생각할지”를 후학습 단계에서 명시적으로 다룹니다.

또한 agent 환경에서는 reasoning trace 관리 방식도 바뀝니다.

도구 호출이 있는 경우, 여러 turn에 걸친 작업 상태를 더 오래 유지합니다.

도구가 없는 일반 대화에서는 이전 reasoning 내용을 더 적극적으로 비워 context를 아낍니다.

Crop 포인트: 위쪽 tool-calling 흐름에서 여러 tool result와 thinking이 누적되는 구조가 장기 agent 작업을 위한 상태 보존 전략입니다.

이 설계는 1M 컨텍스트와 잘 맞습니다.

복잡한 agent 작업에서는 중간 추론과 도구 결과가 길게 쌓입니다.

DeepSeek-V4는 이 기록을 비용 효율적으로 유지하는 쪽을 선택합니다.

평가 결과: 논문이 주장하는 성능 위치

논문은 DeepSeek-V4-Pro-Max를 open model 기준 최상위권으로 제시합니다.

특히 지식, 추론, agent, long-context에서 강한 결과를 보고합니다.

다만 해석할 때 주의가 필요합니다.

일부 benchmark는 내부 평가 framework를 사용합니다.

또한 closed model과의 비교는 평가 설정, API 상태, reasoning effort에 따라 달라질 수 있습니다.

따라서 아래 수치는 “논문이 보고한 결과”로 읽는 것이 적절합니다.

핵심 수치는 다음과 같습니다.

SimpleQA-Verified: DeepSeek-V4-Pro-Max 57.9
Chinese-SimpleQA: 84.4
LiveCodeBench: 93.5
Codeforces rating: 3206
SWE Verified: 80.6
Terminal Bench 2.0: 67.9
Toolathlon: 51.8

DeepSeek-V4-Flash는 지식 benchmark에서는 Pro보다 약합니다.

하지만 충분한 reasoning budget을 주면 수학, 코드, 일부 agent 작업에서 높은 비용 대비 성능을 보입니다.

형식 추론: 수학 증명 영역에서의 강조점

논문은 formal reasoning 결과도 강조합니다.

특히 Lean 기반 formal math 환경에서 DeepSeek-V4 계열이 강한 결과를 보였다고 보고합니다.

여기에는 두 가지 regime이 있습니다.

실용 regime: 제한된 도구와 bounded sampling
frontier regime: 더 큰 compute와 informal reasoning을 결합한 formal verification

Crop 포인트: 오른쪽 Frontier Regime에서 DeepSeek-V4가 120/120을 달성한 부분은 큰 compute와 formal verification을 결합했을 때의 상한 성능을 강조합니다.

이 결과는 단순한 채팅 성능과는 다릅니다.

도구, 검증기, 검색 과정이 포함된 agentic formal reasoning입니다.

따라서 “모델 단독 능력”이라기보다 모델과 증명 도구를 결합한 시스템 능력으로 보는 편이 정확합니다.

1M 컨텍스트: 길게 넣어도 검색 성능이 유지되는가

장문 모델의 핵심 평가는 “긴 입력을 받을 수 있는가”가 아닙니다.

긴 입력 속에서 필요한 정보를 찾을 수 있는가입니다.

논문은 MRCR과 CorpusQA를 사용해 1M 컨텍스트 성능을 평가합니다.

MRCR 결과에서 DeepSeek-V4-Pro-Max는 128K까지 매우 안정적인 검색 성능을 보입니다.

그 이후에는 성능이 하락하지만, 1M에서도 의미 있는 수준을 유지합니다.

Crop 포인트: 128K 이후 선이 내려가는 구간은 백만 토큰 문맥에서 검색 성능이 완전히 공짜로 유지되지는 않는다는 점을 보여줍니다.

이 그림은 논문의 메시지를 균형 있게 보여줍니다.

DeepSeek-V4는 긴 문맥 비용을 크게 줄였습니다.

하지만 문맥이 극단적으로 길어질수록 retrieval 정확도 하락은 여전히 남습니다.

즉, 1M context는 가능해졌지만, 완벽한 정보 접근 문제는 아직 해결 중입니다.

Reasoning budget: 더 오래 생각하면 얼마나 좋아지는가

DeepSeek-V4는 test-time scaling을 중요하게 봅니다.

같은 모델도 더 많은 reasoning token을 쓰면 성능이 달라집니다.

논문은 HLE와 Terminal Bench 2.0에서 이 차이를 보여줍니다.

Crop 포인트: DeepSeek-V4-Pro의 High와 Max 지점이 오른쪽 위로 이동하는 흐름이 reasoning budget 증가에 따른 성능 향상을 보여줍니다.

이 결과는 DeepSeek-V4의 장문 효율 설계와 연결됩니다.

긴 reasoning을 허용하려면 출력 token도 길어집니다.

도구 사용 agent에서는 중간 상태도 길어집니다.

따라서 test-time scaling을 키우려면 attention 비용과 cache 비용을 먼저 줄여야 합니다.

DeepSeek-V4는 이 전제를 만족시키려는 모델입니다.

실제 업무 평가: benchmark 밖의 사용성

논문은 표준 benchmark만으로 실제 사용성을 설명하기 어렵다고 봅니다.

그래서 중국어 글쓰기, 검색, white-collar task, code agent 같은 내부 평가를 추가합니다.

중국어 글쓰기

DeepSeek-V4-Pro는 Gemini-3.1-Pro와의 중국어 기능성 글쓰기 비교에서 전체 win rate 62.65%를 보고합니다.

창작 글쓰기에서는 writing quality 기준 77.48% win rate를 보고합니다.

다만 복잡한 지시 준수와 multi-turn writing에서는 Claude Opus 4.5가 더 강했다고 밝힙니다.

이 부분은 모델의 강점과 약점을 모두 보여줍니다.

DeepSeek-V4-Pro는 장문 생성과 중국어 문체 품질에 강점이 있습니다.

하지만 세밀한 형식 제약을 끝까지 지키는 데는 개선 여지가 있습니다.

검색

DeepSeek web/app 환경에서 non-think 모드는 RAG를, thinking 모드는 agentic search를 사용합니다.

논문은 agentic search가 RAG보다 더 높은 win rate를 보였다고 보고합니다.

특히 복잡한 질문에서 차이가 큽니다.

다만 agentic search는 도구 호출을 더 많이 사용합니다.

논문은 그럼에도 비용 증가가 제한적이라고 설명합니다.

White-collar task

논문은 금융, 교육, 법률, 기술 등 13개 산업을 포함한 중국어 전문 업무 30개를 구성합니다.

평가 항목은 다음 네 가지입니다.

작업 완성도
지시 준수
콘텐츠 품질
포맷 미감

DeepSeek-V4-Pro-Max는 Opus-4.6-Max와 비교해 전체 non-loss rate 63%를 보고합니다.

Crop 포인트: overall 행에서 Win과 Tie를 합친 비율이 63%가 되는 부분이 DeepSeek-V4-Pro-Max의 non-loss rate를 보여줍니다.

세부 점수에서는 작업 완성도와 콘텐츠 품질에서 강점이 나타납니다.

반면 instruction following과 formatting aesthetics에서는 상대적으로 더 좁은 차이를 보입니다.

Crop 포인트: Task Completion과 Content Quality에서 DeepSeek-V4-Pro-Max 막대가 더 높은 부분이 실무형 장문 산출물의 강점을 보여줍니다.

논문은 실제 산출물 예시도 제시합니다.

아래 예시는 버블티 브랜드와 베이징 지하철의 공동 마케팅 제안서입니다.

시각 자료, 일정, 예산 배분이 포함된 업무 문서 형태로 구성되어 있습니다.

Crop 포인트: 하단의 일정·예산·효과 분석 페이지들이 단순 답변이 아니라 업무 산출물 형태로 생성되는 방식을 보여줍니다.

또 다른 예시는 나스닥 정기 투자 전략 비교입니다.

이 경우 모델은 차트와 표를 활용해 투자 시나리오를 설명하는 보고서형 산출물을 만듭니다.

Crop 포인트: 오른쪽의 누적 수익률과 변동성 그래프는 모델이 설명형 답변을 넘어 분석 리포트 형태를 생성한다는 점을 보여줍니다.

마지막 예시는 2020~2025년 노벨 과학상 분석 PDF입니다.

긴 조사, 표 정리, 도표, 분석 문단이 결합된 형태입니다.

Crop 포인트: 표, 원형 차트, 분석 문단이 함께 배치된 구성이 장문 조사형 업무에서 요구되는 종합 산출물 형태를 보여줍니다.

Code agent: 내부 R&D task에서의 결과

논문은 약 200개의 내부 R&D 작업에서 평가 후보를 만들고, 품질 필터링 후 30개 task를 남겼다고 설명합니다.

작업 범위는 다음을 포함합니다.

기능 개발
버그 수정
리팩터링
진단
PyTorch, CUDA, Rust, C++ 등 다양한 stack

DeepSeek-V4-Pro-Max는 이 내부 coding benchmark에서 67% pass rate를 보고합니다.

비교 대상으로 제시된 Claude Opus 4.5는 70%, Opus 4.6 Thinking은 80%입니다.

즉, DeepSeek-V4-Pro-Max는 강한 coding agent 성능을 보이지만, 논문 기준으로도 최상위 closed model에는 아직 미치지 못합니다.

개발자 설문에서는 “주력 coding model로 사용할 준비가 되었는가”라는 질문에 52%가 yes, 39%가 lean yes라고 답했다고 보고합니다.

동시에 논문은 사소한 실수, 모호한 prompt 해석 오류, 과도한 추론도 약점으로 언급합니다.

이 논문의 핵심 기여

DeepSeek-V4 논문의 기여는 단일 기술 하나가 아닙니다.

가장 중요한 점은 장문 컨텍스트를 모델 구조, 학습, 추론 인프라, 후학습까지 함께 설계했다는 것입니다.

핵심 기여는 네 가지로 정리할 수 있습니다.

1. 하이브리드 attention

CSA와 HCA를 결합해 장문 처리 비용을 낮춥니다.

압축, sparse selection, sliding window를 함께 사용합니다.

2. 안정적인 깊은 연결

mHC를 통해 residual stream을 확장하고 안정화합니다.

이는 대규모 MoE 모델의 표현력과 학습 안정성을 동시에 겨냥합니다.

3. 시스템 수준 최적화

MoE 통신-계산 overlap, TileLang kernel, deterministic kernel, KV cache layout, on-disk cache를 포함합니다.

논문은 모델 아키텍처와 inference serving을 분리하지 않습니다.

4. 전문가 후학습과 OPD

여러 domain specialist의 능력을 하나의 모델로 통합합니다.

full-vocabulary distillation을 사용해 teacher의 분포를 더 충실히 옮기려 합니다.

한계와 읽을 때 주의할 점

논문 자체도 한계를 분명히 적고 있습니다.

첫째, 구조가 복잡합니다.

CSA, HCA, mHC, MoE, FP4, 특수 cache 구조, 다양한 kernel 최적화가 모두 결합되어 있습니다.

이는 성능과 효율에는 유리할 수 있지만, 재현과 유지보수 난도를 높입니다.

둘째, 학습 안정화 기법의 원리가 완전히 설명되지는 않았습니다.

Anticipatory Routing과 SwiGLU Clamping은 실험적으로 효과가 있었지만, 왜 항상 작동하는지에 대한 이론적 설명은 부족합니다.

셋째, 일부 평가는 내부 framework에 의존합니다.

특히 agent, white-collar task, code agent 결과는 평가 환경이 성능에 큰 영향을 줍니다.

넷째, 1M context에서도 성능 하락은 존재합니다.

MRCR 결과는 128K 이후 retrieval 성능이 내려간다는 점을 보여줍니다.

따라서 백만 토큰은 “모든 정보에 완벽히 접근한다”는 뜻이 아닙니다.

정리

DeepSeek-V4는 백만 토큰 컨텍스트를 전면에 내세운 모델입니다.

하지만 논문의 진짜 메시지는 context length 자체가 아닙니다.

긴 문맥을 비용 효율적으로 처리하는 구조적 방법입니다.

DeepSeek-V4는 attention을 압축하고, 필요한 기억만 선택하고, cache를 분리 관리하고, MoE 통신을 겹치고, 후학습에서 여러 전문가를 통합합니다.

이 조합은 long-context model이 나아갈 한 방향을 보여줍니다.

앞으로의 경쟁은 단순히 “얼마나 긴 입력을 받는가”에서 끝나지 않을 가능성이 큽니다.

더 중요한 질문은 다음입니다.

그 긴 입력을 얼마나 싸게, 빠르게, 정확하게, 반복적으로 사용할 수 있는가?

DeepSeek-V4는 이 질문에 대한 대규모 시스템 설계 사례입니다.

Source

DeepSeek-AI. DeepSeek-V4: Towards Highly Efficient Million-Token Context Intelligence. Preview paper.
Model checkpoints: https://huggingface.co/collections/deepseek-ai/deepseek-v4
Inference implementation referenced in the paper: https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/tree/main/inference

'AI 생성 글 정리 > modeling' 카테고리의 다른 글

Image Generators are Generalist Vision Learners 논문 정리 (0)	2026.04.27
Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models 논문 정리 (0)	2026.04.26
[Parcae: Scaling Laws For Stable Looped Language Models] 논문 정리 (0)	2026.04.22
Scaling up Test-Time Compute with Latent Reasoning: A Recurrent Depth Approach 논문 정리 (0)	2026.04.22
TURBOQUANT 논문 정리 (0)	2026.04.22

Honbul과 컴퓨터