[Checkmating One, by Using Many: Combining Mixture of Experts with MCTS to Improve in Chess] 논문 정리

한눈에 보기

이 논문은 체스 엔진의 한 가지 고정 관념을 건드린다.

대부분의 AlphaZero 계열 엔진은 한 개의 신경망으로 전체 게임을 평가한다.
초반, 중반, 종반을 모두 같은 방식으로 처리한다.

저자들은 이 방식이 비효율적일 수 있다고 본다.
체스의 각 단계는 요구하는 판단이 다르기 때문이다.

초반: 정석, 기물 전개, 안전한 구조가 중요하다.
중반: 전술, 위협, 기물 조화가 중요하다.
종반: 제한된 기물 안에서 정확한 계산이 중요하다.

논문은 이를 해결하기 위해 M2CTS를 제안한다.
핵심은 간단하다.

하나의 모델이 모든 국면을 맡지 않는다.
현재 국면에 맞는 전문가 모델을 골라 MCTS에 연결한다.

문제의식: 왜 하나의 모델로는 부족한가

AlphaZero류 엔진은 MCTS로 후보 수를 탐색한다.
그리고 신경망은 각 상태에서 다음 수의 가능성과 현재 판세를 평가한다.

이 구조는 강력하다.
하지만 한 가지 약점이 있다.

훈련 데이터는 균등하지 않다.

체스에서는 중반 포지션이 많이 등장한다.
반대로 초반과 종반 데이터는 상대적으로 적거나 성격이 다르다.

그 결과, 단일 모델은 중반에 치우친 판단을 배울 수 있다.
초반의 정석적 감각이나 종반의 정밀한 마무리를 충분히 반영하지 못할 수 있다.

논문은 이 문제를 “게임 단계에 맞춘 전문화”로 풀려고 한다.

M2CTS의 핵심 구조

M2CTS는 두 가지 아이디어를 결합한다.

MCTS: 여러 후보 수를 탐색하고, 유망한 경로를 더 깊게 본다.
Mixture of Experts: 여러 전문가 모델 중 현재 입력에 맞는 모델을 선택한다.

기존 MCTS에서는 하나의 신경망이 모든 상태를 평가한다.
M2CTS에서는 먼저 상태가 어느 단계인지 판별한다.
그 다음 해당 단계의 전문가 모델만 호출한다.

주목 지점: MCTS의 평가 단계가 단일 모델 호출이 아니라, 게이트를 거친 단계별 전문가 선택으로 바뀐다.

이 구조의 장점은 두 가지다.

첫째, 각 모델이 더 좁은 문제에 집중한다.
초반 전문가는 초반만, 종반 전문가는 종반만 학습한다.

둘째, 추론 비용이 폭발하지 않는다.
모든 전문가를 동시에 호출하지 않는다.
현재 단계에 맞는 하나의 전문가만 사용한다.

게이트는 어떻게 국면을 나누는가

논문은 게이트 자체를 학습시키지 않는다.
대신 Lichess의 국면 정의를 사용한다.

단순히 “몇 수째인가”만 보는 방식이 아니다.
기물 수, 뒷줄의 비어 있는 정도, 흑백 기물이 얼마나 섞여 있는지 등을 고려한다.

이 방식은 체스의 실제 흐름에 더 가깝다.
초반, 중반, 종반은 항상 일정한 수순에서 시작하지 않기 때문이다.

주목 지점: 중반과 종반의 시작 시점은 고정된 수가 아니라, 포지션의 구조 변화에 따라 분포로 나타난다.

이 논문에서 중요한 점은 “전문화”보다 “어떻게 나누는가”다.
국면을 잘못 나누면 전문가 모델을 둬도 효과가 줄어든다.

배치 처리 문제: 효율을 위해 다수결을 쓴다

MCTS는 GPU 효율을 높이기 위해 여러 포지션을 묶어 평가한다.
문제는 한 배치 안에 초반, 중반, 종반 포지션이 섞일 수 있다는 점이다.

M2CTS는 여기서 간단한 타협을 한다.

배치 안의 포지션들을 먼저 분류한다.
가장 많이 등장한 국면을 대표 국면으로 삼는다.
그리고 그 국면의 전문가 모델로 배치 전체를 평가한다.

완벽한 방법은 아니다.
하지만 대부분의 오차는 국면 전환 부근에서 발생한다.
논문은 이 경우 인접 국면이라 평가 품질 손상이 제한적일 것으로 본다.

주목 지점: 배치 안의 모든 샘플을 각각 다른 모델로 보내지 않고, 다수 국면의 전문가 하나로 처리해 GPU 효율을 유지한다.

전문가 모델을 훈련하는 세 가지 방식

논문은 세 가지 훈련 전략을 비교한다.

1. Separated Learning

각 전문가를 자기 국면 데이터만으로 훈련한다.

초반 전문가는 초반 포지션만 본다.
중반 전문가는 중반 포지션만 본다.
종반 전문가는 종반 포지션만 본다.

가장 단순하다.
하지만 데이터가 충분하면 매우 강하다.

2. Staged Learning

먼저 넓은 지식을 학습한다.
그 다음 각 국면에 맞게 이어서 조정한다.

처음부터 좁게 나누지 않는다.
공통 패턴을 먼저 익히고, 이후 단계별 전문화를 한다.

이 방식은 특히 강화학습처럼 데이터가 부족한 상황에서 유리했다.

3. Weighted Learning

모든 데이터를 함께 사용한다.
다만 현재 전문가가 맡는 국면의 데이터에 더 큰 비중을 준다.

예를 들어 종반 전문가를 훈련할 때는 종반 샘플을 더 중요하게 본다.
초반과 중반 샘플도 버리지는 않는다.

이 방식은 균형을 노린다.
하지만 논문 결과에서는 비용 대비 효과가 약했다.

실험 설정

논문은 체스를 중심으로 M2CTS를 평가한다.

주요 설정은 다음과 같다.

데이터: KingBase Lite 2019
대상 게임: Elo 2200 이상 플레이어의 대국
전체 규모: 100만 개 이상의 게임
엔진 기반: ClassicAra 계열
신경망: RISEv3.3
평가 방식: AlphaZero 스타일 MCTS 대국
주요 비교 대상: 단일 모델 MCTS

모델은 검증 손실이 개선될 때마다 저장된다.
최종 평가는 1000게임 매치와 Elo 차이로 비교한다.

결과 1: M2CTS는 단일 모델 MCTS보다 강했다

가장 중요한 결과는 명확하다.

M2CTS는 단일 모델 MCTS보다 높은 Elo를 기록했다.
특히 Separated Learning과 Staged Learning이 강했다.

훈련 전략	평균 Elo 향상
Separated Learning	+122.20
Staged Learning	+121.11
Weighted Learning, 약한 전문화	+23.18
Weighted Learning, 강한 전문화	+55.84

논문은 다양한 배치 크기와 탐색 노드 수에서 이 경향을 확인했다.
일부 조건에서는 약 150 Elo 수준의 차이도 나타났다.

주목 지점: 탐색 노드 수가 커져도 M2CTS의 상대 Elo 우위가 유지되며, 여러 배치 크기에서 같은 경향이 반복된다.

다만 M2CTS가 Stockfish 같은 최상위 엔진을 넘어선 것은 아니다.
논문의 의미는 다르다.

같은 MCTS 계열 구조 안에서, 단일 모델보다 단계별 전문가 구조가 더 낫다는 점을 보였다는 데 있다.

결과 2: 강화학습에서는 Staged Learning이 더 안정적이었다

감독학습에서는 단순한 데이터 분리 방식이 가장 좋았다.
하지만 랜덤 초기화에서 시작하는 강화학습 상황은 달랐다.

모델이 처음부터 스스로 대국하며 배워야 할 때는 Staged Learning이 더 강했다.
공통 지식을 먼저 만들고, 이후 국면별로 나누는 방식이 안정적인 기반을 제공했기 때문이다.

Separated Learning은 이 환경에서 뒤처졌다.
각 전문가가 충분한 초기 경험을 얻지 못한 것으로 해석할 수 있다.

주목 지점: 자기대국으로 처음부터 학습할 때는 단계별 미세조정 방식이 단일 MCTS보다 빠르게 앞서 나간다.

이 결과는 M2CTS를 적용할 때의 조건을 보여준다.

데이터가 충분하면 간단히 나눠도 된다.
데이터가 부족하면 먼저 공통 모델을 만들고 나누는 편이 낫다.

결과 3: 중반과 종반 전문가가 핵심이었다

논문은 각 전문가가 실제로 얼마나 기여하는지도 따로 분석했다.

방법은 간단하다.
특정 국면에서만 해당 전문가를 쓰고, 나머지 국면에서는 기존 단일 모델을 사용했다.

결과는 중반과 종반 전문가가 뚜렷하게 강했다.
초반 전문가는 효과가 작거나, 일부 조건에서는 오히려 약했다.

주목 지점: 중반과 종반 전문가의 Elo 향상은 안정적으로 나타나지만, 초반 전문가는 뚜렷한 이득을 만들지 못한다.

논문은 초반 전문가의 약점을 데이터 문제로 해석한다.

초반 데이터는 겉으로 많아 보여도 다양성이 제한될 수 있다.
특정 정석에 과적합되기 쉽다.

또 초반 수의 결과는 한참 뒤에 나타나므로, 평가 신호가 더 어렵다.

즉, 전문가 모델은 무조건 좋은 것이 아니다.
좋은 전문가가 되려면 해당 국면의 데이터가 충분히 다양해야 한다.

결과 4: 국면 정의가 성능을 좌우했다

저자들은 Lichess 기반 국면 정의와 단순한 수순 기준 분할을 비교했다.

결과는 분명했다.
단순히 수순 수로 나눈 국면은 성능이 크게 떨어졌다.
심지어 국면 수를 늘려도 성능이 좋아지지 않았다.

중요한 것은 분할 개수가 아니다.
전략적 의미가 있는 경계를 잡는 것이다.

주목 지점: Lichess 기반 게이트는 양의 Elo를 만들지만, 수순 수만 이용한 분할은 대부분 큰 손실을 만든다.

이 결과는 체스 밖에서도 중요하다.
모듈형 AI는 “나누기” 자체가 목적이 아니다.
문제 구조에 맞게 나누어야 한다.

결과 5: 데이터가 부족하면 MoE가 오히려 약해질 수 있다

M2CTS는 여러 전문가 모델을 쓴다.
따라서 각 전문가는 전체 데이터가 아니라 자기 몫의 데이터를 받는다.

데이터가 충분할 때는 이것이 장점이다.
데이터가 부족하면 약점이 된다.

논문은 전체 데이터와 절반 크기 데이터셋을 비교했다.
전체 데이터에서는 M2CTS가 단일 MCTS보다 좋았다.
절반 데이터에서는 M2CTS가 크게 밀렸다.

모델 크기 실험도 비슷한 메시지를 준다.
작은 모델에서는 전문가화가 도움이 된다.
하지만 큰 모델일수록 충분한 데이터가 더 중요해진다.

주목 지점: 작은 모델에서는 M2CTS의 상대 이점이 분명하지만, 충분한 데이터와 용량 조건을 함께 맞춰야 효과가 안정된다.

이 부분은 실무 적용에 중요하다.

전문가 모델을 많이 만들면 모델별 데이터가 줄어든다.
따라서 데이터 규모, 모델 크기, 국면 분할의 세밀함을 함께 조정해야 한다.

체스를 넘어: Pommerman 실험

논문은 M2CTS가 체스에만 맞는 아이디어인지도 확인했다.
이를 위해 Pommerman 환경을 사용했다.

Pommerman은 Bomberman류의 다중 에이전트 게임이다.
플레이어는 폭탄을 놓고, 상자를 부수고, 파워업을 먹고, 상대를 제거해야 한다.
체스보다 더 동적이고 부분 관측적인 환경이다.

주목 지점: Pommerman은 고정된 보드게임처럼 보이지만, 폭탄·상자·상대 위치에 따라 매 순간 전략 단계가 바뀐다.

저자들은 Pommerman에서도 세 가지 방식으로 단계를 나눴다.

시간 진행 기준
상대와의 거리 기준
살아 있는 상대 수 기준

결과적으로 시간 진행 기준과 거리 기준이 단일 MCTS보다 나았다.
살아 있는 상대 수 기준은 안정적이지 않았다.

주목 지점: 의미 있는 전환을 잡는 기준은 승률을 높였지만, 반응이 늦거나 거친 기준은 전문가 구조의 장점을 살리지 못했다.

이 실험은 논문의 주장을 확장한다.

M2CTS의 본질은 체스 전용 규칙이 아니다.
전략 단계가 존재하는 환경에서, 그 단계를 잘 포착하면 탐색과 전문화가 결합될 수 있다는 점이다.

핵심 해석

이 논문의 가장 큰 기여는 “더 큰 모델”이 아니라 “더 잘 나눈 모델”을 보여준 점이다.

단일 신경망은 모든 국면을 하나의 함수처럼 다룬다.
M2CTS는 문제를 단계별로 나눈다.
그리고 각 단계에 맞는 전문가를 MCTS 안에서 호출한다.

이 방식은 인간의 체스 사고와도 닮아 있다.
사람도 초반, 중반, 종반을 같은 방식으로 보지 않는다.
초반에는 구조와 정석을 본다.
중반에는 전술과 압박을 본다.
종반에는 계산과 전환을 본다.

논문은 이 직관을 신경망 기반 탐색 엔진 안에 구현했다.

한계

M2CTS는 분명한 장점이 있지만 한계도 있다.

전문가가 나뉘면 각 모델이 보는 데이터가 줄어든다.
데이터가 부족하면 과적합 위험이 커진다.
모든 전문가 모델을 메모리에 올려야 하므로 메모리 사용량이 늘어난다.
논문은 배치 크기 64까지 주로 확인했다.
게이트는 수작업 규칙에 의존한다.
체스처럼 국면 구조가 명확하지 않은 도메인에서는 적용이 어렵다.

특히 마지막 한계가 중요하다.
M2CTS의 성능은 전문가 모델 자체뿐 아니라 게이트 품질에 크게 의존한다.

결론

M2CTS는 MCTS와 Mixture of Experts를 결합한 단계 인식형 탐색 프레임워크다.

핵심 결론은 다음과 같다.

체스에서는 단일 모델 MCTS보다 최대 약 +122 Elo 수준의 평균 향상을 보였다.
감독학습에서는 단순한 단계별 데이터 분리가 가장 강했다.
강화학습에서는 공통 지식에서 출발하는 Staged Learning이 유리했다.
중반과 종반 전문가가 성능 향상에 가장 크게 기여했다.
국면을 단순 수순으로 나누면 효과가 크게 떨어졌다.
Pommerman에서도 의미 있는 단계 정의가 있으면 성능 향상이 가능했다.

이 논문은 모듈형 AI의 실용적 방향을 보여준다.
모델을 무작정 키우는 대신, 문제의 구조를 반영해 역할을 나누는 방법이다.

체스처럼 장기적인 의사결정이 필요한 환경에서는 이 접근이 특히 설득력 있다.
향후 과제는 수작업 게이트를 넘어, 데이터에서 직접 단계 전환을 학습하는 방식으로 확장하는 것이다.

Source

Helfenstein, Felix; Czech, Johannes; Blüml, Jannis; Eisel, Max; Kersting, Kristian.
“Checkmating One, by Using Many: Combining Mixture of Experts with MCTS to Improve in Chess.”
arXiv:2401.16852v3 [cs.LG], 17 Jun 2025.
https://arxiv.org/abs/2401.16852
https://arxiv.org/pdf/2401.16852v3

'AI 생성 글 정리 > modeling' 카테고리의 다른 글

Quiet-STaR: Language Models Can Teach Themselves to Think Before Speaking 논문 정리 (0)	2026.04.28
[Fast Quiet-STaR: Thinking Without Thought Tokens] 논문 정리 (0)	2026.04.28
Inference-Time Diffusion Model Distillation 논문 정리 (1)	2026.04.28
ReasoningBank 논문 정리 (0)	2026.04.27
Image Generators are Generalist Vision Learners 논문 정리 (0)	2026.04.27