Chain-of-Agents 논문 정리

한눈에 보기

이 논문은 멀티에이전트 시스템을 하나의 모델 안으로 증류하는 방법을 제안합니다.

기존 멀티에이전트 시스템은 강력합니다.

하지만 보통 다음 문제가 있습니다.

여러 에이전트가 서로 메시지를 주고받아 비용이 큽니다.
프롬프트와 워크플로를 사람이 많이 설계해야 합니다.
새로운 도메인으로 옮기려면 재구성이 필요합니다.
시스템 전체를 데이터로 직접 학습시키기 어렵습니다.

논문은 이를 해결하기 위해 Chain-of-Agents(CoA) 를 제안합니다.

핵심은 간단합니다.

여러 에이전트가 협업하는 과정을 하나의 LLM이 내부적으로 순차 실행하도록 학습시킨다.

그 결과 모델을 논문에서는 Agent Foundation Model(AFM) 이라고 부릅니다.

결과부터 보기

AFM은 웹 탐색, 복잡한 질의응답, 코드 생성, 수학 추론에서 기존 Tool-Integrated Reasoning 계열 모델보다 강한 성능을 보입니다.

대표 결과는 다음과 같습니다.

GAIA: 55.3
BrowseComp: 11.1
HLE: 18.0
AIME25: 59.8

Crop 포인트: 각 벤치마크에서 AFM 막대가 가장 높게 나타나는 영역이 CoA 방식의 핵심 성능 우위를 보여줍니다.

이 결과가 중요한 이유는 성능만이 아닙니다.

AFM은 기존 멀티에이전트 시스템처럼 여러 모델 호출을 반복하지 않습니다.

하나의 모델 안에서 계획, 도구 호출, 반성, 검증을 이어갑니다.

배경: 왜 기존 방식으로는 부족한가

논문은 세 가지 흐름을 비교합니다.

1. ReAct

ReAct는 모델이 생각하고, 도구를 호출하고, 결과를 관찰하는 흐름입니다.

구조가 단순합니다.

하지만 복잡한 문제에서 여러 역할이 필요한 경우에는 한계가 있습니다.

2. Multi-Agent System

멀티에이전트 시스템은 역할을 나눕니다.

예를 들어 검색 담당, 계획 담당, 검증 담당, 코드 실행 담당을 분리합니다.

장점은 분명합니다.

복잡한 문제를 나눠 풀 수 있습니다.

단점도 큽니다.

에이전트 간 통신 비용이 큽니다.
프롬프트 설계가 복잡합니다.
상태가 여러 에이전트에 흩어집니다.
전체 시스템을 한 번에 학습시키기 어렵습니다.

3. Tool-Integrated Reasoning

Tool-Integrated Reasoning은 하나의 모델이 검색이나 코드 실행 같은 도구를 직접 호출하도록 학습합니다.

ReAct보다 학습 친화적입니다.

하지만 보통 단일 에이전트 흐름에 가깝습니다.

여러 역할이 동적으로 협업하는 멀티에이전트 구조까지는 포괄하지 못합니다.

제안: Chain-of-Agents

CoA는 멀티에이전트 협업을 하나의 모델 안에서 수행하게 합니다.

모델은 문제를 풀면서 필요한 역할을 동적으로 활성화합니다.

대표 역할은 다음과 같습니다.

Thinking Agent: 전체 추론 흐름을 조율합니다.
Plan Agent: 문제를 하위 작업으로 나눕니다.
Reflection Agent: 중간 결과를 비판적으로 점검합니다.
Verification Agent: 최종 추론이 맞는지 검증합니다.
Search Agent: 검색 쿼리를 만듭니다.
Crawl Agent: 웹페이지 내용을 추출합니다.
Code Agent: 코드를 생성하고 실행합니다.

중요한 차이는 실행 방식입니다.

기존 TIR은 “생각 → 도구 호출 → 관찰”이라는 비교적 고정된 패턴입니다.

CoA는 계획, 검색, 크롤링, 반성, 검증, 코드 실행을 필요에 따라 섞습니다.

Crop 포인트: 아래쪽 Chain-of-Agents 흐름에서 계획, 검색, 반성, 검증이 한 추론 과정 안에 섞여 있는 부분이 기존 TIR과의 가장 큰 차이입니다.

수식 없이 말하면 CoA의 작동 원리는 이렇습니다.

모델은 지금까지의 추론 상태를 기억합니다.
다음에 어떤 역할이나 도구가 필요한지 고릅니다.
선택한 역할을 실행합니다.
실행 결과를 다시 상태에 반영합니다.
필요하면 반성하거나 계획을 수정합니다.

즉, CoA는 멀티에이전트 시스템을 “외부 워크플로”가 아니라 “모델 내부의 학습된 행동 양식”으로 바꿉니다.

학습 방법: 멀티에이전트 증류

AFM은 처음부터 CoA 능력을 갖고 있지 않습니다.

논문은 강한 멀티에이전트 시스템을 교사로 사용합니다.

구체적으로는 OAgents 같은 시스템이 문제를 푸는 과정을 기록합니다.

그 다음 성공한 실행 궤적을 CoA 형식으로 바꿉니다.

이 과정이 Multi-Agent Distillation입니다.

쉽게 말하면 다음과 같습니다.

이미 잘 작동하는 멀티에이전트 시스템의 협업 습관을 하나의 모델에게 모방 학습시킨다.

Crop 포인트: 왼쪽의 작업과 계획이 도구 실행, 관찰, 반성, 답변으로 이어지는 흐름이 교사 시스템의 협업 과정을 학습 데이터로 바꾸는 핵심입니다.

논문은 단순히 모든 궤적을 사용하지 않습니다.

품질 필터링을 거칩니다.

주요 기준은 네 가지입니다.

복잡도 필터링: 너무 단순한 궤적을 제거합니다.
품질 필터링: 오답, 중복 도구 호출, 지시 불이행 데이터를 제거합니다.
반성 강화: 자기 점검이나 계획 수정이 포함된 궤적을 우선합니다.
오류 수정 궤적 업샘플링: 처음에는 틀렸지만 반복 점검으로 정답에 도달한 사례를 더 반영합니다.

이 설계는 중요합니다.

AFM이 단순히 도구를 호출하는 법만 배우는 것이 아니기 때문입니다.

계획을 세우고, 틀릴 가능성을 감지하고, 다시 고치는 행동까지 배웁니다.

학습 파이프라인: SFT와 Agentic RL

학습은 두 단계입니다.

1. Agentic Supervised Fine-Tuning

먼저 고품질 CoA 궤적으로 지도학습을 합니다.

이 단계의 목적은 모델에게 기본 행동 양식을 심는 것입니다.

어떤 상황에서 계획을 세울지
언제 검색할지
언제 코드를 실행할지
언제 반성하고 검증할지
최종 답변을 어떻게 낼지

외부 도구가 반환한 관찰 내용은 그대로 학습하지 않도록 조심합니다.

환경에서 온 노이즈를 모델이 암기하지 않게 하기 위해서입니다.

2. Agentic Reinforcement Learning

그 다음 강화학습으로 실제 문제 해결 능력을 끌어올립니다.

웹 에이전트는 정답 여부를 LLM-as-Judge로 평가합니다.

코드와 수학 문제는 더 직접적입니다.

코드는 테스트 케이스를 통과해야 합니다.
수학은 정답 검증기를 통과해야 합니다.
형식이 맞지 않으면 보상을 받지 못합니다.

Crop 포인트: 위쪽 SFT는 좋은 궤적을 모방하게 만들고, 아래쪽 RL은 실제 보상으로 정책을 업데이트하는 구조를 보여줍니다.

데이터 구성

논문은 웹 에이전트와 코드 에이전트를 따로 실험합니다.

핵심 데이터 규모는 다음과 같습니다.

구분	SFT 데이터	RL 데이터
MHQA 웹 질의응답	8,826	169,615
복잡한 웹 에이전트	7,607	10,427
코드·수학 에이전트	59,929	47,560

웹 SFT 궤적은 평균적으로 여러 단계의 도구 호출과 반성을 포함합니다.

코드·수학 데이터는 테스트 케이스나 정답 검증이 가능한 문제를 중심으로 구성됩니다.

이 점이 강화학습에 유리합니다.

결과가 맞았는지 비교적 명확하게 판단할 수 있기 때문입니다.

웹 에이전트 결과

AFM은 멀티홉 질의응답과 복잡한 웹 탐색 벤치마크에서 강한 결과를 냅니다.

특히 Qwen-2.5-32B-Instruct 기반 AFM-RL은 다음 성능을 기록합니다.

벤치마크	AFM-RL 성능
GAIA	55.3
WebWalker	63.0
BrowseComp	11.1
HLE	18.0

해석은 명확합니다.

AFM은 단순 검색보다 복잡한 문제에 강합니다.

질문을 나누고, 검색하고, 페이지를 읽고, 다시 판단하는 흐름이 성능에 기여합니다.

특히 WebWalker에서 63.0을 기록한 점은 동적 웹 환경 문제 해결 능력을 보여줍니다.

코드·수학 에이전트 결과

코드 에이전트에서도 성능 향상이 큽니다.

32B 규모 AFM-RL은 주요 수학 벤치마크에서 다음 결과를 보입니다.

벤치마크	AFM-RL-32B
AIME24	66.7
AIME25	59.8
MATH500	94.6
AMC23	96.6
OlympiadBench	72.1

코드 생성에서는 다음 결과를 기록합니다.

벤치마크	AFM-RL-32B
LiveCodeBench v4	43.0
LiveCodeBench v5	47.9
CodeContests	32.7

핵심은 코드 실행 자체가 아닙니다.

모델이 코드 실행을 추론 과정의 일부로 사용하는 능력입니다.

문제를 분석하고, 코드를 짜서 검산하고, 관찰 결과를 반영해 다시 추론합니다.

논문은 RL 학습 중 응답 길이와 AIME25 성능이 함께 변하는 과정도 제시합니다.

컨텍스트 길이를 확장한 이후 성능 곡선이 뚜렷하게 상승합니다.

Crop 포인트: 오른쪽 AIME2025 정확도 곡선이 학습이 진행되며 상승하는 부분이 Agentic RL의 효과를 가장 직접적으로 보여줍니다.

효율성: 하나의 모델로 협업 비용을 줄인다

AFM의 중요한 장점은 비용입니다.

기존 멀티에이전트 시스템은 에이전트 사이의 대화와 중간 메시지가 많습니다.

이 때문에 토큰 사용량이 커집니다.

논문은 GAIA 샘플 10개를 기준으로 OAgents, WebThinker, AFM을 비교합니다.

AFM은 평균 총 토큰 사용량이 가장 낮습니다.

OAgents: 156,400
WebThinker: 55,957
AFM: 24,047

논문은 AFM이 OAgents 대비 토큰 소비를 84.6% 줄인다고 설명합니다.

Crop 포인트: 오른쪽 토큰 비교에서 AFM 막대가 가장 낮은 부분이 단일 모델 기반 CoA의 비용 절감 효과를 보여줍니다.

이 효율성은 구조에서 나옵니다.

AFM은 여러 에이전트가 외부에서 메시지를 주고받는 대신, 하나의 디코딩 과정 안에서 역할 전환을 수행합니다.

상태가 흩어지지 않습니다.

불필요한 통신도 줄어듭니다.

보이지 않은 도구에 대한 일반화

논문은 흥미로운 일반화 실험도 포함합니다.

코드 에이전트는 학습 중 Python 실행 도구만 사용했습니다.

하지만 추론 시점에 웹 검색이나 시각 검사 도구의 설명과 호출 형식을 넣어 주자,

처음 보는 도구도 어느 정도 사용할 수 있었습니다.

반대로 웹 에이전트는 코드 실행기나 시각 검사 도구처럼 형식이 매우 엄격한 도구에서 자주 실패했습니다.

이 차이는 중요합니다.

도구 일반화에는 두 가지 능력이 필요합니다.

언제 어떤 도구를 써야 하는지 판단하는 능력
그 도구의 호출 형식을 정확히 지키는 능력

코드 에이전트는 후자에 강했습니다.

코드 학습 과정에서 문자 단위 형식 제약을 많이 경험했기 때문입니다.

Test-Time Scaling: 여러 번 시도하면 더 좋아지는가

AFM은 추론 시점에 여러 궤적을 생성하면 성능이 더 좋아집니다.

논문은 세 가지 방식을 비교합니다.

AFM: 한 번 생성합니다.
AFM-Bo3: 세 개 후보 중 가장 좋은 답을 고릅니다.
AFM-Pass@3: 세 번 중 하나라도 맞으면 성공으로 봅니다.

Crop 포인트: 각 벤치마크에서 AFM-Pass@3 막대가 크게 상승하는 부분이 CoA 추론이 여러 시도에서 추가 성능을 얻는다는 점을 보여줍니다.

성능 변화는 큽니다.

벤치마크	AFM	AFM-Pass@3
GAIA	55.3	69.9
WebWalker	63.0	78.7
BrowseComp	11.0	19.2
HLE	18.0	33.2

이는 CoA가 단일 고정 경로가 아니라 여러 문제 해결 경로를 만들 수 있음을 뜻합니다.

다만 실제 서비스에서는 추가 추론 비용도 함께 고려해야 합니다.

이 논문의 핵심 기여

1. 멀티에이전트 협업을 단일 모델로 옮김

CoA는 멀티에이전트 프레임워크를 외부 시스템으로 두지 않습니다.

하나의 모델이 내부적으로 역할을 전환하며 문제를 풉니다.

2. 멀티에이전트 증류를 제안

강한 에이전트 시스템의 실행 궤적을 CoA 데이터로 변환합니다.

이를 통해 모델은 협업 패턴을 직접 배웁니다.

3. Agentic RL로 실제 문제 해결력을 강화

정답 검증이 가능한 웹, 코드, 수학 문제에서 강화학습을 수행합니다.

도구 호출과 최종 정답이 모두 학습 신호로 연결됩니다.

4. 성능과 효율성을 동시에 개선

AFM은 여러 벤치마크에서 좋은 성능을 내면서도 토큰 사용량을 줄입니다.

이 점이 기존 멀티에이전트 시스템 대비 가장 실용적인 차별점입니다.

읽을 때 주의할 점

이 논문은 강한 결과를 제시하지만, 몇 가지 한계도 함께 봐야 합니다.

교사 시스템 의존성

AFM은 OAgents 같은 강한 멀티에이전트 시스템에서 궤적을 얻습니다.

따라서 교사 시스템의 품질이 데이터 품질에 직접 영향을 줍니다.

평가 방식의 불확실성

웹 에이전트 평가는 LLM-as-Judge를 사용합니다.

개방형 답변을 평가하기에는 유연하지만, 판정 편향 가능성은 남아 있습니다.

도구 형식 민감도

보이지 않은 도구에 대한 일반화는 가능성을 보였습니다.

하지만 도구 호출 형식이 엄격하면 실패가 늘어날 수 있습니다.

비용이 사라진 것은 아님

AFM은 멀티에이전트 통신 비용을 줄입니다.

하지만 긴 컨텍스트, 도구 실행, 여러 번의 테스트타임 샘플링은 여전히 비용을 만듭니다.

결론

이 논문의 메시지는 분명합니다.

앞으로의 에이전트는 프롬프트로 조립된 워크플로가 아니라, 데이터로 학습된 단일 모델 내부의 협업 능력이 될 수 있다.

Chain-of-Agents는 ReAct와 TIR의 단순한 도구 호출 흐름을 넘어섭니다.

계획, 검색, 코드 실행, 반성, 검증을 하나의 모델 추론 안에 통합합니다.

AFM은 이 방향이 성능과 효율성 양쪽에서 가능하다는 실험적 증거를 제시합니다.

가장 중요한 포인트는 이것입니다.

멀티에이전트 시스템의 장점을 유지하면서도, 시스템을 더 학습 가능하고 더 저렴하게 만들 수 있습니다.

Source

OPPO AI Agent Team. Chain-of-Agents: End-to-End Agent Foundation Models via Multi-Agent Distillation and Agentic RL.
arXiv: 2508.13167v1.
Date shown in paper: August 20, 2025.
원문 링크: https://arxiv.org/abs/2508.13167
PDF 링크: https://arxiv.org/pdf/2508.13167

'AI 생성 글 정리 > agent' 카테고리의 다른 글

O-Researcher 논문 정리 (0)	2026.04.28
CASTER 논문 정리 (0)	2026.04.28
Beyond Pipelines: A Survey of the Paradigm Shift toward Model-native Agentic AI 논문 정리 (0)	2026.04.28
MemOS 논문 정리 (0)	2026.04.28
MemoRAG 논문 정리 (0)	2026.04.28

Honbul과 컴퓨터

Chain-of-Agents 논문 정리

한눈에 보기

결과부터 보기