생성형 AI는 답을 만든다.
에이전트 AI는 목표를 향해 움직인다.
이 논문은 그 차이를 시스템 설계 방식의 변화로 설명한다.
핵심은 단순하다.
- 예전에는 에이전트 능력을 외부 파이프라인으로 붙였다.
- 이제는 그 능력을 모델 내부에 학습시키려 한다.
- 이 전환의 엔진은 강화학습이다.
논문이 말하는 변화는 “더 복잡한 에이전트 프레임워크”가 아니다.
오히려 반대다.
복잡한 외부 조립을 줄이고, 모델 자체가 계획하고, 도구를 쓰고, 기억을 관리하도록 만드는 흐름이다.
한 줄 요약
에이전트 AI의 중심은 프롬프트와 워크플로를 잘 짜는 문제에서 모델이 경험을 통해 행동 능력을 학습하는 문제로 이동하고 있다.

Crop 포인트: 파란 영역에서 빨간 영역으로 이동하는 흐름이 논문 전체의 핵심이며, 계획·도구 사용·기억·응용이 모두 같은 방향으로 재편된다.

왜 “에이전트”가 별도 문제인가
LLM은 텍스트를 잘 생성한다.
하지만 에이전트는 텍스트 생성만으로 충분하지 않다.
에이전트에는 세 가지 핵심 능력이 필요하다.
- Planning: 큰 목표를 여러 단계로 쪼개는 능력
- Tool use: 검색, 코드 실행, API, 브라우저 같은 외부 도구를 쓰는 능력
- Memory: 과거 정보와 현재 맥락을 저장하고 다시 꺼내 쓰는 능력
초기 에이전트는 이 능력을 모델 밖에서 만들었다.
예를 들어 계획은 프롬프트로 유도했다.
도구 사용은 “생각 → 행동 → 관찰” 같은 고정 루프로 구성했다.
기억은 요약, 벡터 DB, 검색 파이프라인으로 처리했다.
이 방식은 빠르게 구현할 수 있다.
디버깅도 쉽다.
하지만 한계가 뚜렷하다.
- 프롬프트와 규칙에 민감하다.
- 예상 밖 상황에 약하다.
- 여러 모듈 사이에서 오류가 누적된다.
- 모델은 여전히 “수동 부품”에 가깝다.
논문은 이를 Pipeline-based Agentic AI라고 부른다.
반대로 Model-native Agentic AI는 모델 자체가 행동 정책을 학습하는 방식이다.
즉, 외부 스크립트가 모델을 조종하는 것이 아니라,
모델이 직접 다음 행동을 선택한다.
강화학습이 왜 전환의 엔진인가
지도학습은 정답 예시를 따라 하게 만든다.
하지만 에이전트 과제에서는 “정답 절차”를 만들기 어렵다.
연구 보고서를 쓰는 과정을 생각해보자.
좋은 보고서는 단순히 마지막 답만 맞으면 되는 일이 아니다.
질문을 쪼개고, 검색하고, 근거를 비교하고, 다시 검색하고, 구조화해야 한다.
이 전체 과정을 사람이 단계별로 라벨링하는 것은 비싸다.
복잡한 과제에서는 사실상 불가능하다.
강화학습은 문제를 다르게 본다.
“어떻게 해야 하는지”를 모두 가르치는 대신,
모델이 직접 시도하게 하고,
결과가 좋았는지 나빴는지를 기준으로 행동 방식을 조정한다.
이 점이 중요하다.
강화학습은 모델을 모방자에서 탐색자로 바꾼다.
데이터 합성 관점에서 본 강화학습
논문은 강화학습을 단순한 최적화 기법으로 보지 않는다.
강화학습은 부족한 절차 데이터를 만들어내는 장치다.
모델은 내부 추론을 통해 새로운 풀이 경로를 만든다.
또 환경과 상호작용하면서 행동이 어떤 결과를 낳는지 배운다.
이때 생기는 데이터는 두 가지다.
- 추론형 데이터: 모델 내부에서 만들어지는 문제 해결 경로
- 상호작용형 데이터: 검색, 클릭, 실행, 관찰을 통해 얻는 경험 데이터
논문은 이 과정을 “컴퓨트가 지능으로 전환되는 과정”으로 본다.
컴퓨트가 많아질수록 단순히 더 큰 모델만 만드는 것이 아니다.
모델이 더 많은 경험을 만들고, 그 경험으로 다시 똑똑해지는 순환이 생긴다.

Crop 포인트: 하단의 observational, extrapolative, interventional 구분은 모델이 단순 관찰을 넘어 직접 행동하며 경험 데이터를 만든다는 메시지를 보여준다.
계획: 프롬프트로 유도하던 능력이 모델 안으로 들어간다
계획 능력은 에이전트의 기본이다.
사용자의 목표를 이해하고, 실행 가능한 단계로 나누고, 상황에 맞게 조정해야 한다.
초기 방식은 두 갈래였다.
첫째, 상징적 계획기를 붙이는 방식이다.
LLM은 자연어 문제를 형식화하고, 외부 플래너가 계획을 계산한다.
해석 가능성은 높지만, 도메인마다 설계 비용이 크다.
둘째, 프롬프트 기반 계획이다.
Chain-of-Thought나 Tree-of-Thought처럼 모델이 중간 생각을 말하도록 유도한다.
구현은 쉽지만, 프롬프트 품질과 예시 구성에 크게 좌우된다.
모델 네이티브 방식은 다르다.
모델이 계획 패턴을 외부에서 흉내 내는 것이 아니라,
학습을 통해 스스로 계획하는 행동을 갖게 한다.
여기서 중요한 변화는 두 가지다.
- 지도학습에서 강화학습으로 이동한다.
- 중간 과정 평가보다 최종 결과 평가가 더 큰 비중을 갖는다.
논문은 DeepSeek-R1을 중요한 사례로 본다.
중간 단계를 일일이 가르치지 않아도,
결과 중심 보상만으로 추론과 계획 능력이 강화될 수 있음을 보여줬기 때문이다.

Crop 포인트: 점선 아래는 외부 구조에 의존하는 계획이고, 점선 위는 모델 자체에 계획 능력을 학습시키는 흐름이다.
도구 사용: “언제, 무엇을, 어떻게 쓸지”를 배운다
도구 사용은 단순한 함수 호출이 아니다.
진짜 어려운 문제는 세 가지다.
- 지금 도구가 필요한지 판단하기
- 어떤 도구를 선택할지 결정하기
- 실행 결과를 보고 다음 행동을 수정하기
초기 도구 사용은 시스템 워크플로에 가까웠다.
예를 들어 모델이 API 요청을 만들면, 외부 시스템이 이를 파싱하고 실행했다.
HuggingGPT, AutoGen 같은 방식은 여러 도구를 엮는 데 유용했다.
이후 ReAct류 프롬프트가 등장했다.
모델은 생각하고, 행동하고, 관찰한 뒤 다시 생각한다.
외부 루프는 유지되지만, 모델에게 어느 정도 의사결정권이 생긴다.
모델 네이티브 방식에서는 도구 사용 정책을 직접 학습한다.
논문은 이를 두 방향으로 나눈다.
- 모듈형 학습: 계획자는 학습하고, 실행기는 별도 모듈로 둔다.
- 엔드투엔드 학습: 계획과 실행을 하나의 정책으로 함께 학습한다.
엔드투엔드가 이상적으로 보이지만 어렵다.
최종 성공이 어느 도구 선택 덕분인지 판단하기 어렵기 때문이다.
또 실제 웹이나 API 환경은 지연, 오류, 노이즈가 많다.
그래서 최근 연구는 다시 모듈형 설계의 장점을 활용한다.
핵심 의사결정은 학습시키고, 형식적 실행은 안정적인 모듈에 맡기는 식이다.

Crop 포인트: 상단 오른쪽에 몰린 최근 연구들은 도구 사용이 정적인 API 호출에서 동적 환경의 장기 의사결정 문제로 바뀌었음을 보여준다.
기억: 많이 넣는 것보다 잘 쓰는 것이 중요하다
에이전트 기억은 단순 저장소가 아니다.
논문은 기억을 행동을 위한 증거 관리로 본다.
기억에는 네 단계가 있다.
- 무엇을 저장할지 정한다.
- 저장한 정보를 정리하고 압축한다.
- 필요한 순간에 관련 정보를 찾는다.
- 찾은 정보를 추론과 행동에 사용한다.
초기 기억은 외부 모듈 중심이었다.
대화 요약, RAG, 벡터 DB, 검색 라우터가 대표적이다.
하지만 긴 컨텍스트 모델이 등장하면서 질문이 바뀌었다.
“얼마나 많이 넣을 수 있는가?”보다
“넣은 정보를 실제로 활용하는가?”가 더 중요해졌다.
긴 문맥 안에서 핵심 정보가 중간에 있을 때 모델이 놓치는 문제가 대표적이다.
이 문제는 단순히 컨텍스트 길이를 늘린다고 해결되지 않는다.

Crop 포인트: 긴 컨텍스트 연구가 위치 인코딩, 긴 시퀀스 합성, 어텐션 최적화로 나뉘며, 단순 용량 확장만으로는 복잡 추론까지 보장되지 않는다는 점에 주목해야 한다.
컨텍스트 관리는 기억의 실전 능력이다
컨텍스트 관리는 긴 컨텍스트와 다르다.
긴 컨텍스트는 많은 정보를 담는 능력이다.
컨텍스트 관리는 그중 무엇을 남기고, 무엇을 버리고, 어떤 순서로 보여줄지 정하는 능력이다.
파이프라인 방식에서는 사람이 규칙을 설계한다.
중요 문서를 앞뒤에 배치하거나,
검색 결과를 재정렬하거나,
대화 내용을 요약해 다시 넣는다.
하이브리드 방식에서는 일부 모듈을 학습시킨다.
예를 들어 어떤 기억을 검색할지,
어떤 정보를 요약할지,
어떤 에이전트에게 어떤 컨텍스트를 줄지 학습한다.
완전한 모델 네이티브 방식은 더 급진적이다.
모델이 스스로 작업 기억을 편집한다.
필요한 정보를 남기고,
불필요한 정보를 버리며,
장기 목표에 맞게 컨텍스트를 관리한다.
MemAct 같은 연구는 기억 관리를 하나의 “행동”으로 본다.
모델은 답변만 생성하는 것이 아니라,
기억을 고치고 정리하는 행동도 선택한다.

Crop 포인트: 점선 위의 최근 연구들은 검색·관리·활용이 분리된 모듈에서 하나의 학습된 정책으로 합쳐지는 과정을 보여준다.
장기 기억: 외부 저장소와 모델 파라미터 사이
장기 기억은 세션을 넘어 유지되는 지식이다.
두 가지 저장 방식이 있다.
- 외부 저장소: 문서, 벡터 DB, 지식 그래프
- 모델 내부: 파라미터, 어댑터, 편집된 가중치
외부 저장소는 추적 가능성이 높다.
근거를 확인하고, 삭제하고, 업데이트하기 쉽다.
개인정보와 컴플라이언스 측면에서도 유리하다.
반면 모델 내부 기억은 빠르고 자연스럽다.
하지만 어떤 지식이 어디에 저장됐는지 알기 어렵고,
새 지식이 기존 능력을 방해할 수 있다.
따라서 현실적인 방향은 혼합형이다.
외부 저장소는 신뢰 가능한 기록을 담당한다.
모델은 검색 시점, 활용 방식, 요약 전략을 점점 더 스스로 학습한다.
Deep Research 에이전트: 검색 엔진에서 연구 파트너로
Deep Research 에이전트는 지식 집약 과제를 다룬다.
문헌 조사, 시장 분석, 기술 비교, 긴 보고서 작성이 대표적이다.
초기 방식은 검색 파이프라인이었다.
질문을 확장하고, 검색하고, 결과를 압축한 뒤, 답을 생성한다.
이는 통제하기 쉽지만 복잡한 연구에는 한계가 있다.
복잡한 연구는 한 번의 검색으로 끝나지 않는다.
질문을 다시 정의하고,
새 근거를 찾고,
상충 정보를 비교하고,
전체 구조를 조정해야 한다.
모델 네이티브 Deep Research는 이 과정을 모델이 직접 운영하도록 학습한다.
강화학습을 통해 언제 검색할지, 얼마나 깊게 탐색할지, 어떤 근거를 통합할지 배운다.
논문은 두 학습 환경을 구분한다.
- 오프라인 학습: 위키피디아 같은 고정 데이터베이스에서 안정적으로 학습한다.
- 온라인 학습: 실제 웹에서 검색·브라우징하며 동적 환경을 경험한다.
온라인은 더 현실적이다.
하지만 지연, 광고, 페이지 변화, API 제한, 노이즈가 크다.
그래서 보상 설계와 환경 안정화가 핵심 문제가 된다.

Crop 포인트: 최근 모델 네이티브 연구가 오른쪽 위로 이동하는 모습은 Deep Research가 단순 검색 보강을 넘어 장기 탐색 정책 학습으로 바뀌고 있음을 보여준다.
GUI 에이전트: 화면을 보고 직접 조작하는 모델
GUI 에이전트는 화면을 보고 클릭하고 입력한다.
말 그대로 “눈과 손”을 가진 에이전트다.
초기 GUI 자동화는 RPA에 가까웠다.
사용자의 클릭을 기록하고 다시 재생하거나,
규칙 기반 스크립트로 화면 요소를 조작했다.
반복 업무에는 유용했지만, 환경이 조금만 바뀌어도 약했다.
LLM 등장 후에는 프롬프트 기반 GUI 에이전트가 나왔다.
화면 설명, OCR, 사용자 지시를 모델에 넣고 다음 행동을 생성하게 했다.
Mobile-Agent, AppAgent 계열이 이 흐름에 속한다.
하지만 이 방식도 한계가 있다.
- 화면 이해가 텍스트 설명에 의존한다.
- 긴 작업에서 상태 추적이 약하다.
- 반복 추론과 반성으로 비용이 커진다.
모델 네이티브 GUI 에이전트는 화면에서 행동까지 직접 학습한다.
처음에는 지각, 계획, 실행 모듈을 따로 학습했다.
최근에는 스크린샷을 입력받아 클릭·입력 같은 원자 행동을 바로 출력하는 엔드투엔드 방식으로 이동하고 있다.
UI-TARS, GUI-Owl, OpenCUA 같은 연구가 이 방향의 대표 사례다.

Crop 포인트: 오른쪽 위의 엔드투엔드 GUI 에이전트들은 화면 인식, 계획, 실행을 하나의 시각-행동 모델로 통합하려는 방향을 보여준다.
더 큰 흐름: 사람이 짠 규칙에서 데이터 기반 학습으로
논문은 이 변화를 AI 발전사의 반복 패턴으로 해석한다.
AI는 오래전부터 사람 손으로 만든 규칙을 줄이고,
데이터로 학습하는 방향으로 이동해왔다.
- 전문가 시스템에서 통계적 기계학습으로
- 손수 만든 특징에서 딥러닝 표현으로
- 정답 라벨 맞추기에서 환경 피드백 기반 학습으로
- 외부 파이프라인 에이전트에서 모델 네이티브 에이전트로
공통 원인은 명확하다.
수작업 설계는 비싸고 확장성이 낮다.
반면 데이터, 컴퓨트, 환경 시뮬레이션이 커질수록 학습 기반 방식의 이점이 커진다.

Crop 포인트: 오른쪽의 agentic capabilities 열은 이번 전환이 갑작스러운 사건이 아니라 AI가 지속적으로 수작업 설계를 학습으로 대체해온 흐름의 연장임을 보여준다.
다음에 모델 안으로 들어갈 능력
논문은 계획, 도구 사용, 기억 외에도 더 많은 에이전트 능력이 모델 네이티브화될 것으로 본다.
가장 가까운 영역은 출력 형식 준수와 자동 검증이다.
이미 많은 모델이 형식 제약을 비교적 잘 학습한다.
중기적으로 중요한 영역은 두 가지다.
- Multi-agent collaboration: 여러 에이전트가 역할을 나누고 협력하는 능력
- Reflection: 자기 오류를 찾고 수정하는 능력
가장 어려운 영역은 안전, 정렬, 보상 모델링이다.
이들은 단순 성공 여부로 평가하기 어렵고,
사회적·윤리적 기준까지 포함하기 때문이다.

Crop 포인트: 가운데의 multi-agent collaboration과 reflection은 이미 연구가 활발하지만 완전한 모델 네이티브화까지는 추가 돌파구가 필요한 영역이다.
멀티 에이전트 협력: 역할도 학습 대상이 된다
초기 멀티 에이전트 시스템은 사람이 역할을 정했다.
한 모델은 기획자, 다른 모델은 작성자, 또 다른 모델은 검토자 역할을 맡는다.
CAMEL, MetaGPT, multi-agent debate류가 대표적이다.
이 방식은 빠르게 쓸 수 있다.
하지만 협력 전략 자체가 모델에 내재화되지 않는다.
역할, 대화 순서, 투표 방식은 여전히 사람이 설계한다.
모델 네이티브 방향은 협력 구조까지 학습 대상으로 본다.
모델은 다음을 배워야 한다.
- 몇 개의 에이전트가 필요한가
- 어떤 역할을 나눠야 하는가
- 누가 누구와 소통해야 하는가
- 최종 성과에 각 에이전트가 얼마나 기여했는가
이 영역의 난점은 보상 배분이다.
팀이 성공했을 때 어느 에이전트의 어떤 행동이 핵심이었는지 판단하기 어렵다.
또 각 에이전트가 학습하면서 서로의 행동 분포가 계속 바뀐다.
학습 환경 자체가 흔들리는 셈이다.
반성 능력: 자기 수정도 외부 루프에서 내부 정책으로
반성은 모델이 자신의 답이나 행동을 평가하고 수정하는 능력이다.
초기 방식은 프롬프트 루프였다.
먼저 답을 만들고,
스스로 비판하게 하고,
다시 고치게 한다.
Reflexion, Self-Refine, CRITIC 같은 방식이 여기에 속한다.
이 방식은 유용하지만 반복 비용이 크다.
또 모델의 자기 평가가 항상 믿을 만한 것도 아니다.
모델 네이티브 반성은 다르다.
모델이 스스로 오류를 감지하고,
필요한 검증 절차를 선택하고,
수정 행동을 정책 안에 포함하도록 학습한다.
목표는 “반성 프롬프트를 붙이는 것”이 아니다.
반성 자체를 모델의 기본 행동으로 만드는 것이다.
시스템 레이어의 역할은 사라지지 않는다
모델 네이티브가 강해져도 시스템 레이어는 필요하다.
다만 역할이 바뀐다.
초기 시스템 레이어는 모델의 부족한 능력을 보완했다.
대화 관리, 도구 호출, 메모리, 워크플로, 브라우저 제어를 외부에서 담당했다.
모델이 이 능력들을 흡수하면 시스템 레이어는 다른 역할을 맡는다.
- 모델을 대신해 계획하는 역할은 줄어든다.
- 모델이 안전하게 행동할 수 있는 인프라 역할이 커진다.
- 관찰 가능성, 권한, 통신, 평가, 컴플라이언스가 중요해진다.
논문은 이를 “능력 보완”에서 “생태계 지원”으로의 이동으로 본다.

Crop 포인트: 각 시점에서 파란 화살표는 부족한 능력을 보완하는 시스템을, 빨간 화살표는 모델 네이티브 능력을 뒷받침하는 인프라를 뜻한다.
AgentOps: 미래 시스템 레이어의 중심
미래의 시스템 레이어는 AgentOps에 가까워진다.
모델이 더 자율적으로 행동할수록,
운영 인프라는 더 중요해진다.
핵심 과제는 세 가지다.
- Agent identity management: 에이전트의 신원, 권한, 인증을 관리한다.
- Agent communication: 에이전트 간 통신 프로토콜을 제공한다.
- Agent execution observability: 비결정적 행동 경로를 추적하고 디버깅한다.
이는 기존 MLOps나 DevOps와 다르다.
에이전트는 단순 예측 모델이 아니다.
도구를 호출하고, 환경을 바꾸고, 다른 에이전트와 협력한다.
따라서 관찰해야 할 대상도 달라진다.
최종 출력뿐 아니라,
의도, 중간 행동, 도구 호출, 기억 사용, 권한 행사까지 추적해야 한다.

Crop 포인트: 오른쪽 AgentOps 영역은 모델 네이티브화가 시스템의 종말이 아니라 운영·권한·관찰 인프라의 재편을 의미한다는 점을 압축한다.
논문의 핵심 기여
이 논문은 개별 에이전트 기술을 나열하는 데서 그치지 않는다.
전체 흐름을 하나의 패러다임 전환으로 묶는다.
핵심 기여는 세 가지다.
- 에이전트 능력의 위치를 기준으로 패러다임을 구분한다.
파이프라인 기반은 능력이 외부 시스템에 있다.
모델 네이티브는 능력이 모델의 학습된 정책 안에 있다. - 강화학습을 전환의 공통 엔진으로 본다.
강화학습은 절차 데이터 부족을 완화하고,
모델이 환경에서 경험을 만들게 한다. - 핵심 능력과 응용을 같은 축에서 설명한다.
계획, 도구 사용, 기억뿐 아니라 Deep Research와 GUI 에이전트도 같은 방향으로 이동한다.
읽을 때 주의할 점
이 논문은 서베이다.
새 알고리즘 하나를 제안하는 논문은 아니다.
따라서 강점은 체계화에 있다.
에이전트 AI의 최근 연구를 “파이프라인에서 모델 네이티브로”라는 축에 배치한다.
다만 모든 영역이 같은 속도로 모델 네이티브화되는 것은 아니다.
- 계획은 이미 빠르게 내부화되고 있다.
- 도구 사용은 환경 노이즈와 보상 배분 문제가 크다.
- 기억은 외부 저장소의 추적 가능성이 여전히 중요하다.
- GUI 에이전트는 데이터와 환경 구축이 병목이다.
- 멀티 에이전트와 안전은 아직 장기 과제에 가깝다.
즉, 모델 네이티브는 “외부 시스템을 모두 없애자”는 주장이 아니다.
더 정확히는 다음과 같다.
모델은 점점 더 많은 의사결정 능력을 흡수한다.
시스템은 그 모델이 현실에서 안전하고 안정적으로 작동하도록 돕는 인프라로 이동한다.
실무적 시사점
에이전트 시스템을 설계할 때 질문이 바뀌어야 한다.
예전 질문은 이랬다.
“어떤 프롬프트와 모듈을 붙이면 원하는 행동이 나올까?”
앞으로의 질문은 이렇게 바뀐다.
“이 행동을 모델이 직접 학습할 수 있는 과제 환경과 피드백은 무엇인가?”
실무적으로는 세 가지를 점검해야 한다.
- 반복 가능한 환경: 모델이 시도하고 실패할 수 있는 샌드박스가 필요하다.
- 검증 가능한 보상: 성공 여부를 안정적으로 평가할 수 있어야 한다.
- 운영 가능한 인프라: 권한, 로그, 관찰 가능성, 롤백 체계가 필요하다.
모델 네이티브 전환은 모델만의 문제가 아니다.
학습 환경, 평가 체계, 운영 인프라가 함께 바뀌어야 한다.
결론
이 논문이 제시하는 가장 중요한 메시지는 분명하다.
에이전트 AI는 더 이상 “LLM에 도구를 붙인 시스템”만으로 설명하기 어렵다.
계획, 도구 사용, 기억은 점점 모델 내부의 행동 능력이 되고 있다.
강화학습은 그 전환을 가능하게 하는 경험 생성 장치다.
결국 에이전트 AI의 방향은 외부에서 지능을 조립하는 방식에서,
모델이 경험을 통해 지능을 키우는 방식으로 이동하고 있다.
이 변화는 시스템의 종말이 아니다.
시스템의 역할 변화다.
앞으로 중요한 것은 더 많은 파이프라인을 붙이는 일이 아니라,
모델이 스스로 학습하고 행동할 수 있는 환경을 설계하는 일이다.
Source
- Jitao Sang, Jinlin Xiao, Jiarun Han, Jilin Chen, Xiaoyi Chen, Shuyu Wei, Yongjie Sun, Yuhang Wang. Beyond Pipelines: A Survey of the Paradigm Shift toward Model-native Agentic AI. arXiv:2510.16720v2, 26 Oct 2025.
- Paper: https://arxiv.org/abs/2510.16720
- Curated paper list: https://github.com/ADaM-BJTU/model-native-agentic-ai
'AI 생성 글 정리 > agent' 카테고리의 다른 글
| O-Researcher 논문 정리 (0) | 2026.04.28 |
|---|---|
| CASTER 논문 정리 (0) | 2026.04.28 |
| MemOS 논문 정리 (0) | 2026.04.28 |
| MemoRAG 논문 정리 (0) | 2026.04.28 |
| Learning and Planning Multi-Agent Tasks via an MoE-based World Model 논문 정리 (0) | 2026.04.28 |