한 줄 요약
이 논문은 사람이 프롬프트와 워크플로를 직접 설계하는 대신, 메타 에이전트가 에이전트 자체를 코드로 생성·평가·개선하면서 더 강한 설계를 자동으로 발견할 수 있다는 점을 보여줍니다.
0. 논문 정보
- 제목: Automated Design of Agentic Systems
- 저자: Shengran Hu, Cong Lu, Jeff Clune
- 발표: ICLR 2025
- 핵심 키워드: ADAS, Meta Agent Search, Agentic Systems, Code-space Search, Automated Agent Design
1. 이 논문이 중요한 이유
최근 에이전트 연구는 Chain-of-Thought, Self-Reflection, Tool Use, Multi-agent Collaboration 같은 설계 패턴을 계속 쌓아 올리는 방향으로 발전해 왔습니다.
하지만 이 논문은 한 걸음 더 나아가, “좋은 에이전트 구조를 사람이 계속 손으로 만들어야 하는가?”라는 질문을 던집니다.
저자들의 답은 분명합니다.
- 에이전트 설계도 결국 자동화의 대상이 될 수 있다.
- 프롬프트만 최적화하는 것을 넘어, 워크플로·역할 분담·검증 루프·도구 사용 방식 전체를 탐색해야 한다.
- 그 탐색 공간으로 코드(code space) 를 사용하면, 이론적으로 훨씬 더 넓고 유연한 설계를 찾을 수 있다.
즉, 이 논문의 핵심 메시지는 다음과 같습니다.
프롬프트 엔지니어링의 다음 단계는, 에이전트 구조 자체를 자동으로 설계하는 것이다.
2. 논문의 핵심 주장
2.1 ADAS라는 문제를 공식화한다
저자들은 ADAS(Automated Design of Agentic Systems) 라는 연구 영역을 제안합니다.
정의는 간단합니다.
검색 알고리즘(search algorithm)이 검색 공간(search space) 안에서 에이전트 시스템을 찾고, 평가 함수(evaluation function)를 최대화하도록 설계를 자동으로 발견하는 과정
이 정의가 중요한 이유는, 에이전트 연구를 더 이상 “좋은 프롬프트를 고안하는 기술”이 아니라 최적화 문제로 바꿔 놓기 때문입니다.
2.2 왜 “코드 공간”이 중요한가
이 논문은 기존 자동화 시도가 주로 프롬프트 최적화에 머물렀다고 비판합니다.
프롬프트만 바꾸면 문구는 달라질 수 있어도, 워크플로 자체는 그대로일 가능성이 큽니다.
반면 코드 공간을 쓰면 다음이 가능합니다.
- 프롬프트 변경
- 역할 분담 방식 변경
- 다단계 반성/검토 루프 삽입
- 앙상블 방식 변경
- 도구 사용 방식 추가
- 완전히 새로운 실행 흐름 설계
저자들은 이 점 때문에 코드 기반 탐색이 표현력, 해석 가능성, 기존 프레임워크와의 결합 가능성에서 모두 유리하다고 봅니다.
3. 이 논문이 제안하는 방법: Meta Agent Search
Meta Agent Search는 말 그대로 “에이전트를 설계하는 메타 에이전트” 입니다.
동작 흐름은 다음과 같습니다.
- 초기 아카이브에 baseline 에이전트들을 넣는다.
- 메타 에이전트가 이전 아카이브를 참고해 새로운 에이전트 아이디어를 낸다.
- 그 아이디어를 코드로 구현한다.
- 자기 반성(self-reflection) 단계로 새로움과 오류 여부를 점검한다.
- 실제 태스크에서 성능을 평가한다.
- 새 에이전트와 성능을 아카이브에 저장한다.
- 이 아카이브를 다시 다음 탐색의 발판으로 사용한다.
핵심은 단순한 “샘플 여러 개 뽑기”가 아니라, 이전 발견들의 아카이브를 발판(stepping stone)으로 활용하는 누적적 탐색이라는 점입니다.
또 한 가지 흥미로운 디테일은, 저자들이 메타 에이전트에게 거대한 프레임워크를 준 것이 아니라 100줄 이내의 단순한 프레임워크만 제공하고, 새 에이전트는 사실상 forward() 함수만 구현하도록 했다는 점입니다.
즉, 완전히 자유로운 코드 탐색이 아니라 실용적인 범위에서 강한 자유도를 준 셈입니다.
4. Figure 1로 보는 전체 그림

그림 1. Meta Agent Search의 전체 루프. 메타 에이전트가 새로운 에이전트를 코드로 만들고, 태스크 성능을 평가한 뒤, 결과를 archive에 저장하고 다음 탐색에 재사용합니다. (원문 Figure 1, p.2)
이 그림에서 꼭 봐야 할 포인트
- Meta Agent는 단순한 답변 생성기가 아니라, 새로운 에이전트 설계자입니다.
- Agent Archive는 단순 저장소가 아니라, 다음 설계의 영감이 되는 진화적 메모리입니다.
- 아래쪽 예시들(Multi-step Peer Review, Verified Multimodal, Divide and Conquer)은
“프롬프트 조금 바꾸기”가 아니라 구조적 패턴 자체가 새로 생성되고 있음을 보여줍니다.
해석 한 문장
이 논문의 핵심은 모델을 더 크게 만드는 것이 아니라, 모델을 어떻게 조직할지를 자동으로 배운다는 점에 있다.
5. Figure 2로 보는 ADAS의 개념 구조

그림 2. ADAS의 3요소: Search Space, Search Algorithm, Evaluation Function. (원문 Figure 2, p.3)
이 그림은 ADAS를 아주 명확하게 정리합니다.
5.1 Search Space
어떤 종류의 에이전트 설계를 표현할 수 있는가?
- 프롬프트만 바꾸는 공간인지
- 그래프 구조를 바꾸는 공간인지
- 아니면 코드 전체를 바꿀 수 있는 공간인지
이 논문은 여기서 코드 공간을 선택합니다.
5.2 Search Algorithm
그 공간을 어떻게 탐색할 것인가?
이 논문에서는 메타 에이전트가 새 구조를 제안하고, archive를 참고하며, self-reflection을 통해 개선합니다.
5.3 Evaluation Function
무엇을 잘한다고 볼 것인가?
이 논문에서는 주로 정답률/성능을 기준으로 평가합니다.
다만 저자들은 장기적으로는 비용, 지연(latency), 안전성까지 함께 최적화하는 다목적 ADAS가 필요하다고 봅니다.
6. 왜 이 방법이 기존 연구보다 한 단계 더 나아간다고 볼 수 있는가
이 논문이 기존 프롬프트 최적화 연구와 구분되는 지점은 명확합니다.
| 비교 항목 | 프롬프트 최적화 중심 접근 | 이 논문의 접근 |
|---|---|---|
| 바꿀 수 있는 것 | 문구, 역할 지시문 | 프롬프트, 워크플로, 검증 루프, 역할 분담, 조합 방식 |
| 표현력 | 제한적 | 매우 큼 |
| 재사용 가능한 구조 발견 | 제한적 | 가능 |
| 해석 가능성 | 문장 수준 | 코드 수준에서 구조 파악 가능 |
저자들이 강조하는 포인트는, 코드는 Turing Complete한 공간이기 때문에 이론적으로 에이전트 설계의 거의 모든 조합을 표현할 수 있다는 점입니다.
물론 실제 탐색 효율은 별개의 문제지만, 적어도 탐색 공간의 상한은 매우 높습니다.
7. 실험 설정에서 알아둘 점
실험을 해석할 때 꼭 알아둘 조건이 있습니다.
- ARC에서는 25 iterations, 다른 reasoning/problem-solving 도메인에서는 30 iterations를 사용
- 메타 에이전트는 본문에서는 GPT-4 계열로 설명되며, 부록에서는
gpt-4o-2024-05-13로 명시 - 실제 발견된 에이전트와 baseline 평가는 비용 절감을 위해
gpt-3.5-turbo-0125중심으로 수행 - 즉, “설계자는 더 강한 모델, 실행자는 더 저렴한 모델”이라는 구도입니다
이 설정은 꽤 중요합니다.
논문의 메시지가 “최강 모델로 그냥 풀면 된다”가 아니라, 더 강한 모델을 설계자(meta-designer)로 써서, 더 저렴한 모델의 실행 성능까지 끌어올릴 수 있다는 데 있기 때문입니다.
8. Figure 3: ARC에서 정말 무엇이 일어났는가

그림 3. ARC에서의 탐색 진행과 최고 성능 에이전트 구조. 왼쪽은 iteration이 쌓이면서 성능이 올라가는 과정, 오른쪽은 최종 우수 에이전트의 구조입니다. (원문 Figure 3, p.5)
8.1 이 그림이 중요한 이유
왼쪽 그래프에서 보이는 것은 단순한 우연한 점프가 아닙니다.
저자들은 몇 가지 중요한 stepping stone이 순차적으로 등장했다고 해석합니다.
- 초반: 여러 개의 CoT 답변 생성
- 중반: 생성된 답변들을 refinement
- 그다음: dynamic memory 추가
- 최종: 여러 critic과 structured feedback을 결합
즉, 좋은 구조가 한 번에 “뚝” 나온 것이 아니라,
중간 설계들이 발판이 되어 다음 설계가 더 좋아지는 축적형 탐색이 일어났다는 것입니다.
8.2 ARC 최고 성능 에이전트의 구조적 특징
오른쪽의 최종 에이전트는 대략 이런 흐름을 가집니다.
- 5개의 CoT 후보 생성
- Human-like critic 사용
- Efficiency / Readability / Simplicity expert 사용
- 피드백을 통합
- 3회 refinement
- 상위 해답을 평가 후 ensemble
- 최종 답안 결정
이 구조는 사람이 흔히 손으로 짜는 파이프라인보다 더 복합적이면서도,
동시에 “왜 좋아졌는지 읽을 수 있는 구조”라는 점에서 가치가 있습니다.
9. 핵심 성능 결과: 여러 도메인에서 baseline을 이긴다
논문 본문 Table 1의 핵심만 추리면 아래와 같습니다.
| 도메인 | 최고 hand-designed baseline | Prompt Optimization | Meta Agent Search | 해석 |
|---|---|---|---|---|
| DROP (Reading) | 65.8 | 69.1 | 79.4 | 읽기·추론 계열에서 큰 폭 개선 |
| MGSM (Math) | 39.0 | 30.6 | 53.4 | 수학 문제 해결에서 큰 폭 개선 |
| MMLU (Multi-task) | 65.9 | 67.6 | 69.6 | 개선 폭은 작지만 최고 성능 |
| GPQA (Science) | 31.6 | 32.9 | 34.6 | 개선은 있으나 상대적으로 작음 |
이 표에서 읽어야 할 메시지
- 가장 큰 개선은 Reading과 Math에서 발생
- DROP: +13.6
- MGSM: +14.4
- 저자들은 그 이유를 이렇게 해석합니다.
- Reading/Math에서는 모델이 기본 지식은 충분히 갖고 있지만,
계산 실수나 추론 오류, hallucination이 문제다 - 이런 경우엔 에이전트 구조 최적화의 효과가 크게 나타난다
- Reading/Math에서는 모델이 기본 지식은 충분히 갖고 있지만,
- 반대로 Science/멀티태스크는
- 모델 지식 자체가 부족한 경우가 있어
- 구조를 바꿔도 개선 폭이 제한적일 수 있다
이 해석은 꽤 설득력 있습니다.
즉, ADAS는 “모델이 아예 모르는 것”보다 “모델이 아는데 자주 틀리는 것”에서 더 강력하게 작동할 가능성이 큽니다.
10. 도메인 전이(transfer)도 꽤 강하다
이 논문의 또 다른 핵심은 전이 가능성입니다.
저자들은 MGSM(수학)에서 찾은 상위 에이전트를 다른 도메인에 옮겨 봅니다.
| 전이 대상 | 최고 hand-designed baseline | 전이된 searched agent 최고 성능 | 차이 |
|---|---|---|---|
| GSM8K | 43.6 | 69.5 | +25.9 |
| GSM-Hard | 18.0 | 31.2 | +13.2 |
| MMLU | 65.9 | 67.0 | +1.1 |
| DROP | 65.8 | 71.9 | +6.1 |
왜 이 결과가 인상적인가
보통 자동 탐색은 특정 태스크에 과적합되었다는 비판을 받기 쉽습니다.
그런데 이 논문은 수학에서 찾은 구조가 비수학 도메인에서도 baseline을 이기는 경우가 있다는 점을 보입니다.
즉, 저자들의 주장은 단순히 “태스크별로 맞춤형 설계가 가능하다”를 넘어서,
재사용 가능한 에이전트 설계 패턴 자체가 발견될 수 있다는 것입니다.
11. 모델 간 전이도 확인한다
ARC에서는 아예 다른 모델로도 전이합니다.
| 실행 모델 | 최고 hand-designed baseline | searched agent 최고 성능 | 차이 |
|---|---|---|---|
| GPT-3.5 | 8.0 | 13.7 | +5.7 |
| Claude-Haiku | 6.3 | 9.7 | +3.4 |
| GPT-4 | 23.0 | 37.0 | +14.0 |
| Claude-Sonnet | 39.3 | 48.3 | +9.0 |
여기서 중요한 포인트
- 검색된 구조가 특정 모델 하나에만 특화된 요령이 아니라는 점
- 더 강한 모델로 옮길수록 구조적 이점이 더 잘 살아날 수 있다는 점
- 특히 Claude-Sonnet에서 ARC 성능이 거의 50% 수준까지 올라간다는 점
즉, 이 논문은 “좋은 에이전트 구조는 모델을 가로질러도 유효할 수 있다”는 가능성을 보여줍니다.
12. Figure 4: ARC 태스크 예시를 보면 왜 이런 구조가 필요한지 보인다

그림 4. ARC 과제 예시. 예시 입력-출력 grid를 보고 변환 규칙을 추론한 뒤, test grid의 정답을 만들어야 합니다. (원문 Figure 4, Appendix D, p.26)
ARC는 단순 QA가 아니라, 예시를 보고 규칙을 유추하는 추상화 문제입니다.
이런 문제에서는 한 번의 CoT만으로는 부족할 수 있습니다.
그래서 논문에서 발견된 구조들처럼
- 여러 가설 생성
- 각 가설 검토
- 다양한 critic 도입
- refinement 반복
- 최종 ensemble
같은 패턴이 자연스럽게 강해집니다.
이 점은 블로그에서 강조하기 좋습니다.
어려운 문제일수록 “한 번 생각하고 끝내는 모델”보다, “여러 번 가설을 세우고 검토하는 구조”가 중요해진다.
13. 이 논문의 진짜 공헌은 “성능 숫자”만이 아니다
이 논문을 단순히 benchmark improvement로만 보면 반만 읽은 것입니다.
더 중요한 공헌은 아래 4가지입니다.
13.1 ADAS라는 연구 프레임을 제시
에이전트 설계를 체계적으로 자동화하는 문제를 명시적으로 제안했습니다.
13.2 코드 공간 탐색의 가능성을 설득력 있게 제시
프롬프트 최적화보다 훨씬 넓고 유연한 설계 공간을 다룹니다.
13.3 “발견된 구조” 자체가 읽을 만한 산출물
새로 나온 에이전트가 블랙박스가 아니라 코드로 해석 가능합니다.
13.4 전이 가능한 설계 패턴의 가능성 제시
특정 태스크의 요령이 아니라, 일반화 가능한 coordination pattern을 발견할 수 있다는 시사점을 줍니다.
14. 강점과 한계
강점
- 문제 설정이 크다: 프롬프트 튜닝을 넘어 에이전트 설계 전체를 자동화하려고 한다.
- 결과가 강하다: 특히 Reading/Math에서 개선 폭이 크다.
- 해석 가능하다: 찾은 구조를 사람이 읽고 이해할 수 있다.
- 전이가 된다: 태스크와 모델을 넘는 구조적 일반화 가능성을 보여준다.
한계
- 실험 비용이 높다
- ARC 1회 탐색/평가에 약 $500
- reasoning/problem-solving 도메인 1회 런에 약 $300
- 평가 함수가 아직 단순하다
- 지금은 주로 정답률 중심
- 비용, 지연, 안전성까지 함께 최적화하진 못했다
- 주요 실험이 단일 스텝 QA에 가깝다
- 실제 복잡한 환경 상호작용 태스크로 확장하려면 추가 검증 필요
- 생성 코드의 안전성 문제
- 저자들은 containerized execution과 수동 검토를 사용했지만,
- 장기적으로는 더 강한 안전 메커니즘이 필요하다
15. 부록에서 눈여겨볼 만한 흥미로운 포인트
부록의 Table 6은 꽤 재미있습니다.
- baseline seed 없이도 Meta Agent Search는 모든 도메인에서 hand-designed baseline을 이깁니다.
- 특히 Math에서는 empty initialization이 오히려 더 높게 나오는 결과도 보입니다.
저자들은 이를 초기 설계가 탐색 다양성을 제한했을 가능성으로 해석합니다.
이건 꽤 중요한 메시지입니다.
좋은 초기값은 탐색을 빠르게 만들 수 있지만, 때로는 너무 일찍 좋은 아이디어에 갇히게 만들 수도 있다.
16. 핵심 포인트 7가지
- 이 논문은 에이전트를 잘 쓰는 법이 아니라, 에이전트를 자동으로 설계하는 법을 다룬다.
- 프롬프트 최적화만으로는 부족하고, 구조 전체를 탐색해야 한다는 문제의식을 제시한다.
- 코드 공간 탐색은 프롬프트·역할·검증 루프·앙상블을 한꺼번에 바꿀 수 있다는 점에서 강력하다.
- Meta Agent Search는 archive를 발판으로 삼아 설계가 누적적으로 진화하는 구조를 가진다.
- 가장 큰 성능 향상은 Reading과 Math에서 나타난다.
- 찾아낸 구조는 다른 태스크와 다른 모델로도 꽤 잘 전이된다.
- 이 논문의 진짜 가치는 benchmark 수치뿐 아니라, “재사용 가능한 에이전트 설계 패턴”을 찾는다는 데 있다.
17. 결론
이 논문은 “AI가 문제를 푼다”는 단계에서 한 걸음 더 나아가, “AI가 문제를 푸는 AI의 구조를 설계한다”는 방향을 제시한다. 그리고 그 결과는 단순한 아이디어 차원을 넘어, 여러 벤치마크에서 hand-designed baseline을 이기고 다른 모델·도메인으로도 전이되는 형태로 나타난다. 물론 비용과 안전성, 평가 함수의 한계는 분명하다. 그럼에도 불구하고 이 논문은 앞으로의 에이전트 연구가 단순한 프롬프트 개선을 넘어, 자동 설계와 구조적 탐색으로 이동할 가능성을 매우 강하게 보여준다.
18. 아주 짧게 끝내는 5문장 요약
- 이 논문은 ADAS라는 이름으로 에이전트 설계 자동화 문제를 제안한다.
- 핵심 아이디어는 메타 에이전트가 에이전트를 코드로 생성·평가·개선하는 것이다.
- 이 방식은 프롬프트뿐 아니라 워크플로와 검증 구조 전체를 탐색할 수 있다.
- 실험에서 Reading, Math, ARC 등 여러 벤치마크에서 hand-designed baseline보다 강한 성능을 보였다.
- 특히 발견된 구조가 다른 도메인과 다른 모델에도 전이된다는 점이 인상적이다.
21. 참고 메모
- Figure 1: p.2
- Figure 2: p.3
- Figure 3: p.5
- Figure 4: Appendix D, p.26
- 주요 성능표: Table 1 (p.7), Table 2-3 (p.8-9)
- 실험 비용: Appendix J, p.34
Hu, Lu, Clune. Automated Design of Agentic Systems. ICLR 2025.
'AI 생성 글 정리 > agent' 카테고리의 다른 글
| STELLA 논문 정리: 생의학 연구를 위한 자기진화형 LLM 에이전트 (0) | 2026.03.31 |
|---|---|
| Cognitive Architectures for Language Agents (CoALA) 핵심 정리 (0) | 2026.03.31 |
| MetaAgent 논문 정리 (1) | 2026.03.31 |
| 《Towards a Science of Scaling Agent Systems》 핵심만 남긴 정리 (0) | 2026.03.31 |
| 상세 리뷰 | Towards end-to-end automation of AI research (0) | 2026.03.26 |