한 줄 요약
HyperAgents는 문제를 푸는 에이전트와 그 에이전트를 고치는 에이전트를 하나의 수정 가능한 프로그램으로 묶는다. 그래서 시스템은 정답만 더 잘 찾는 것이 아니라, 다음 개선을 만들어내는 방식까지 바꿀 수 있다.
왜 이 논문이 중요한가
기존 자기개선 시스템의 병목은 대개 개선 규칙이 사람 손으로 고정돼 있다는 점이다.
코딩에서는 이 한계가 덜 드러난다. 코드를 잘 다루는 능력 자체가 자기 수정을 돕기 때문이다. 하지만 논문 심사, 수학 채점, 로봇 보상 설계처럼 작업 내용과 자기수정 능력이 다른 영역에서는 그 가정이 쉽게 무너진다.
이 논문은 바로 그 지점을 겨냥한다. 목표는 단순한 자동화가 아니다. 문제 해결 능력과 자기개선 능력이 함께 자랄 수 있는 구조를 만드는 것이다.
핵심 아이디어
- Task agent: 실제 문제를 푸는 부분
- Meta agent: 에이전트를 바꾸고 새 버전을 만드는 부분
- Hyperagent: 두 부분을 하나의 수정 가능한 코드베이스로 합친 것
여기서 중요한 점은 meta agent도 수정 대상이라는 것이다. 저자들은 이 과정을 metacognitive self-modification이라고 부른다. 쉽게 말해, 문제 풀이뿐 아니라 공부법도 같이 바꾸는 구조다.

주목할 지점: 위 구조는 고정된 개선 규칙에 묶여 있지만, 아래 구조는 개선 절차 자체를 다시 쓸 수 있어 비코딩 영역에서도 자기개선이 가능해진다.
DGM-H는 어떻게 움직이나
DGM-H는 Darwin Gödel Machine 위에 구축된다. 작동 흐름은 단순하다.
- 아카이브에서 괜찮은 부모 에이전트를 고른다.
- 부모가 자기 자신을 수정해 자식 에이전트를 만든다.
- 자식을 실제 과제로 평가한다.
- 살아남은 자식을 다시 아카이브에 넣는다.
핵심은 최고점 하나만 남기지 않는다는 점이다. 중간 단계들을 계속 보존하고, 나중에 더 좋은 버전이 그 발판을 밟고 올라가게 만든다. 논문은 이 중간 단계들을 stepping stone으로 본다.
또 하나의 요점은 부모 선택 규칙이다. 수식 대신 말로 풀면, 성능이 좋지만 아직 후손을 많이 만들지 않은 에이전트를 상대적으로 더 자주 뽑는 방식이다. 잘하는 개체를 활용하되, 탐색 공간이 너무 빨리 굳어지지 않게 만든다.
실험에서 무엇이 좋아졌나
코딩에서도 성능은 올랐다. Polyglot 기준으로 전체 벤치마크 성능은 0.084에서 0.267까지 올라갔고, 코딩 전용으로 설계된 기존 DGM과도 비슷한 수준까지 따라갔다.
진짜 차이는 비코딩 영역에서 보인다.
- 논문 심사: 테스트 성능 0.0 → 0.710
- 로봇 보상 설계: 0.060 → 0.372
- 자기개선이 없는 버전이나, 아카이브를 없앤 버전은 거의 개선되지 않았다
- 원래 DGM은 비코딩 영역에서 거의 작동하지 않았고, 사람이 직접 커스터마이징한 DGM-custom이 있어야 경쟁력이 생겼다
- DGM-H는 수작업으로 맞춘 DGM-custom보다 중앙값 기준으로 더 높게 나왔지만, 그 차이가 통계적으로 확정적이라고 보긴 어려웠다

주목할 지점: 파란 막대와 선이 꾸준히 앞서는 이유는 작업 수행과 개선 방식을 함께 바꾸기 때문이며, 둘 중 하나라도 빠지면 상승 폭이 급격히 줄어든다.
어떻게 좋아졌나: 프롬프트 문구보다 절차를 바꿨다
논문이 특히 설득력 있는 부분은, 성능 상승이 단순한 말투 조정이 아니라 내부 절차의 구조화로 이어졌다는 점이다.
논문 심사에서는 초기에 “더 엄격하게 심사하라” 같은 태도 지시가 들어갔다. 하지만 이런 방식은 일관성이 낮았다. 이후 에이전트는 약점 체크리스트를 먼저 만들고, 그 다음 accept/reject를 결정하는 2단계 절차를 스스로 도입했다. 즉, 성격을 바꾸는 대신 판단 파이프라인을 바꿨다.

주목할 지점: 최종 성능으로 가는 경로가 한 번에 직선으로 오르지 않고, 메모리 추가와 평가 기준 정교화 같은 중간 발판을 거쳐 누적적으로 올라간다.
로봇 보상 설계에서도 비슷하다. 초반에는 존재하지 않는 환경 변수를 참조해 코드가 자주 깨졌다. 이후 에이전트는 사용할 수 있는 상태 변수, 제약 조건, 보상 스케일 범위를 문서처럼 내부에 축적했다. 그 결과 “그냥 서 있기” 같은 쉬운 해법을 넘어서, 실제로 점프를 유도하는 보상 설계까지 만들어냈다.

주목할 지점: 왼쪽은 목표를 문자 그대로 따라가며 서 있는 상태에 머물지만, 오른쪽은 중간 동작을 설계해 더 높은 목표를 달성하는 보상이 필요하다는 점을 보여준다.
더 중요한 주장: 개선 능력도 전이된다
이 논문이 단순한 멀티태스크 최적화와 다른 이유는, 한 도메인에서 배운 자기개선 방법이 다른 도메인으로 옮겨간다는 점이다.
저자들은 paper review와 robotics에서 얻은 에이전트를 Olympiad 수학 채점으로 옮겨 실험했다. 여기서 핵심 평가지표는 “고정된 시작 에이전트에게 50번의 개선 기회를 줬을 때, 최고의 후손이 얼마나 나아졌는가”이다. 수식으로 쓰면 복잡하지만 뜻은 단순하다. 짧은 예산 안에서 얼마나 잘 후속 버전을 만들어내는지를 보는 지표다.
결과는 선명하다.
- 초기 메타 에이전트는 거의 아무 개선도 만들지 못했다
- DGM 기반 전이 에이전트도 새 도메인에서는 거의 못 올렸다
- 반면 DGM-H에서 온 전이 hyperagent는 Olympiad 채점에서 큰 폭의 개선을 만들었다
- imp@50은 사실상 0에 가깝던 수준에서 0.630까지 올라갔다

주목할 지점: 오른쪽 초록 막대만 크게 솟는 것은 작업 지식이 아니라 더 나은 버전을 만드는 법이 새 도메인으로 옮겨갔다는 신호다.
그 개선은 누적될까
저자들은 여기서 한 걸음 더 나간다. 이미 다른 도메인에서 단련된 hyperagent를 들고 와서, Olympiad 채점을 계속 개선하게 했다.
결과는 두 단계로 읽으면 된다.
- 처음부터 시작한 DGM-H보다 transfer로 시작한 DGM-H가 더 빨리 올라간다
- 강한 기존 채점기인 ProofAutoGrader 위에 transfer 메타 에이전트를 얹으면 가장 높은 성능이 나온다
테스트 기준 최고 성능은 0.700까지 갔다. 또 전체 IMO-GradingBench에서는 정확도가 0.561에서 0.601로 올라가고, 평균 절대 오차도 0.178에서 0.175로 낮아졌다. 상승 폭이 폭발적이라고 보긴 어렵지만, 이미 강한 출발점 위에서 추가 개선이 나온다는 점이 중요하다.

주목할 지점: 오른쪽에서 가장 높은 막대는 좋은 초기 해답과 전이된 개선 전략이 결합될 때 성능이 가장 높아진다는 점을 보여준다.
왜 수학 채점 사례가 의미 있나
마지막 사례는 이 논문의 장점을 잘 압축한다. 더 나은 grader는 정답/오답 양극단으로만 몰아가지 않고, 거의 맞음과 부분 점수 구간을 더 정확히 구분했다. 즉, 단순히 더 엄격해진 것이 아니라 더 세밀하게 채점하게 된 것이다.

주목할 지점: 오른쪽 행렬은 중간 난도의 답안을 극단 레이블로 덜 몰아넣어, 사람 채점에 더 가까운 세분화된 판단을 만들어낸다.
논문이 보여준 메타 수준의 변화
저자들이 로그와 코드 변경을 따라가며 본 변화는 꽤 인상적이다.
- 성능 추적기: 어떤 세대가 실제로 나아졌는지 기록
- 지속 메모리: 이전 성공과 실패를 요약해 다음 수정에 재사용
- 편향 감지: accept 쏠림 같은 붕괴를 탐지하고 교정
- 계산 예산 인식: 남은 반복 횟수에 따라 큰 구조 변경과 미세 조정을 구분
- 프롬프트 템플릿화: 한 번 잘된 패턴을 재사용 가능한 형태로 정리
중요한 점은 이런 장치들이 처음부터 명시적으로 주어진 기능이 아니라는 것이다. 더 높은 과제 성능을 추구하는 과정에서, 미래 개선을 돕는 인프라까지 같이 생겨났다.
한계도 분명하다
이 논문이 곧바로 “무한 자기개선”을 입증한 것은 아니다.
- 메인 실험에서는 바깥 루프의 일부, 특히 부모 선택과 평가 절차가 여전히 고정돼 있다
- 과제 분포가 고정돼 있어 스스로 새로운 커리큘럼을 만들지는 못한다
- 성능 향상이 진짜 목표 달성인지, 평가 신호를 잘 공략한 결과인지는 계속 검증이 필요하다
- 모든 실험은 샌드박스, 제한된 자원, 인간 감독 아래에서 진행됐다
즉, 논문이 보여준 것은 완성된 자율 초지능이 아니라, 개선 절차까지 수정 가능한 에이전트가 실제로 작동하기 시작했다는 증거에 가깝다.
총평
HyperAgents의 핵심 메시지는 단순하다. 더 나은 답을 찾는 시스템보다 더 중요한 것은, 더 나은 답을 찾는 방식을 계속 다시 설계할 수 있는 시스템이라는 것이다.
이 논문은 그 가능성을 코딩 밖으로 넓혔다. 그리고 자기개선의 초점이 문제를 푸는 능력에서 다음 개선을 만드는 능력으로 이동할 때, 비로소 열린 형태의 누적 발전이 보이기 시작한다.
Source
- Jenny Zhang, Bingchen Zhao, Wannan Yang, Jakob Foerster, Jeff Clune, Minqi Jiang, Sam Devlin, Tatiana Shavrina, HyperAgents, arXiv:2603.19461v1, 2026.
- Paper: https://arxiv.org/abs/2603.19461
- Code: https://github.com/facebookresearch/Hyperagents
'AI 생성 글 정리 > agent' 카테고리의 다른 글
| Neural Computers 논문 정리 (0) | 2026.04.14 |
|---|---|
| BIDIRLM: 논문 정리 (0) | 2026.04.14 |
| Scaling Vision with Sparse Mixture of Experts 논문 정리 (0) | 2026.04.14 |
| [LightRAG: Simple and Fast Retrieval-Augmented Generation] 논문 정리 (0) | 2026.04.14 |
| The Code Agent Orchestra - what makes multi-agent coding work 논문 정리 (1) | 2026.04.14 |