본문 바로가기
AI 생성 글 정리/agent

VOYAGER 논문 핵심 정리

by Honbul 2026. 4. 1.

부제: "VOYAGER: An Open-Ended Embodied Agent with Large Language Models"

용도: 블로그 초안/정리용 문서

원문 기준: 업로드된 PDF(2023 arXiv v2)

1. 이 논문을 한 문장으로

VOYAGER는 Minecraft 안에서 스스로 다음 목표를 고르고, GPT-4로 행동 코드를 만들고, 성공한 코드를 스킬로 저장해 다음 문제를 더 잘 푸는 LLM 기반 평생학습 에이전트다.

핵심은 “더 똑똑한 한 번의 추론”이 아니라, 과제 생성 → 코드 생성 → 실행 피드백 → 자기 검증 → 스킬 축적의 루프를 시스템으로 만들었다는 점이다.

2. 3줄 요약

  • 기존 LLM 에이전트는 단발성 문제 해결에는 강하지만, 오픈월드에서 장기적으로 기술을 쌓아 가는 “lifelong learning”에는 약했다.
  • VOYAGER는 automatic curriculum, skill library, iterative prompting/self-verification을 결합해 이 문제를 풀었다.
  • 그 결과 160회 prompting 기준 63개의 unique item을 모으고, baselines보다 3.3배 더 많은 아이템을 발견했으며, 이동 거리도 2.3배 길었다.

3. 왜 이 논문이 중요한가

  • Minecraft는 고정된 정답 경로가 없는 오픈월드다. “무엇을 해야 하는가” 자체가 문제다.
  • 단순한 저수준 행동(걷기, 캐기, 공격하기)만으로는 긴 작업을 안정적으로 수행하기 어렵다.
  • VOYAGER는 low-level control 대신 executable code를 action space로 사용해, 재사용 가능하고 조합 가능한 스킬을 만든다.
  • 중요한 점은 파라미터 업데이트 없이도 성장한다는 것이다. 이 논문에서 “학습”은 모델 weight를 바꾸는 것이 아니라, 스킬 라이브러리를 확장하는 방식으로 구현된다.

4. 핵심 아이디어

4.1 전체 구조: 세 개의 축으로 계속 성장한다


Figure 2. 시스템 개요 (원 논문 Fig. 2, p.2에서 crop)

  • Automatic Curriculum: 현재 상태와 탐험 진행도를 보고 다음 과제를 스스로 정한다.
  • Skill Library: 성공한 코드를 스킬로 저장하고, 다음 과제에서 다시 불러온다.
  • Iterative Prompting + Self-Verification: 실행 중 나온 환경 피드백과 오류를 반영해 코드를 고치고, 마지막에는 과제 성공 여부를 다시 판단한다.

이 구조 덕분에 VOYAGER는 “새로운 과제를 계속 찾는 능력”, “성공한 행동을 기억하는 능력”, “실패를 디버깅하는 능력”을 동시에 갖게 된다.

4.2 Automatic Curriculum: 다음 목표를 스스로 제안한다


Figure 3. 자동 커리큘럼 예시 (원 논문 Fig. 3, p.3에서 crop)

VOYAGER는 “가능한 한 다양한 것을 발견하라”는 상위 목표 아래, 현재 인벤토리·장비·주변 환경·시간대·체력·배고픔·기존 성공/실패 과제를 보고 다음 과제를 정한다.

  • 지금 돌과 나무가 있으면 “stone pickaxe 만들기” 같은 다음 단계 과제를 낸다.
  • 강 옆에 낚싯대가 있으면 “fish 잡기”처럼 문맥에 맞는 과제를 낸다.
  • 밤이고 좀비가 근처에 있으면 전투 과제를 제안한다.

포인트: 오픈월드에서는 “행동을 잘하는 것”만큼 “지금 뭘 해야 하는지 정하는 것”이 중요하다.

4.3 Skill Library: 성공한 코드를 기술 자산으로 축적한다


Figure 4. 스킬 라이브러리 (원 논문 Fig. 4, p.4에서 crop)

VOYAGER는 성공적으로 수행한 행동 코드를 스킬로 저장한다. 저장할 때는 코드 자체뿐 아니라 설명(description)의 임베딩을 key처럼 사용해, 비슷한 과제가 들어오면 관련 스킬을 retrieval한다.

  • 예: “iron pickaxe 만들기” 과제가 들어오면, stick 만들기·furnace 설치·iron smelting 같은 관련 스킬을 함께 불러온다.
  • 새 과제는 처음부터 전부 새로 쓰지 않고, 예전 스킬을 조합해서 해결한다.
  • 그래서 후반으로 갈수록 성능이 더 잘 누적되고, “매번 처음부터 다시 생각하는 비용”이 줄어든다.

이 논문의 중요한 시사점은 memory를 텍스트 회상이나 hidden state가 아니라 “실행 가능한 코드 자산”으로 둔다는 점이다.

4.4 Iterative Prompting: 실패를 보고 코드를 계속 고친다


Figure 5. 환경 피드백과 실행 오류 (원 논문 Fig. 5, p.5에서 crop)

LLM이 한 번에 정답 코드를 내놓는다고 가정하지 않는다. 대신 VOYAGER는 실행 결과를 다시 프롬프트에 넣어 다음 라운드 코드를 수정한다.

  • Environment feedback: “stick을 만들려면 plank가 더 필요하다”처럼 중간 실패 원인을 읽는다.
  • Execution error: 존재하지 않는 아이템이나 함수 호출 같은 코드 오류를 잡는다.
  • 한 과제당 최대 4번까지 코드를 고쳐 보고, 계속 막히면 다른 과제로 넘어간다.

4.5 Self-Verification: 성공 여부를 따로 판단한다


Figure 6. 자기 검증 예시 (원 논문 Fig. 6, p.6에서 crop)

VOYAGER는 “코드를 실행했다”와 “과제를 성공했다”를 같은 것으로 보지 않는다. 별도의 critic 역할 GPT-4가 현재 상태와 과제를 보고 성공/실패를 판단하고, 실패 시에는 critique도 준다.

  • 예: spyglass 제작 과제에서는 copper ingot은 충분하지만 amethyst shard가 없으므로 실패로 판정한다.
  • 예: sheep 3마리 처치 과제에서는 inventory에 양털 2개만 있으면 아직 2마리라고 보고 실패로 판정한다.
  • 이 모듈은 단순 reflection보다 강하다. 왜냐하면 “성공 체크”와 “수정 지시”를 동시에 수행하기 때문이다.

5. 실험 결과: 무엇이 실제로 좋아졌나

5.1 가장 큰 메시지: 새로운 것을 더 오래, 더 넓게, 더 잘 배운다


Figure 1. 탐색 성능 (원 논문 Fig. 1, p.1에서 crop)

  • 160 prompting iterations 기준으로 VOYAGER는 63개의 unique item을 발견했다.
  • 이는 baselines 대비 3.3배 많은 수치다.
  • VOYAGER w/o Skill Library도 초반에는 따라오지만, 후반부로 갈수록 증가세가 둔화된다.

즉, VOYAGER의 성능은 단순히 “한 번 잘 푼다”가 아니라, 시간이 지날수록 더 큰 폭으로 벌어진다.

5.2 숫자만 빠르게 보기

항목 VOYAGER 핵심 결과 해석
Exploration 63 unique items @ 160 iterations baselines 대비 3.3× 더 많은 아이템 발견
Tech Tree wooden 6±2, stone 11±2, iron 21±7, diamond 102(1/3) wooden 15.3×, stone 8.5×, iron 6.4× faster; diamond 단계는 유일하게 도달
Map Coverage baseline 대비 2.3× 더 긴 이동 더 다양한 지형을 가로지르며 탐험
Zero-shot Tasks Diamond Pickaxe / Golden Sword / Lava Bucket / Compass 모두 3/3 성공 새 월드에서도 skill library가 강하게 작동

Tech tree와 zero-shot 결과는 본문 Table 1, Table 2에 정리되어 있다(p.7–8).

5.3 맵 커버리지: 진짜로 더 멀리 간다


Figure 7. 맵 커버리지 (원 논문 Fig. 7, p.7에서 crop)

VOYAGER는 baselines보다 2.3배 더 긴 거리를 이동했다. 이 결과는 단순 이동 거리 이상의 의미가 있다. 더 많은 biome을 방문해야 새로운 자원·몹·제작 경로가 열린다.

포인트: 오픈월드 에이전트의 성능은 “현재 위치에서 잘 푸는가”보다 “얼마나 새로운 상태공간을 열 수 있는가”로 봐야 한다.

5.4 제로샷 일반화: 새 월드에서도 스킬이 살아남는다


Figure 8. 제로샷 일반화 (원 논문 Fig. 8, p.8에서 crop)

저자들은 inventory를 비우고, 새로 생성한 Minecraft world에서 unseen task를 풀게 했다. 그 결과 VOYAGER는 Diamond Pickaxe, Golden Sword, Lava Bucket, Compass를 모두 3/3 성공했다.

과제 VOYAGER 비교 포인트
Diamond Pickaxe 19±3 (3/3) VOYAGER w/o Skill Library는 36 (2/3), 다른 baselines는 0/3
Golden Sword 18±7 (3/3) AutoGPT + Our Skill Library는 30 (1/3)
Lava Bucket 21±5 (3/3) 다른 baselines는 0/3
Compass 18±2 (3/3) AutoGPT + Our Skill Library는 30 (2/3)

흥미로운 점은 skill library를 AutoGPT에 붙였을 때도 성능이 일부 개선된다는 것이다. 즉, 이 라이브러리는 VOYAGER 내부 트릭이 아니라 비교적 plug-and-play에 가까운 자산처럼 작동한다.

5.5 제거 실험: 무엇이 정말 중요했는가


Figure 9. 제거 실험 (원 논문 Fig. 9, p.9에서 crop)

  • Automatic curriculum을 random curriculum으로 바꾸면 discovered item count가 93% 감소했다.
  • Self-verification을 제거하면 discovered item count가 73% 감소했다.
  • GPT-4를 GPT-3.5로 대체하면 unique item 수가 크게 줄었고, 논문은 GPT-4가 GPT-3.5보다 5.7× 더 많은 unique item을 얻었다고 보고한다.
  • Skill library를 제거한 버전은 특히 후반부에서 plateau가 뚜렷하다.

이 실험은 “VOYAGER의 성능이 단지 GPT-4가 좋아서 나온 것인가?”라는 질문에 부분적으로 답한다. 모델 자체도 중요하지만, curriculum·memory·verification 설계가 동시에 있어야 결과가 나온다.

6. 확장 가능성: 사람 피드백이 들어오면 3D 빌드까지 간다


Figure 10. 인간 피드백 확장 (원 논문 Fig. 10, p.9에서 crop)

논문 시점의 GPT-4 API는 텍스트 입력만 지원했기 때문에, VOYAGER 자체는 시각을 직접 보지 못한다. 대신 저자들은 human feedback을 critic 또는 curriculum처럼 넣어 3D 구조물을 짓는 예시를 보여준다.

  • Human as critic: 결과물을 보고 “어디를 고쳐야 하는지” 피드백한다.
  • Human as curriculum: 큰 빌드 과제를 더 작은 단계로 나눠 준다.

이 부분은 “VOYAGER가 이미 멀티모달 에이전트다”라는 뜻은 아니고, 텍스트 기반 구조 위에 시각 피드백이 얹히면 더 강력해질 수 있다는 가능성을 보여준다.

7. 이 논문을 읽을 때 꼭 잡아야 할 포인트

  • 이 논문의 학습은 gradient update가 아니라 skill accumulation이다.
  • 오픈월드에서는 action policy만큼 task proposal이 중요하다.
  • 메모리는 “경험 요약”보다 “재실행 가능한 코드”일 때 더 강력할 수 있다.
  • self-verification은 단순 reflection보다 실전적이다. 성공 여부를 명시적으로 체크해 다음 행동을 결정할 수 있기 때문이다.
  • VOYAGER의 성과는 단일 프롬프트의 마법이 아니라 시스템 설계의 결과다.

8. 한계와 해석상 주의

  • 이 에이전트는 raw pixel을 직접 입력받는 방식이 아니다. Mineflayer의 고수준 API와 구조화된 상태 정보를 사용한다.
  • 따라서 3D perception이나 저수준 motor control 문제를 풀었다고 보기는 어렵다.
  • 비용이 크다. 논문은 GPT-4 API가 GPT-3.5보다 15배 비싸다고 적는다.
  • hallucination 문제가 있다. 존재하지 않는 아이템(copper sword 등)을 제안하기도 하고, 잘못된 레시피나 잘못된 API 호출을 만들기도 한다.
  • 시각 입력이 없어서 공간적 배치가 중요한 작업은 제한적이다.

즉, 이 논문은 “Minecraft를 완전히 해결했다”기보다, LLM을 중심으로 lifelong embodied agent를 설계하는 좋은 시스템 청사진을 제시했다고 보는 편이 정확하다.

9. 핵심 문장

  • VOYAGER의 진짜 공헌은 GPT-4 자체보다, 목표 생성-코드 생성-검증-기억을 하나의 루프로 묶은 시스템 설계에 있다.
  • 이 논문은 “LLM agent의 학습”을 파라미터 업데이트가 아니라 스킬 라이브러리 축적으로 재해석했다.
  • 오픈월드 에이전트는 정답 행동만 잘 찾는 것이 아니라, 지금 무엇을 해야 하는지 스스로 정할 수 있어야 한다.
  • Skill library가 붙는 순간 에이전트는 매번 처음부터 문제를 푸는 존재가 아니라, 이전 기술을 조합해 더 큰 문제를 푸는 존재가 된다.
  • VOYAGER는 ReAct류 에이전트를 게임 안으로 옮긴 것이 아니라, open-ended exploration에 맞는 memory와 curriculum을 추가한 버전이라고 보는 편이 맞다.

10. 마무리

VOYAGER는 “LLM이 게임을 잘한다”는 데서 멈추지 않고, “LLM이 어떻게 스스로 과제를 만들고, 실패를 고치고, 성공한 기술을 다음 문제로 가져가는가”를 설계 차원에서 보여준 논문이다. 그래서 이 논문을 읽을 때는 개별 성능 수치만보다도, automatic curriculum + skill library + self-verification이라는 구조를 하나의 학습 루프로 보는 것이 가장 중요하다.

짧게 말하면, VOYAGER의 핵심은 더 좋은 한 번의 답이 아니라 더 강한 반복 구조다.

참고 수치/출처 메모

  • Abstract: 3.3× more unique items, 2.3× longer distances, tech tree milestones up to 15.3× faster (p.1).
  • Method: automatic curriculum, skill library, iterative prompting/self-verification (p.2–6).
  • Results: Table 1, Fig. 7, Table 2, Fig. 8, Fig. 9, Fig. 10 (p.7–9).
  • Limitations: cost, inaccuracies, hallucinations, no visual perception (p.10).
  • Appendix highlight: skill retrieval top-5 accuracy 96.5±0.3 (p.42).