본문 바로가기
AI 생성 글 정리/agent

Cognitive Architectures for Language Agents (CoALA) 핵심 정리

by Honbul 2026. 3. 31.

한 줄 요약
이 논문은 LLM 에이전트를 단순한 “프롬프트 실행기”가 아니라, 메모리(memory), 행동 공간(action space), 의사결정(decision-making) 을 가진 인지적 시스템으로 바라보는 설계 청사진을 제안한다.

참고
아래 이미지는 원문 PDF의 figure body만 보이도록 별도 crop했다. 원문 캡션은 그대로 넣지 않고, 블로그용 설명으로 다시 정리했다.


이 글의 핵심 5줄

  1. 이 논문의 본질은 새 모델 제안보다 에이전트 설계를 위한 공통 언어 제안에 가깝다.
  2. 저자들은 CoALA를 통해 에이전트를 메모리, 행동, 의사결정 루프의 3축으로 정리한다.
  3. 특히 행동을 외부 행동(grounding)내부 행동(retrieval, reasoning, learning) 으로 나눈 점이 핵심이다.
  4. 그래서 RAG, ReAct, Voyager, Generative Agents, Tree of Thoughts 같은 방법들을 한 프레임에서 비교할 수 있다.
  5. 실무적으로는 “프롬프트를 어떻게 짤까?”보다 무엇을 기억하고, 어떤 행동을 허용하고, 어떤 절차로 선택하게 할까? 로 관점을 옮기게 만든다.

왜 이 논문이 중요한가

LLM 에이전트 분야는 빠르게 발전했지만, 각 연구가 서로 다른 용어를 사용해 왔다. 어떤 논문은 tool use를 강조하고, 어떤 논문은 memory를 강조하며, 또 어떤 논문은 planning이나 reflection을 전면에 내세운다. 이 논문은 그런 조각난 설명을 하나의 구조로 묶는다.

즉, CoALA의 가치는 “이 기법이 더 좋다”를 주장하는 데 있지 않다.
오히려 에이전트를 설계할 때 무엇을 기준으로 봐야 하는가를 정리해 준다.


논문이 던지는 핵심 질문

저자들의 문제의식은 명확하다.

  • LLM은 이미 reasoning, planning, tool use, memory 관리까지 일부 수행한다.
  • 하지만 이를 설명하는 공통 프레임이 부족하다.
  • 그래서 기존 방법을 비교하기도 어렵고, 다음 세대 에이전트를 설계하기도 어렵다.

이 논문은 그 공백을 Cognitive Architectures for Language Agents, CoALA 라는 개념으로 메운다.


Figure 1 — LLM에서 Cognitive Language Agent로

 

원문 Figure 1 (p.2). 일반적인 LLM, 환경과 직접 상호작용하는 language agent, 내부 메모리와 reasoning까지 포함한 cognitive language agent를 단계적으로 보여준다.

이 그림은 논문의 출발점을 가장 직관적으로 보여준다.

  • A: 전통적인 LLM은 텍스트를 입력받아 텍스트를 출력한다.
  • B: language agent는 환경의 관측을 텍스트로 바꾸고, LLM이 행동을 고르도록 한다.
  • C: cognitive language agent는 여기서 더 나아가, 메모리 관리, retrieval, learning, reasoning 을 통해 내부 상태까지 다룬다.

블로그 관점에서 이 그림의 메시지는 단순하다.
에이전트는 LLM 하나가 아니라, LLM을 중심으로 조직된 시스템이라는 점이다.


역사적 배경 — 왜 “인지 아키텍처”인가

이 논문이 흥미로운 이유는 최신 LLM 에이전트를 설명하기 위해, 오래된 AI 개념인 production systemcognitive architecture를 다시 꺼내온다는 점이다.

저자들은 대략 이렇게 연결한다.

  • 고전 AI의 production system은 “조건이 맞으면 어떤 조작을 한다”는 규칙 기반 시스템이었다.
  • Soar 같은 cognitive architecture는 여기에 working memory, semantic memory, episodic memory, decision loop를 붙였다.
  • 오늘날 LLM은 명시적 규칙 대신, 텍스트 변환의 확률분포를 학습한 거대한 암묵적 시스템처럼 볼 수 있다.
  • 따라서 옛 cognitive architecture의 통찰을 LLM 에이전트 설계에 가져올 수 있다는 것이다.

이 부분은 논문의 철학적 배경이다.
즉, CoALA는 갑자기 튀어나온 프레임이 아니라, 고전 AI의 구조를 LLM 시대에 다시 번역한 개념이다.


Figure 2 — Soar: CoALA의 역사적 선행 모델

 

원문 Figure 2 (p.4). Soar 아키텍처는 장기기억과 작업기억, 그리고 proposal/evaluation/action-selection/application으로 이어지는 결정 절차를 갖는다.

이 그림은 “왜 CoALA가 memory와 decision loop를 중요하게 보나?”에 대한 배경 설명이다.

핵심은 두 가지다.

첫째, 에이전트는 현재 상태를 담는 작업기억(working memory)
장기적으로 축적되는 절차적/의미적/일화적 기억(long-term memory) 이 필요하다는 점이다.

둘째, 행동은 한 번에 튀어나오지 않는다.
보통은 후보를 만들고(proposal), 평가하고(evaluation), 선택하고(selection), 실행(application) 하는 절차를 거친다.

CoALA는 이 고전 구조를 현대 LLM 에이전트에 맞게 다시 조직한다.


Figure 3 — 단일 LLM 호출에서 에이전트로 넘어가는 과정

 

원문 Figure 3 (p.7). 단일 LLM 호출, 프롬프트 체인, 그리고 환경과 상호작용하는 language agent를 하나의 스펙트럼으로 정리한다.

이 그림이 특히 좋은 이유는, 우리가 흔히 섞어 쓰는 개념들을 정리해 주기 때문이다.

A. 기본 LLM 호출

하나의 prompt를 만들고, LLM을 호출하고, 결과를 파싱해 실행한다.

B. Prompt chaining

Self-Critique, Selection-Inference처럼 미리 정해진 다단계 호출 체인이 있다.
이 경우 여전히 절차는 고정되어 있다.

C. Interactive agent

ReAct나 Inner Monologue처럼, 환경의 피드백을 받으면서 루프를 돈다.
즉, 사전에 고정된 체인이라기보다 관측-추론-행동의 반복 구조를 가진다.

이 차이를 블로그에서 한 문장으로 요약하면 이렇다.

체인이 “정해진 순서”라면, 에이전트는 “환경 피드백에 따라 다음 단계를 바꾸는 루프”다.


CoALA의 핵심 구조

논문에서 가장 중요한 부분은 결국 여기다.
CoALA는 에이전트를 세 가지 축으로 본다.

1) Memory

에이전트는 무엇을 기억하는가?

2) Action Space

에이전트는 어떤 행동을 할 수 있는가?

3) Decision-Making

에이전트는 그 행동들 중 무엇을 어떤 절차로 선택하는가?

이 3축이 있어야, 단순한 응답 생성 시스템과 실제 에이전트를 구분할 수 있다.


Figure 4 — CoALA 전체 청사진

 

원문 Figure 4 (p.8). CoALA의 핵심 구성요소와 decision cycle을 한 번에 보여주는 대표 그림이다.

이 그림은 사실상 논문의 요약본이다.

왼쪽(A)은 구조를 보여준다.

  • Procedural Memory: LLM 자체와 agent code
  • Semantic Memory: 세계에 대한 지식
  • Episodic Memory: 경험 기록
  • Working Memory: 현재 의사결정에 필요한 활성 상태
  • Decision Procedure: 어떤 행동을 할지 선택하는 상위 루프

오른쪽(B)은 시간적 흐름을 보여준다.

  1. observation을 받는다.
  2. planning 단계에서 후보를 만든다.
  3. 평가한다.
  4. 선택한다.
  5. 실행한다.
  6. 다시 observation을 받는다.

즉, CoALA는 에이전트를 한 번의 답변 생성이 아니라 반복적 decision cycle을 수행하는 프로그램으로 본다.


CoALA의 메모리 구조

이 논문에서 memory는 단순히 “대화 히스토리”가 아니다.
저자들은 메모리를 더 분명하게 나눈다.

Working Memory

현재 decision cycle에 바로 쓰이는 정보다.
관측, 현재 목표, 방금 추론한 내용, 방금 검색한 결과가 여기에 들어간다.

실무적으로는 prompt에 넣는 활성 컨텍스트를 생각하면 된다.
다만 CoALA는 working memory를 LLM context 자체보다 더 일반적인 데이터 구조로 본다.

Episodic Memory

과거 경험의 기록이다.
실패한 시도, 이전 trajectory, 상호작용 로그, 에피소드 요약 같은 것들이 여기에 들어간다.

Semantic Memory

세계에 대한 사실 지식이다.
문서 저장소, 위키, 지식베이스, 도메인 지식 등이 여기에 해당한다.
RAG는 넓게 보면 semantic memory retrieval의 한 형태다.

Procedural Memory

행동하는 방법 자체에 대한 기억이다.

  • LLM의 weights에 들어 있는 암묵적 절차 지식
  • agent code, tool wrapper, parser, planner 같은 명시적 코드

즉, CoALA는 절차적 기억까지 메모리로 본다.
이 지점이 기존 “RAG + Tool” 식 설명보다 한 단계 더 깊다.


Figure 5 — Action Space를 내부/외부로 나누는 관점

 

원문 Figure 5 (p.9). 행동 공간을 internal과 external로 나누고, reasoning과 retrieval이 planning을 지원하는 구조를 압축적으로 보여준다.

이 그림은 CoALA의 가장 실용적인 아이디어를 담고 있다.

저자들은 행동을 두 종류로 나눈다.

External Action: Grounding

바깥세계에 실제로 영향을 주는 행동이다.

  • API 호출
  • 웹 탐색
  • 로봇 제어
  • 사용자와의 대화
  • 코드 실행

Internal Action

에이전트 내부 상태를 바꾸는 행동이다.

  • Retrieval: 장기기억에서 꺼내오기
  • Reasoning: 작업기억 안에서 새로운 정보 만들기
  • Learning: 장기기억에 쓰기

이 구분의 장점은 크다.
이제 “도구를 썼다”와 “생각을 했다”와 “기억에 저장했다”를 전부 같은 행동 공간 위에서 설명할 수 있기 때문이다.


CoALA의 결정 절차: propose → evaluate → select → execute

CoALA에서 의사결정은 한 줄짜리 action = llm(prompt) 가 아니다.

저자들은 이를 다음 루프로 정리한다.

  1. Proposal
    가능한 행동 후보를 만든다.
  2. Evaluation
    각 행동 후보가 얼마나 괜찮은지 평가한다.
  3. Selection
    가장 적절한 행동을 고른다.
  4. Execution
    선택한 행동을 실제로 수행한다.

이 구조가 중요한 이유는, 에이전트 성능의 차이가 단순히 “더 좋은 reasoning”에서만 오지 않기 때문이다.
어떤 시스템은 후보를 더 잘 만들고, 어떤 시스템은 평가를 더 잘하고, 어떤 시스템은 장기기억을 더 잘 사용한다.

즉, 에이전트 성능은 LLM 품질만이 아니라 decision procedure 품질의 함수다.


대표 에이전트들을 CoALA로 보면

논문은 여러 유명 에이전트를 CoALA 프레임에 넣어 비교한다.

Agent 장기기억 핵심 행동 결정 방식 한 줄 해석
SayCan 절차 기억 중심 grounding 정해진 skill을 평가 후 선택 외부 행동 중심의 단일 단계 planner
ReAct 명시적 장기기억 거의 없음 reasoning + grounding 생각한 뒤 바로 행동 “생각하며 행동”의 최소 구조
Voyager procedural memory(skill library) grounding + retrieval + reasoning + learning 목표 제안 → 코드 생성/수정 → 저장 스킬을 축적하는 에이전트
Generative Agents episodic + semantic 네 가지 모두 회상 → 반성 → 계획 경험을 기억과 성찰로 바꾸는 에이전트
Tree of Thoughts 장기기억 없음 reasoning 중심 propose/evaluate/select 반복 탐색형 deliberative reasoning

이 비교를 보면 CoALA의 효용이 분명해진다.
각 방법을 “그냥 다른 프롬프트 기법”이 아니라, 어떤 메모리를 갖고 어떤 행동을 허용하며 어떤 의사결정 구조를 쓰는가로 비교할 수 있다.


이 논문이 주는 실무적 통찰

1. 에이전트는 프롬프트보다 구조다

좋은 에이전트는 프롬프트 한 장으로 만들어지지 않는다.
메모리, 액션, 결정 절차가 함께 설계되어야 한다.

2. RAG는 시작일 뿐이다

문서를 꺼내오는 retrieval만으로는 충분하지 않다.
에이전트는 경험을 기억하고, 반성하고, 필요하면 절차까지 갱신할 수 있어야 한다.

3. “생각”도 행동이다

Reasoning을 단순한 부가 기능이 아니라, 내부 액션으로 본 관점이 중요하다.
이렇게 보면 reflection, self-critique, planning이 모두 에이전트 구조 안에 들어온다.

4. 더 강한 에이전트일수록 decision-making이 중요해진다

문제가 어려워질수록 “한 번에 답하기”보다
여러 후보를 만들고 평가하고 선택하는 구조가 필요해진다.

5. 절차 기억(procedural memory)을 쓰기 시작하면 진짜 시스템 문제가 된다

도구 사용, 코드 생성, 스킬 저장이 가능해지는 순간,
에이전트는 단순 응답기가 아니라 자기 행동 방식을 축적하는 시스템이 된다.
그래서 성능뿐 아니라 안정성과 안전성도 같이 설계해야 한다.


강조 포인트

  • CoALA는 “LLM을 어떻게 더 똑똑하게 답하게 할까?”보다 “에이전트를 어떻게 시스템으로 설계할까?”에 답하는 논문이다.
  • 이 논문은 memory, action, decision loop라는 3축으로 에이전트 연구를 정리한다.
  • 특히 retrieval/reasoning/learning을 모두 internal action으로 본 시각이 강력하다.
  • ReAct, Voyager, Generative Agents, ToT를 한 프레임에서 비교하게 해 준다.
  • 실무적으로는 prompt engineering을 넘어서 agent architecture를 고민하게 만든다.

이 논문의 한계와 열린 질문

논문도 스스로 한계와 열린 질문을 인정한다.

1. 언어-only reasoning vs 멀티모달 reasoning

앞으로는 VLM 기반 에이전트가 늘어나면, reasoning 자체가 이미지·텍스트를 함께 다루게 된다.
그때도 CoALA의 구조가 유지될지, 혹은 더 확장되어야 할지가 질문이다.

2. 내부와 외부의 경계는 어디인가

Wikipedia는 external environment인가, semantic memory인가?
실행된 코드는 reasoning인가, grounding인가?
디지털 에이전트로 가면 경계가 흐려진다.

3. 언제 학습하고, 언제 행동할 것인가

현재 많은 에이전트는 learning schedule을 고정해 둔다.
하지만 더 자율적인 에이전트라면 “지금 배울지, 지금 행동할지”도 스스로 판단해야 한다.

4. LLM이 더 강해지면 구조는 얼마나 단순해질까

미래의 더 강한 모델이 memory, planning, evaluation을 context 안에서 거의 흉내 낼 수도 있다.
그럼에도 저자들은 CoALA가 여전히 해석과 설계를 위한 틀로 남을 수 있다고 본다.


개인적인 해석: 왜 이 논문이 오래 남을 가능성이 큰가

이 논문은 성능 숫자로 기억되는 논문이 아니다.
대신, 에이전트를 바라보는 설계 관점을 정리한 논문이다.

좋은 프레임워크 논문은 시간이 지나도 살아남는다.
왜냐하면 새로운 모델이나 툴이 나와도, 결국 우리는 계속 같은 질문을 하게 되기 때문이다.

  • 무엇을 기억하게 할 것인가?
  • 어떤 행동을 허용할 것인가?
  • 어떤 절차로 결정하게 할 것인가?

CoALA는 바로 그 질문을 정리해 준다.


마무리 문단

CoALA의 핵심은 LLM 에이전트를 더 이상 “프롬프트 몇 개를 묶은 체인”으로 보지 않는 데 있다. 이 논문은 에이전트를 메모리, 행동 공간, 의사결정 절차를 갖춘 인지적 시스템으로 재해석한다. 그래서 RAG, ReAct, Voyager, Generative Agents, Tree of Thoughts 같은 서로 다른 방법들도 하나의 공통 좌표계 안에서 비교할 수 있다. 실무적으로도 이 프레임은 중요하다. 앞으로의 에이전트 설계는 단순한 프롬프트 튜닝이 아니라, 무엇을 기억하고 어떤 행동을 허용하며 어떤 루프로 선택하게 할지를 설계하는 문제로 옮겨갈 가능성이 크다.


참고 정보

  • 논문: Theodore R. Sumers, Shunyu Yao, Karthik Narasimhan, Thomas L. Griffiths, Cognitive Architectures for Language Agents
  • 출처: Transactions on Machine Learning Research (2024)
  • 원문 기준 figure 위치
    • Figure 1: p.2
    • Figure 2: p.4
    • Figure 3: p.7
    • Figure 4: p.8
    • Figure 5: p.9