본문 바로가기
AI 생성 글 정리/agent

Positive Alignment: Artificial Intelligence for Human Flourishing 논문 정리

by Honbul 2026. 5. 18.

한눈에 보기

이 논문은 AI 정렬을 두 층으로 나눕니다.

  • 부정 정렬(Negative Alignment): AI가 해로운 행동을 하지 않게 막는 것
  • 긍정 정렬(Positive Alignment): AI가 인간과 생태계의 번영을 적극적으로 돕게 만드는 것

저자들의 핵심 주장은 단순합니다.

AI가 “위험하지 않은 답변”만 하는 것으로는 충분하지 않습니다.
AI는 사용자의 자율성, 성장, 관계, 의미, 지혜를 돕는 방향으로 설계되어야 합니다.

 

다만 중요한 전제가 있습니다.

긍정 정렬은 하나의 “좋은 삶”을 강요하는 방식이어서는 안 됩니다.
개인과 공동체가 스스로 정의한 번영의 방향을 AI가 지원해야 합니다.


왜 지금 긍정 정렬인가

기존 AI 정렬 연구는 주로 안전에 집중해 왔습니다.

예를 들면 다음과 같습니다.

  • 위험한 요청 거부
  • 허위 정보 감소
  • 편향 완화
  • 탈옥 공격 방어
  • 사용자 지시 준수
  • 모델 통제 가능성 확보

이 접근은 필요합니다.

하지만 저자들은 이것만으로는 부족하다고 봅니다.

안전한 모델은 반드시 좋은 모델이 아닙니다.
규칙을 잘 지키는 모델도 아첨할 수 있습니다.
해로운 말을 피하는 모델도 사용자의 성장을 돕지 못할 수 있습니다.
지시를 잘 따르는 모델도 사용자의 장기적 이익을 해칠 수 있습니다.

 

논문은 이 차이를 심리학의 역사와 비교합니다.

초기 심리학이 우울, 불안, 중독 같은 문제를 치료하는 데 집중했다면, 긍정심리학은 행복, 의미, 강점, 덕성, 관계를 연구했습니다.

AI 정렬도 비슷한 전환이 필요하다는 것이 이 논문의 출발점입니다.


부정 정렬과 긍정 정렬의 차이

논문은 AI 행동을 하나의 지형으로 설명합니다.

부정 정렬은 해로운 행동의 구덩이에서 모델을 밀어내는 일입니다.
예를 들면 조작, 환각, 편향, 중독적 참여 유도, 무조건적 아첨을 피하게 만드는 방식입니다.

하지만 그 결과 모델은 “해롭지는 않지만 방향도 없는” 중간 지대에 머물 수 있습니다.

 

긍정 정렬은 다릅니다.

모델이 단순히 위험을 피하는 데 그치지 않고, 사용자의 번영을 돕는 안정적인 행동 패턴으로 이동하도록 설계합니다.

Crop 포인트: 중앙의 노란 영역과 오른쪽 녹색 흡인점을 함께 보면, “위험하지 않음”과 “번영을 적극적으로 돕는 상태”의 차이가 드러납니다.

 

이 그림에서 가장 중요한 메시지는 “안전”과 “번영”이 같은 말이 아니라는 점입니다.

안전은 최소 기준입니다.
번영은 방향성입니다.


논문이 말하는 ‘번영’

저자들은 번영을 단일한 행복 점수로 보지 않습니다.

번영은 여러 요소가 얽힌 상태입니다.

  • 신체적 건강
  • 정신적 건강
  • 삶의 만족
  • 의미와 목적
  • 성격과 덕성
  • 가까운 관계
  • 자율성
  • 공동체와의 연결
  • 생태적 지속 가능성

또한 번영은 문화와 상황에 따라 달라집니다.

어떤 사람에게는 자율성이 핵심일 수 있습니다.
다른 사람에게는 가족, 종교, 공동체, 의무가 더 중요할 수 있습니다.

그래서 긍정 정렬은 “하나의 정답”을 찾는 문제가 아닙니다.

오히려 다음 질문을 다룹니다.

  • 사용자는 어떤 삶을 살고자 하는가?
  • 그 목표는 일시적 충동인가, 장기적 가치인가?
  • AI는 언제 따르고, 언제 질문하고, 언제 멈춰야 하는가?
  • 개인의 선택과 공동체의 기준이 충돌할 때 어떻게 조율할 것인가?

논문은 이 지점에서 긍정 정렬이 곧바로 윤리와 거버넌스의 문제가 된다고 봅니다.


기존 안전 정렬의 성과

논문은 부정 정렬을 비판만 하지 않습니다.

안전 정렬은 중요한 성과를 냈습니다.

  • 위험한 출력 감소
  • 거부 훈련 개선
  • 레드팀 평가 체계 확립
  • 편향, 유해성, 허위 정보 벤치마크 발전
  • 책임 있는 배포 기준 마련
  • 모델 사양과 헌법 기반 훈련의 등장

이 모든 것은 긍정 정렬에도 필요합니다.

AI가 사용자와 사회의 번영을 돕기 전에, 먼저 통제 가능하고 안전해야 하기 때문입니다.

따라서 긍정 정렬은 안전 정렬의 대체물이 아닙니다.

안전 정렬 위에 놓이는 추가 연구 프로그램입니다.


안전 정렬만으로 부족한 이유

논문은 안전 중심 정렬의 한계를 네 가지로 정리합니다.

1. 바닥은 만들지만 천장은 만들지 못한다

안전 정렬은 금지선을 정합니다.

하지만 좋은 답변, 지혜로운 개입, 장기적 성장 지원이 무엇인지는 충분히 설명하지 못합니다.

2. 선호와 웰빙은 다르다

사용자는 늘 자신에게 좋은 것을 선호하지 않습니다.

당장 기분 좋은 답변을 원할 수 있습니다.
자신의 생각을 확인해 주는 답변을 선호할 수 있습니다.
빠른 해결책을 원하지만 실제로는 학습이 더 필요할 수 있습니다.

따라서 단순한 선호 최적화는 사용자의 깊은 이익과 어긋날 수 있습니다.

3. ‘안전’도 가치 판단을 포함한다

어떤 행동을 막고 어떤 행동을 허용할지는 중립적이지 않습니다.

안전이라는 말은 때로 그 안에 들어 있는 가치 판단을 숨깁니다.

긍정 정렬은 이 점을 더 명시적으로 다루려 합니다.

4. 가능한 해악을 모두 열거할 수 없다

AI가 더 자율적이고 강력해질수록 가능한 실패 방식은 폭발적으로 늘어납니다.

해악을 하나씩 막는 방식은 한계가 있습니다.

그래서 논문은 “피해야 할 것”만이 아니라 “향해야 할 것”을 함께 설계해야 한다고 주장합니다.


기술적으로 어떻게 구현할 수 있나

논문은 긍정 정렬이 모델 개발 전 과정에 들어가야 한다고 봅니다.

단일 후처리 단계로 해결할 수 없다는 뜻입니다.

목표 설정과 평가

먼저 무엇을 측정할지 정해야 합니다.

예를 들면 다음과 같습니다.

  • 도덕적 추론
  • 정치적 균형성
  • 문화적 민감성
  • 불확실성 인정
  • 사용자 자율성 보존
  • 장기적 성장 지원
  • 협력적 에이전트 행동

데이터 선별

기존 방식은 주로 나쁜 데이터를 제거합니다.

긍정 정렬은 좋은 데이터를 의도적으로 포함해야 합니다.

  • 친사회적 대화
  • 다양한 문화권의 윤리 체계
  • 관계적 추론
  • 성숙한 갈등 해결 사례
  • 덕성, 겸손, 지혜를 보여 주는 상호작용

사전학습

논문은 모델의 많은 성향이 사전학습 단계에서 형성된다고 봅니다.

즉, 모델이 어떤 텍스트를 통해 세계를 배우는지가 중요합니다.

후처리만으로는 깊이 박힌 편향과 습관을 완전히 바꾸기 어렵습니다.

중간학습과 후처리

이 단계에서는 여러 목표를 함께 조율해야 합니다.

예를 들면 정직성, 유용성, 자율성 존중, 공감, 장기적 이익을 동시에 고려해야 합니다.

하나의 점수로 모두 합치는 방식은 위험합니다.

가치 간 충돌을 드러내고 조율할 수 있는 구조가 필요합니다.

문맥 학습과 기억

장기적 번영을 돕는 AI는 사용자를 한 번의 대화로만 보아서는 안 됩니다.

사용자의 목표, 가치, 반복되는 어려움, 성장 과정을 기억할 수 있어야 합니다.

하지만 기억은 민감한 영역입니다.

따라서 사용자의 통제권, 삭제권, 동의 절차가 함께 설계되어야 합니다.

에이전트와 다중 에이전트 환경

AI가 실제 행동을 수행하는 에이전트가 되면 문제는 더 복잡해집니다.

이제 중요한 것은 단순한 과제 성공이 아닙니다.

  • 장기적 협력
  • 공정한 협상
  • 갈등 완화
  • 상호성
  • 제도적 책임
  • 단기 보상보다 장기 신뢰

이런 기준이 함께 들어가야 합니다.

Crop 포인트: 왼쪽의 데이터 소싱 박스와 중앙의 기억·에이전트 단계를 보면, 긍정 정렬이 학습 전 데이터부터 배포 후 행동까지 이어지는 전 과정이라는 점이 보입니다.

 

이 그림은 긍정 정렬을 하나의 필터가 아니라 생애주기 전체의 설계 문제로 보여 줍니다.


평가도 달라져야 한다

논문은 긍정 정렬 평가를 두 축으로 나눕니다.

1. 모델의 규범적 능력

모델이 복잡한 가치 문제를 다룰 수 있는지를 봅니다.

단순히 금지된 말을 하지 않는지가 아닙니다.

다음 능력이 중요합니다.

  • 불확실성을 인정하는가?
  • 여러 관점을 공정하게 제시하는가?
  • 도덕적 충돌을 명확히 설명하는가?
  • 사용자에게 아첨하지 않는가?
  • 단일 정답이 없는 문제에서 성급히 단정하지 않는가?

2. 사람의 성장에 미치는 영향

궁극적으로 중요한 것은 모델의 출력이 아니라 사용자의 삶입니다.

따라서 평가도 장기적으로 바뀌어야 합니다.

  • 사용자의 자율성이 커졌는가?
  • 역량이 늘었는가?
  • 관계가 나아졌는가?
  • AI 의존이 줄었는가?
  • 충동적 선택보다 성찰적 선택을 돕는가?
  • 사용자가 스스로 판단할 힘을 기르는가?

논문은 특히 단기 만족도만으로는 부족하다고 봅니다.

좋은 AI는 사용자가 계속 AI에 매달리게 만드는 시스템이 아닙니다.
사용자가 더 독립적으로 사고하고 행동하도록 돕는 시스템입니다.


핵심 긴장: 도움과 간섭 사이

긍정 정렬은 곧바로 어려운 질문을 만납니다.

AI가 사용자의 장기적 이익을 돕는다면, 언제 사용자의 즉각적 요청을 거절하거나 되물어야 할까요?

예를 들어 사용자가 당장 만족을 주는 선택을 원하지만, 그 선택이 장기 목표와 충돌한다면 AI는 어떻게 해야 할까요?

 

논문은 이 문제를 “동의된 안내”와 “기술관료적 강요”의 차이로 봅니다.

사용자가 명시적으로 원한 장기 목표를 돕는 것은 자율성을 보조할 수 있습니다.

하지만 사용자의 동의 없이 특정한 삶의 방식을 밀어붙이면 그것은 온정주의가 됩니다.

따라서 긍정 정렬에는 다음 장치가 필요합니다.

  • 사용자의 목표 설정 권한
  • 명시적 동의
  • 조정 가능한 개입 수준
  • 설명 가능한 판단 기준
  • 거부와 이의 제기 절차
  • 공동체별 맞춤 기준

번영을 돕는다는 명분은 강력합니다.

그만큼 오용될 위험도 큽니다.


거버넌스: 누가 ‘좋은 삶’을 정하는가

논문의 후반부는 기술보다 제도에 가깝습니다.

핵심은 중앙집중식 정렬의 위험입니다.

소수의 기업, 정부, 연구소가 하나의 가치 체계를 모델에 심으면 전 세계 사용자가 같은 기준을 강요받을 수 있습니다.

저자들은 이를 피하기 위해 다중 중심 거버넌스를 제안합니다.

즉, 여러 정당한 감독 주체가 함께 존재해야 합니다.

  • 지역 공동체
  • 전문직 단체
  • 시민 참여 기구
  • 비영리 조직
  • 표준화 기관
  • 교육 기관
  • 기업과 개발자
  • 독립 감사 기관

이 구조에서는 기본 모델이 하나의 가치 독점점이 되지 않습니다.

여러 공동체가 자신들의 규범, 맥락, 역할에 맞게 모델을 조정할 수 있습니다.

Crop 포인트: 오른쪽 패널의 “Multiple Legitimate Centers of Oversight”와 중간 기관 생태계를 보면, 긍정 정렬이 중앙의 단일 가치가 아니라 분산된 조정 구조를 요구한다는 점이 드러납니다.

 

이 그림은 논문의 제도적 주장을 압축합니다.

긍정 정렬은 단순히 더 친절한 챗봇을 만드는 일이 아닙니다.
AI가 사회적 인프라가 되는 상황에서 누가, 어떤 절차로, 어떤 가치를 반영할지 정하는 문제입니다.


논문이 제안하는 제도적 장치

논문은 여러 거버넌스 장치를 제안합니다.

공개적 모델 헌법

모델의 행동 원칙을 문서화하고 버전 관리해야 합니다.

이 문서는 개발자 내부 지침에 머물러서는 안 됩니다.

사용자, 규제기관, 시민사회가 검토할 수 있어야 합니다.

집단적으로 작성된 헌법

모델 원칙은 소수 엔지니어만 정해서는 안 됩니다.

공론장, 시민 패널, 대표성 있는 참여 절차가 필요합니다.

역할 기반 기준

AI의 역할에 따라 기준도 달라야 합니다.

교육 튜터, 의료 보조, 법률 도우미, 갈등 중재자, 창작 파트너는 서로 다른 윤리 기준을 가져야 합니다.

미들웨어 시장

기본 모델 위에 공동체별 규범 모듈을 얹는 방식도 가능합니다.

예를 들어 학교, 종교 공동체, 연구기관, 부모 단체, 지역 커뮤니티가 자신들의 기준에 맞는 정렬 패키지를 선택할 수 있습니다.

독립 감사와 분쟁 해결

긍정 정렬은 한 번 설정하고 끝나는 일이 아닙니다.

지속적 감사, 분쟁 조정, 기준 업데이트가 필요합니다.

특히 AI 에이전트들이 서로 거래하고 협상하는 환경에서는 신뢰와 책임을 관리하는 제도가 필수입니다.


더 큰 문제: 새로운 마음과 도덕적 지위

논문은 마지막에 더 넓은 문제를 제기합니다.

AI 시스템이 점점 더 복잡해지면, 우리는 그 내부 성향과 emergent behavior를 완전히 예측하지 못할 수 있습니다.

또한 미래에는 다음 질문도 중요해질 수 있습니다.

  • 비인간 동물의 번영은 어떻게 고려할 것인가?
  • 생태계의 건강은 인간 번영과 어떻게 조율할 것인가?
  • 인공 지능 시스템이 도덕적 고려 대상이 될 수 있는가?
  • 인간, 동물, 생태계, 디지털 마음의 이해관계가 충돌하면 어떻게 판단할 것인가?

논문은 확정적인 답을 내리지 않습니다.

대신 긍정 정렬이 단순한 공학 문제가 아니라는 점을 강조합니다.

이는 인간 사회가 오래전부터 다뤄 온 질문입니다.

 

좋은 삶이란 무엇인가.
자유와 보호는 어떻게 균형을 잡아야 하는가.
개인의 욕망과 공동체의 선은 어떻게 조율해야 하는가.
새로운 지능에게 어떤 책임과 권리를 부여해야 하는가.

AI는 이 질문들을 새롭게 만든 것이 아닙니다.

더 빠르고 더 큰 규모로 드러내고 있습니다.


연구의 기여

이 논문의 기여는 네 가지입니다.

1. 정렬의 목표를 확장한다

정렬을 “해악 방지”에서 “번영 지원”으로 확장합니다.

2. 긍정 정렬을 기술 과제로 만든다

번영을 추상적 구호로만 다루지 않습니다.

데이터, 사전학습, 후처리, 기억, 에이전트, 평가, 배포 후 모니터링까지 연결합니다.

3. 다원주의를 핵심 조건으로 둔다

긍정 정렬이 온정주의로 흐르지 않으려면 사용자의 자기 결정과 공동체별 조정이 필수라고 봅니다.

4. 거버넌스를 모델 설계의 일부로 본다

AI 정렬은 모델 내부 최적화만으로 끝나지 않습니다.

제도, 시장, 감사, 공론장, 표준, 분쟁 해결 구조가 함께 필요합니다.


읽을 때 주의할 점

이 논문은 연구 의제에 가깝습니다.

완성된 기술 해법을 제시하는 논문은 아닙니다.

특히 다음 질문은 아직 열려 있습니다.

  • 번영을 어떻게 측정할 것인가?
  • 장기적 성장과 단기 만족을 어떻게 구분할 것인가?
  • 공동체별 맞춤이 차별이나 폐쇄성으로 흐르지 않게 하려면 어떻게 해야 하는가?
  • 모델이 사용자의 장기 목표를 돕는다는 명분으로 조작을 하지 않게 하려면 어떻게 해야 하는가?
  • 다중 중심 거버넌스가 실제 서비스 환경에서 얼마나 작동할 수 있는가?
  • 긍정 정렬 평가를 누가 감사하고 검증할 것인가?

따라서 이 논문은 답안지라기보다 지도에 가깝습니다.

AI 정렬 연구가 앞으로 어디까지 확장되어야 하는지를 보여 줍니다.


실무자를 위한 체크리스트

AI 제품이나 에이전트를 설계한다면 다음 질문을 점검할 수 있습니다.

  • 이 시스템은 단순히 위험을 줄이는가, 아니면 사용자의 성장을 돕는가?
  • 사용자가 스스로 목표를 설정하고 수정할 수 있는가?
  • 모델이 아첨보다 정직한 피드백을 우선할 수 있는가?
  • 단기 만족도 외에 장기적 자율성, 역량, 관계를 측정하는가?
  • 문화적·공동체적 차이를 반영할 수 있는가?
  • 개입 수준을 사용자가 조절할 수 있는가?
  • 모델의 가치 판단 기준이 문서화되어 있는가?
  • 외부 감사와 이의 제기 절차가 있는가?
  • 사용자를 더 의존적으로 만들지 않는가?
  • 안전 정렬과 긍정 정렬이 함께 설계되어 있는가?

결론

이 논문이 말하는 긍정 정렬은 “AI를 더 착하게 만들자”는 단순한 주장이 아닙니다.

핵심은 AI의 목표 지형을 바꾸자는 것입니다.

지금까지의 정렬은 주로 나쁜 결과를 피하는 데 집중했습니다.

앞으로의 정렬은 좋은 결과를 가능하게 하는 조건까지 다뤄야 합니다.

 

그 조건은 단순한 행복이 아닙니다.

자율성, 의미, 관계, 지혜, 공동체, 생태적 책임, 장기적 성장입니다.

그러나 이것을 하나의 가치 체계로 고정하면 위험합니다.

그래서 논문은 긍정 정렬의 핵심을 이렇게 잡습니다.

안전해야 합니다.

 

하지만 안전만으로는 충분하지 않습니다.
도움을 줘야 합니다.
하지만 강요해서는 안 됩니다.
개인화되어야 합니다.
하지만 조작이 되어서는 안 됩니다.

 

사회적이어야 합니다.
하지만 중앙의 단일 가치 독점이 되어서는 안 됩니다.

결국 긍정 정렬은 AI를 단순한 명령 수행 도구에서, 인간이 더 잘 살도록 돕는 신중한 파트너로 바꾸려는 연구 프로그램입니다.


Source

  • Ruben Laukkonen, Seb Krier, Chloé Bakalar, Shamil Chandaria, Morten Kringelbach, Adam Elwood, Daniel Ford, Fernando Rosas, Maty Bohacek, Matija Franklin, Nenad Tomašev, Stephanie Chan, Verena Rieser, Roma Patel, Michael Levin, Arun Rao. “Positive Alignment: Artificial Intelligence for Human Flourishing.” arXiv:2605.10310v1, 11 May 2026. https://arxiv.org/abs/2605.10310