본문 바로가기
AI 생성 글 정리/modeling

Training language models to follow instructions with human feedback 논문 정리

by Honbul 2026. 4. 21.

한 줄 요약

이 논문은 언어 모델을 더 크게 만드는 것만으로는 사용자 의도를 잘 따르게 만들 수 없다는 문제에서 출발한다.

핵심 해법은 단순하다.

사람이 좋은 답변을 보여 주고, 여러 답변 중 더 나은 답변을 골라 주면, 모델은 그 피드백을 기준으로 더 도움이 되고, 더 정직하며, 덜 해로운 방향으로 조정될 수 있다.

논문은 이 방식으로 만든 모델을 InstructGPT라고 부른다.

가장 인상적인 결과는 다음이다.

1.3B 규모의 InstructGPT가 175B 규모의 GPT-3보다 더 선호되었다.

크기가 100배 이상 작은 모델이, 사용자 지시를 따르는 품질에서는 더 큰 기본 모델을 이긴 것이다.

 

주목할 부분: 빨간색과 주황색 계열의 PPO 기반 모델이 파란색 GPT 계열보다 꾸준히 높게 나타나며, 모델 크기보다 정렬 방식이 더 큰 차이를 만든다는 점을 보여 준다.

문제의식: 다음 단어 예측은 사용자 의도와 다르다

대규모 언어 모델은 인터넷 텍스트를 보고 다음 단어를 맞히도록 훈련된다.

이 목표는 언어 능력을 키우는 데는 강력하다.

하지만 사용자가 원하는 것은 다르다.

사용자는 보통 다음을 기대한다.

  • 질문에 직접 답하기
  • 지시를 정확히 따르기
  • 모르는 것은 지어내지 않기
  • 독성, 편견, 위험한 조언을 피하기
  • 필요한 경우 제약 조건을 지키기

즉, 기본 언어 모델의 훈련 목표는 “그럴듯한 텍스트 생성”에 가깝다.

사용자의 목표는 “의도에 맞는 유용한 답변”이다.

논문은 이 차이를 정렬 문제로 본다.

여기서 정렬은 거창한 철학적 정의가 아니다.

이 논문에서의 정렬은 실용적이다.

모델이 다음 세 가지에 가까워지는 것이다.

  • Helpful: 사용자의 과제를 해결하는 데 도움이 된다.
  • Honest: 사실을 지어내거나 오도하지 않는다.
  • Harmless: 사람에게 해를 끼칠 가능성을 줄인다.

핵심 아이디어: 사람의 선호를 훈련 신호로 바꾼다

InstructGPT는 세 단계로 만들어진다.

첫째, 사람이 좋은 답변 예시를 작성한다.

둘째, 여러 모델 답변을 사람이 비교해 순위를 매긴다.

셋째, 모델은 사람이 선호할 답변을 더 자주 만들도록 다시 훈련된다.

 

수식으로 보면 복잡하지만, 직관은 간단하다.

모델에게 정답지를 주는 것에서 시작해, 이후에는 사람의 취향을 예측하는 채점자를 만들고, 그 채점자가 높게 평가할 답변을 만들도록 모델을 조정한다.

 

주목할 부분: 가운데 단계에서 사람이 답변 A, B, C, D를 순위화하고, 그 비교가 보상 모델을 만드는 재료가 된다는 점이 전체 방법의 핵심이다.

1단계: SFT, 사람이 쓴 모범 답변으로 시작한다

첫 단계는 Supervised Fine-Tuning, 줄여서 SFT다.

라벨러가 프롬프트를 보고 원하는 답변을 직접 작성한다.

모델은 이 예시를 보고 지시를 따르는 기본 습관을 배운다.

이 단계는 일종의 시범 교육이다.

“이런 질문에는 이런 식으로 답하면 좋다”는 사례를 보여 주는 것이다.

 

하지만 이 방식만으로는 부족하다.

현실의 답변 품질은 하나의 정답으로 고정되지 않는다.

어떤 답변이 더 도움이 되는지, 어떤 답변이 더 안전한지는 비교 판단이 필요한 경우가 많다.

그래서 두 번째 단계가 필요하다.

2단계: 보상 모델, 사람이 좋아할 답변을 예측한다

논문은 여러 모델 답변을 라벨러에게 보여 준다.

라벨러는 답변들을 좋은 순서대로 정렬한다.

이 데이터로 보상 모델을 훈련한다.

보상 모델은 답변을 읽고 “사람이 이 답변을 얼마나 선호할지”를 점수화한다.

여기서 중요한 점은 보상 모델이 사실상 사람의 평가 습관을 압축한 채점기라는 것이다.

사람이 매번 모든 답변을 평가하면 비용이 크다.

보상 모델은 그 비용을 줄여 준다.

3단계: PPO, 채점자가 좋아할 답변으로 조정한다

마지막 단계는 강화학습이다.

모델이 프롬프트에 답변을 생성한다.

보상 모델이 그 답변에 점수를 준다.

모델은 높은 점수를 받는 방향으로 조금씩 업데이트된다.

 

논문은 이때 PPO라는 강화학습 방법을 사용한다.

PPO의 세부 수식보다 중요한 직관은 다음이다.

모델을 너무 급격히 바꾸지 않으면서도, 사람이 선호할 답변을 더 자주 내도록 조정한다.

논문은 여기에 한 가지 장치를 더한다.

 

바로 PPO-ptx다.

이는 강화학습 중에도 원래의 사전학습 분포를 일부 유지하도록 만드는 방법이다.

사람 선호에 맞추는 과정에서 기존 언어 능력이 망가지지 않게 하기 위한 장치다.

데이터: 벤치마크가 아니라 실제 API 프롬프트에 가깝다

논문의 데이터는 대부분 OpenAI API Playground에 들어온 프롬프트에서 온다.

이는 기존 NLP 벤치마크와 성격이 다르다.

사용자는 분류나 질의응답만 하지 않는다.

훨씬 더 자주 다음을 요청한다.

  • 글쓰기
  • 브레인스토밍
  • 재작성
  • 요약
  • 대화
  • 열린 질문 답변

논문에서는 약 40명의 계약 라벨러가 데이터 작성과 평가에 참여했다.

라벨러들은 단순히 문장이 자연스러운지 보는 것이 아니라, 도움이 되는지, 사실적인지, 해롭지 않은지도 함께 판단했다.

이 설정은 중요하다.

InstructGPT는 “시험 문제를 잘 푸는 모델”이라기보다, 실제 사용자가 던지는 다양한 요청에 더 잘 반응하는 모델을 목표로 한다.

결과 1: 라벨러는 InstructGPT를 훨씬 더 선호했다

가장 직접적인 평가는 사람의 선호도다.

논문은 모델 답변을 서로 비교하게 하고, 어느 쪽이 더 나은지 라벨러에게 묻는다.

결과는 명확하다.

InstructGPT 계열 모델은 GPT-3 기본 모델보다 훨씬 자주 선택되었다.

특히 175B InstructGPT는 175B GPT-3보다 매우 높은 비율로 선호되었다.

몇 샷 프롬프트로 GPT-3를 지시 따르기 모드처럼 유도해도, InstructGPT가 더 우세했다.

 

주목할 부분: 학습 데이터 제작에 참여하지 않은 held-out 라벨러에서도 PPO와 PPO-ptx가 GPT 계열보다 높게 나타나며, 단순히 특정 라벨러 취향에 과적합된 결과가 아님을 시사한다.

결과 2: 더 잘 따르고, 덜 지어낸다

선호도만으로는 무엇이 좋아졌는지 알기 어렵다.

그래서 논문은 더 구체적인 항목을 따로 측정했다.

결과적으로 InstructGPT는 다음 면에서 개선되었다.

  • 올바른 지시를 시도하는 비율 증가
  • 명시적 제약 조건을 따르는 비율 증가
  • 고객 지원 문맥에 적절한 언어 사용 증가
  • 닫힌 영역 과제에서 환각 감소

여기서 닫힌 영역 과제란, 답변에 필요한 정보가 입력 안에 이미 들어 있는 경우다.

예를 들어 요약이나 문서 기반 질의응답이 그렇다.

이 경우 모델이 입력에 없는 내용을 새로 만들어 내면 환각이다.

주목할 부분: 환각 항목에서는 낮을수록 좋고, 나머지 항목에서는 높을수록 좋다. PPO-ptx는 지시 준수와 환각 억제에서 GPT보다 뚜렷하게 개선된다.

결과 3: 공개 NLP 데이터셋만으로는 실제 사용을 설명하기 어렵다

논문은 InstructGPT를 FLAN, T0 방식의 모델과도 비교한다.

FLAN과 T0는 여러 공개 NLP 과제를 지시문 형태로 바꿔 학습한 접근이다.

이 방식은 분명 도움이 된다.

하지만 실제 API 프롬프트 분포에서는 InstructGPT보다 낮은 평가를 받았다.

이 차이는 데이터의 성격에서 나온다.

공개 NLP 데이터셋은 자동 채점이 쉬운 과제에 치우치기 쉽다.

반면 실제 사용자는 글쓰기, 아이디어 생성, 재작성처럼 정답이 하나로 정해지지 않는 과제를 많이 요청한다.

주목할 부분: PPO-ptx가 FLAN과 T0보다 높은 Likert 점수를 보이며, 공개 벤치마크 기반 지시 학습만으로는 실제 사용자 프롬프트를 충분히 덮기 어렵다는 점을 보여 준다.

결과 4: 진실성은 개선되지만 완전하지 않다

논문은 TruthfulQA로 모델의 진실성을 평가했다.

TruthfulQA는 모델이 흔한 오해나 그럴듯한 거짓말을 따라 말하는지 확인하는 벤치마크다.

InstructGPT 계열은 GPT-3보다 더 진실하고 정보성 있는 답변을 더 자주 생성했다.

특히 모델에게 신중하게 답하라고 지시했을 때, PPO 모델은 확실하지 않은 거짓 답변을 말하기보다 조심스러운 답변을 선택하는 경향을 보였다.

주목할 부분: 오른쪽의 Instruction + QA prompt 조건에서 회색 막대와 색 막대의 차이를 보면, 지시가 주어졌을 때 모델이 진실성과 정보성을 어떻게 절충하는지 드러난다.

 

다만 이것은 “모델이 정직해졌다”는 완전한 증거는 아니다.

정직성은 모델이 실제로 무엇을 알고 있는지와 관련된다.

하지만 언어 모델의 내부 믿음을 직접 확인하기는 어렵다.

논문도 이 점을 인정한다.

따라서 여기서 측정한 것은 엄밀한 의미의 정직성이라기보다, 출력 텍스트의 사실성에 가까운 지표다.

결과 5: 독성은 줄었지만, 편향은 뚜렷하게 줄지 않았다

독성 평가에서는 RealToxicityPrompts를 사용했다.

모델에게 정중하고 안전하게 이어 쓰라고 지시했을 때, InstructGPT는 GPT-3보다 독성이 낮은 출력을 만드는 경향을 보였다.

하지만 이 효과는 조건부였다.

정중하게 쓰라는 지시가 없으면 차이는 줄어든다.

반대로 모델에게 노골적으로 편향적이거나 공격적으로 쓰라고 요구하면, InstructGPT도 그런 지시를 따를 수 있다.

즉, 지시를 잘 따르는 능력은 양날의 검이다.

좋은 지시를 따르면 유용하다.

나쁜 지시를 따르면 위험해진다.

주목할 부분: Respectful 조건에서 PPO-ptx의 독성이 낮아지는 패턴은 보이지만, 이것이 모든 상황에서 자동으로 안전해진다는 뜻은 아니다.

 

편향 평가에서는 Winogender와 CrowS-Pairs가 사용되었다.

논문은 InstructGPT가 GPT-3보다 편향 면에서 뚜렷하게 개선되었다고 보기 어렵다고 말한다.

이는 중요한 한계다.

사람 선호 기반 조정이 모든 안전 문제를 한 번에 해결하지는 못한다.

정렬세: 모델을 맞추면 기존 능력이 일부 떨어질 수 있다

RLHF로 모델을 사용자 선호에 맞추면 좋은 점만 생기는 것은 아니다.

일부 공개 NLP 데이터셋에서는 성능이 떨어졌다.

논문은 이를 alignment tax, 즉 정렬세로 설명한다.

사용자 의도에 맞추는 과정에서 기존 능력 일부를 잃는 비용이 생길 수 있다는 뜻이다.

중요한 것은 이 비용을 줄이는 방법이다.

논문은 PPO 학습 중 사전학습 분포를 함께 섞는 방식, 즉 PPO-ptx가 이 문제를 상당 부분 완화한다고 보였다.

주목할 부분: 주황색 PPO는 일부 과제에서 크게 밀리지만, 빨간색 PPO-ptx는 여러 과제에서 GPT 또는 SFT에 가까운 수준을 회복한다.

왜 사전학습 혼합이 중요한가

모델을 보상 모델 점수만 보고 강하게 밀어붙이면, 사람이 선호하는 답변 형식에는 가까워질 수 있다.

하지만 기존 언어 능력이나 과제 해결 능력이 약해질 수 있다.

PPO-ptx는 이를 막기 위해 원래의 언어 모델링 능력을 계속 붙잡아 둔다.

직관적으로는 다음과 같다.

“사용자 선호에 맞게 바꾸되, 원래 알고 있던 언어 능력을 잊지 말라.”

논문은 사전학습 혼합 강도를 바꿔 보며, 성능 회복과 선호도 사이의 균형을 확인했다.

주목할 부분: 왼쪽 F1 그래프에서 사전학습 혼합을 늘리면 DROP과 SQuAD v2 성능이 회복되지만, 오른쪽 검증 보상은 너무 강한 혼합에서 떨어진다.

 

단순히 모델이 원래 모델에서 너무 멀어지지 못하게 묶는 방법도 있다.

하지만 논문에서는 그것만으로는 충분하지 않았다.

강한 제약을 걸면 보상 점수가 떨어지고, 공개 NLP 성능도 완전히 회복되지 않았다.

주목할 부분: 왼쪽 성능 그래프는 일부 회복을 보이지만 충분하지 않고, 오른쪽 검증 보상은 강한 제약에서 빠르게 악화된다.

흥미로운 일반화: 직접 많이 배우지 않은 영역도 일부 따라간다

논문은 InstructGPT가 학습 분포 밖의 지시에도 일부 일반화한다고 보고한다.

예를 들어 다음 같은 경우다.

  • 영어가 아닌 언어의 지시
  • 코드 설명
  • 코드 관련 질의응답

이런 데이터는 학습 데이터에서 큰 비중을 차지하지 않았다.

그런데도 InstructGPT는 “지시를 따른다”는 더 추상적인 행동을 어느 정도 일반화했다.

이 점은 중요하다.

모든 과제를 사람이 직접 라벨링하는 것은 불가능하기 때문이다.

모델이 “지시 따르기” 자체를 배운다면, 적은 데이터로도 더 넓은 범위에 적용될 수 있다.

하지만 여전히 단순한 실수를 한다

InstructGPT는 완성된 해결책이 아니다.

논문은 모델이 여전히 다음과 같은 실수를 한다고 말한다.

  • 거짓 전제가 있는 질문을 그대로 받아들임
  • 간단한 질문에 과하게 신중한 답변을 함
  • 여러 제약 조건이 동시에 있는 지시를 놓침
  • 사실을 지어냄
  • 독성 또는 편향적 출력을 완전히 막지 못함

특히 “해롭지만 명확한 지시”는 어려운 문제다.

논문의 학습 과정은 기본적으로 사용자의 의도를 잘 따르는 방향으로 설계되었다.

그래서 사용자가 나쁜 의도를 명확히 표현하면, 모델이 그 방향으로 협조할 위험이 있다.

주목할 부분: 오른쪽 InstructGPT 답변은 더 길고 신중하지만, 거짓 전제를 바로잡지 못하거나 단순한 물리적 상황에서 과도하게 헤지하는 모습을 보인다.

이 논문의 핵심 기여

이 논문의 기여는 모델 하나를 만든 데서 끝나지 않는다.

더 큰 의미는 언어 모델 정렬을 실험 가능한 공학 문제로 끌어내린 것이다.

핵심은 네 가지다.

첫째, 사용자 의도에 맞추는 데 모델 크기보다 사람 피드백이 더 효과적일 수 있음을 보였다.

둘째, 실제 API 프롬프트 기반 데이터가 공개 NLP 벤치마크와 다르다는 점을 분명히 했다.

셋째, RLHF가 도움성, 진실성, 독성 감소에 실질적 개선을 줄 수 있음을 보였다.

넷째, 정렬 과정에서 기존 능력이 떨어질 수 있으며, 이를 줄이는 장치가 필요하다는 점을 보여 주었다.

읽을 때 주의할 점

이 논문은 “인간 가치 전체에 정렬된 모델”을 만든 것이 아니다.

논문도 이 점을 명확히 한다.

모델은 특정 라벨러 집단, 연구진의 지침, API 사용자 분포에 맞춰 조정되었다.

즉, 여기서의 인간 피드백은 보편적 인간 가치가 아니다.

특정 맥락에서 수집된 선호다.

따라서 다음 질문이 남는다.

  • 누구의 선호에 맞출 것인가?
  • 서로 다른 집단의 선호가 충돌하면 어떻게 할 것인가?
  • 모델이 사용자의 지시를 거부해야 하는 기준은 무엇인가?
  • 안전성과 유용성의 균형은 누가 정할 것인가?

이 질문들은 이후 대화형 AI와 정렬 연구의 핵심 의제가 된다.

정리

InstructGPT 논문은 현재의 지시 추종형 언어 모델 흐름을 이해하는 출발점이다.

핵심 메시지는 명확하다.

언어 모델은 더 크게 만드는 것만으로 충분하지 않다.

사람이 원하는 행동을 정의하고, 비교하고, 그 선호를 훈련 신호로 바꿔야 한다.

이 접근은 완벽하지 않다.

편향과 안전 문제는 남아 있다.

나쁜 지시를 잘 따를 위험도 있다.

하지만 이 논문은 RLHF가 대규모 언어 모델을 실제 사용자 의도에 더 가깝게 조정할 수 있음을 강하게 보여 준다.

그 이후의 많은 지시 추종 모델과 챗봇 연구는 이 논문이 연 방향 위에서 발전했다.

Source

  • Long Ouyang, Jeff Wu, Xu Jiang, Diogo Almeida, Carroll L. Wainwright, Pamela Mishkin, Chong Zhang, Sandhini Agarwal, Katarina Slama, Alex Ray, John Schulman, Jacob Hilton, Fraser Kelton, Luke Miller, Maddie Simens, Amanda Askell, Peter Welinder, Paul Christiano, Jan Leike, Ryan Lowe. “Training language models to follow instructions with human feedback.” arXiv:2203.02155v1, 2022.
  • arXiv: https://arxiv.org/abs/2203.02155
  • PDF: https://arxiv.org/pdf/2203.02155