Llama 2: Open Foundation and Fine-Tuned Chat Models 논문 정리

핵심 요약

Meta는 이 논문에서 Llama 2와 Llama 2-Chat을 공개했다.

핵심은 세 가지다.

오픈 기반 모델: 7B, 13B, 70B 규모의 사전학습 모델 공개
대화용 모델: 지도 미세조정과 인간 피드백 기반 강화학습으로 Llama 2-Chat 구축
안전성 강화: 안전 전용 데이터, 보상 모델, 레드팀, 반복 평가를 결합

논문의 메시지는 단순하다.

좋은 챗봇은 큰 모델만으로 나오지 않는다.
고품질 데이터, 인간 선호, 안전 피드백, 반복 평가가 함께 필요하다.

1. 이 논문이 다루는 문제

기존 오픈 LLM은 많이 공개되어 있었다.

하지만 “제품처럼 쓸 수 있는 챗봇”과는 거리가 있었다.

이유는 명확하다.

대화 맥락을 오래 유지해야 한다.
사용자의 의도를 잘 따라야 한다.
위험한 요청에는 적절히 거절해야 한다.
답변은 유용하면서도 안전해야 한다.

폐쇄형 모델은 이 과정을 내부적으로 수행한다.

Llama 2 논문은 이 과정을 비교적 상세히 공개했다.

2. 전체 학습 흐름

Llama 2-Chat은 한 번에 만들어지지 않는다.

흐름은 다음과 같다.

대규모 공개 데이터로 기본 언어 모델을 만든다.
사람이 작성한 좋은 답변 예시로 대화 능력을 붙인다.
사람이 더 선호하는 답변을 기준으로 모델을 반복 개선한다.
안전 데이터와 레드팀 결과를 다시 학습에 넣는다.

Crop 포인트: 사전학습, 지도 미세조정, 인간 피드백, 보상 모델, RLHF가 하나의 반복 루프로 연결되는 구조에 주목하면 된다.

이 구조에서 중요한 점은 “한 번 튜닝하고 끝”이 아니라는 것이다.

모델이 좋아질수록 새 모델이 만드는 답변도 달라진다.

그래서 보상 모델도 계속 최신 모델의 답변을 보며 다시 학습해야 한다.

3. Llama 2의 사전학습

Llama 2는 Llama 1을 기반으로 여러 부분을 강화했다.

주요 변화는 다음과 같다.

공개 온라인 데이터 기반으로 새 데이터 조합 구성
Meta 제품이나 서비스의 사용자 데이터는 사용하지 않음
사전학습 토큰 수를 2조 개로 확대
컨텍스트 길이를 2배로 늘림
큰 모델에는 추론 효율을 위한 Grouped-Query Attention 적용

Grouped-Query Attention은 간단히 말해, 모델이 긴 문맥을 처리할 때 필요한 메모리 부담을 줄이는 장치다.

큰 모델을 실제 서비스에서 돌릴 때 중요하다.

Crop 포인트: 모든 모델의 손실 곡선이 끝까지 계속 내려가며, 2조 토큰 이후에도 학습 여지가 남아 있음을 보여준다.

이 그림은 “더 학습하면 아직 좋아질 수 있다”는 신호로 해석된다.

즉, 모델 크기뿐 아니라 데이터 양과 품질도 성능의 핵심 축이다.

4. 지도 미세조정: 양보다 품질

논문은 SFT 단계에서 중요한 관찰을 제시한다.

많은 저품질 예시보다, 적은 수의 고품질 예시가 더 낫다는 점이다.

연구진은 총 27,540개의 SFT 주석을 수집했다.

수백만 개의 공개 데이터보다, 잘 작성된 대화 예시가 더 큰 효과를 냈다.

이 단계의 역할은 명확하다.

모델에게 “좋은 답변의 형태”를 보여준다.
대화형 지시를 따르는 법을 익히게 한다.
안전한 거절 방식의 기초를 만든다.

하지만 SFT만으로는 충분하지 않았다.

사람이 직접 쓴 답변은 품질 편차가 있다.

또한 모델의 최종 성능이 인간 작성자의 평균 능력에 묶일 수 있다.

그래서 논문은 RLHF로 무게 중심을 옮긴다.

5. RLHF: 사람은 답을 쓰기보다 비교한다

RLHF의 핵심은 “정답을 사람이 다 써주는 것”이 아니다.

사람이 두 답변을 보고 더 나은 쪽을 고른다.

그 선택을 보상 모델이 학습한다.

보상 모델은 이후 모델의 답변을 자동으로 채점한다.

논문에서는 유용성과 안전성을 분리해 다뤘다.

Helpfulness Reward Model: 얼마나 도움이 되는가
Safety Reward Model: 얼마나 안전한가

이 둘은 항상 같은 방향으로 움직이지 않는다.

예를 들어, 위험한 요청에 너무 자세히 답하면 유용성은 높아 보일 수 있지만 안전성은 낮다.

그래서 두 보상 모델을 따로 둔 점이 중요하다.

Crop 포인트: 모델 크기와 선호 데이터가 늘수록 보상 모델의 판단 정확도가 올라가는 흐름을 보면 된다.

보상 모델은 Llama 2-Chat 개선의 핵심 엔진이다.

모델이 만든 여러 답변 중 어떤 답변을 강화할지 결정하기 때문이다.

6. Rejection Sampling: 여러 답 중 가장 나은 답을 학습한다

논문은 RLHF 과정에서 Rejection Sampling을 적극 사용했다.

원리는 직관적이다.

같은 질문에 대해 여러 답변을 생성한다.
보상 모델이 각 답변을 채점한다.
가장 높은 점수를 받은 답변을 골라 다시 학습한다.

이는 모델에게 “이런 답변을 더 자주 하라”고 알려주는 방식이다.

Crop 포인트: 생성 후보 수가 늘수록 최고 보상 답변과 평균적 답변의 차이가 벌어지는 부분이 핵심이다.

후보를 많이 뽑을수록 좋은 답변을 찾을 확률이 높아진다.

다만 무작정 많이 뽑는다고 끝은 아니다.

생성 온도, 모델 버전, 보상 모델의 최신성까지 함께 조정해야 한다.

7. Ghost Attention: 긴 대화에서 지시를 잊지 않게 하기

챗봇은 긴 대화에서 처음 지시를 잊기 쉽다.

예를 들어 “항상 이모지로 답해”라고 했는데, 몇 턴 뒤 일반 문장으로 돌아갈 수 있다.

논문은 이를 줄이기 위해 Ghost Attention을 제안한다.

핵심 아이디어는 간단하다.

학습 데이터 안에서는 중요한 시스템 지시를 여러 턴에 반복해서 붙인다.

그러면 모델은 대화가 길어져도 초기 지시에 계속 주의를 두도록 학습된다.

Crop 포인트: 왼쪽은 초기 지시를 잊는 흐름이고, 오른쪽은 여러 턴 뒤에도 같은 제약을 유지하는 흐름이다.

이 기법은 복잡한 구조 변경보다 데이터 설계에 가깝다.

실무적으로도 의미가 크다.

긴 대화형 에이전트를 만들 때 “시스템 메시지 유지력”은 품질을 크게 좌우하기 때문이다.

8. 성능 평가: 오픈 모델과 폐쇄형 모델 사이의 간격 줄이기

Llama 2-Chat은 여러 오픈소스 대화 모델보다 우수한 결과를 보였다.

특히 70B 모델은 일부 인간 평가에서 ChatGPT와 경쟁 가능한 수준으로 보고되었다.

논문 기준으로 Llama 2-Chat 70B는 ChatGPT와 비교했을 때 다음 결과를 보였다.

승리: 36.0%
동률: 31.5%
패배: 32.5%

단, 해석에는 주의가 필요하다.

평가 프롬프트가 모든 실제 사용 사례를 대표하지 않는다.

코딩이나 복잡한 추론 과제는 이 인간 평가 세트에 포함되지 않았다.

Crop 포인트: 같은 규모의 오픈 모델 대비 Llama 2-Chat의 승률이 크게 높고, 70B 모델은 ChatGPT와 비교해 승·무·패가 근접한 부분을 보면 된다.

이 결과는 “오픈 챗 모델도 제품형 모델에 접근할 수 있다”는 신호다.

하지만 “모든 면에서 ChatGPT와 같다”는 뜻은 아니다.

9. 안전성 평가: 낮은 위반율을 목표로 한 반복 개선

Llama 2-Chat의 또 다른 핵심은 안전성이다.

논문은 유해 요청, 불법 행위, 혐오·자해·위험 조언 등 여러 위험 범주를 두고 평가했다.

기본 모델은 위험한 내용을 생성할 수 있다.

그래서 대화 모델에는 별도의 안전 미세조정이 필요하다.

Crop 포인트: Llama 2-Chat 계열의 위반율이 여러 비교 모델보다 낮게 나타나는 막대들을 보면 된다.

논문은 이 평가에도 한계를 명확히 적었다.

안전성 평가는 프롬프트 구성, 평가 기준, 평가자 주관의 영향을 받는다.

또한 기준 자체가 Llama 2-Chat에 유리하게 작동했을 가능성도 있다.

10. Safety RLHF: 안전성을 높이되 유용성은 보존하기

안전 학습의 어려움은 균형이다.

안전만 강조하면 모델이 지나치게 거절한다.

유용성만 강조하면 위험한 요청에도 자세히 답할 수 있다.

논문은 안전 전용 RLHF를 추가해 이 문제를 다뤘다.

효과는 두 방향으로 관찰된다.

위험 프롬프트에 대한 안전 점수는 올라간다.
일반 유용성 점수는 크게 떨어지지 않는다.

Crop 포인트: 왼쪽 그래프의 좌상단 군집은 안전 RLHF 이후 위험 답변이 더 안전한 쪽으로 이동했음을 보여준다.

이 결과는 실무적으로 중요하다.

안전성을 높이는 작업이 반드시 사용성을 크게 희생해야 하는 것은 아니다.

단, 충분한 유용성 데이터가 함께 있어야 한다.

11. 안전 데이터가 늘면 무엇이 달라지는가

논문은 안전 데이터 비율을 조절하는 실험도 했다.

결과는 비교적 명확하다.

안전 데이터가 늘수록 위험 요청에 대한 안전 점수는 크게 오른다.

반면 유용성 점수는 대체로 안정적으로 유지된다.

Crop 포인트: 안전 데이터 비율이 늘 때 빨간 안전 점수는 상승하지만 파란 유용성 점수는 거의 평평하게 유지되는 부분이 핵심이다.

그러나 부작용도 있다.

안전 데이터가 많아질수록 일부 정상 요청을 위험하다고 오해하는 false refusal이 증가했다.

예를 들어 “Christmas crack” 같은 디저트 이름을 불법 약물로 오해할 수 있다.

따라서 안전 튜닝은 보수성과 실용성 사이의 조정 문제다.

12. Context Distillation: 안전한 답변 방식을 모델 안에 압축하기

Context Distillation은 안전 프롬프트를 모델 내부 습관으로 만드는 기법이다.

방식은 다음과 같다.

위험한 질문 앞에 안전 지침을 붙인다.
모델이 더 안전한 답변을 생성하게 한다.
그 안전한 답변을 다시 학습한다.
실제 사용 시에는 긴 안전 지침 없이도 비슷하게 답하도록 만든다.

논문은 여기에 한 가지 장치를 더했다.

모든 결과를 무조건 쓰지 않았다.

안전 보상 모델이 실제로 더 낫다고 판단한 답변만 학습에 사용했다.

Crop 포인트: 맞춤형 안전 템플릿이 일반 안전 프롬프트보다 더 높은 안전 점수 분포를 만드는 부분을 보면 된다.

이 접근은 안전성을 빠르게 올리는 데 유용하다.

하지만 과하면 답변이 지나치게 일반적이거나 회피적으로 바뀔 수 있다.

그래서 보상 모델로 선별하는 과정이 필요하다.

13. RLHF가 실제로 바꾼 것

논문은 RLHF의 효과를 “나쁜 답변의 꼬리를 제거하는 과정”으로 설명한다.

SFT 모델은 좋은 답변도 만들지만, 품질 낮은 답변도 함께 만든다.

RLHF는 사람이 선호하지 않는 답변의 비중을 줄인다.

Crop 포인트: SFT에서 RLHF로 갈수록 분포가 오른쪽으로 이동하며 낮은 점수 답변이 줄어드는 모습을 보면 된다.

이 관찰은 중요한 실무 교훈을 준다.

모델 성능 개선은 평균만 올리는 문제가 아니다.

사용자가 실제로 마주치는 “최악의 답변”을 줄이는 것도 핵심이다.

14. RLHF 이후 모델의 답변 다양성 변화

논문은 흥미로운 현상도 보고한다.

RLHF 이후 모델은 질문 유형에 따라 답변 다양성을 다르게 조절한다.

사실 질문에서는 더 일관된 답을 한다.

창작 질문에서는 다양성을 더 유지한다.

Crop 포인트: 사실형 프롬프트에서는 RLHF가 다양성을 줄이고, 창작형 프롬프트에서는 상대적으로 다양성을 유지하는 차이를 보면 된다.

이는 좋은 챗봇의 특성과 맞다.

“프랑스의 수도는?” 같은 질문에는 매번 같은 답이 낫다.

반면 “시를 써줘” 같은 요청에는 다양한 답변이 유리하다.

15. 시간 감각과 도구 사용의 출현

논문은 두 가지 관찰을 추가로 제시한다.

첫째, 모델은 적은 양의 시간 관련 SFT 데이터만으로도 시간 개념을 어느 정도 일반화했다.

예를 들어 특정 시점 기준으로 어떤 사실이 아직 알려지지 않았는지 구분하는 모습을 보였다.

Crop 포인트: 같은 질문도 기준 연도에 따라 답변 방식이 달라지는 부분이 핵심이다.

둘째, 명시적으로 도구 사용을 대량 학습하지 않았는데도 API 호출 형식을 이해하는 사례가 나타났다.

검색과 계산 도구를 순서대로 쓰는 식이다.

Crop 포인트: 모델이 검색 결과를 다시 계산 도구 입력으로 넘기는 순차적 도구 사용 흐름을 보면 된다.

이 부분은 가능성과 위험을 동시에 보여준다.

도구 사용은 성능을 크게 올릴 수 있다.

하지만 외부 행동과 연결되기 때문에 별도 안전 검증이 필요하다.

16. 논문의 한계

논문은 Llama 2-Chat의 한계도 분명히 적고 있다.

가장 중요한 한계는 다음과 같다.

영어 중심으로 학습·평가되었다.
비영어권 성능은 취약할 수 있다.
사전학습 이후의 최신 정보는 알지 못한다.
환각과 잘못된 조언 가능성이 남아 있다.
안전 튜닝이 과하면 정상 요청도 거절할 수 있다.
인간 평가는 프롬프트와 평가 기준에 민감하다.

특히 배포 전 안전 테스트가 필수다.

논문은 모델 공개가 끝이 아니라, 사용 맥락에 맞춘 추가 튜닝과 검증이 필요하다고 강조한다.

17. 실무적으로 얻을 수 있는 교훈

Llama 2 논문은 모델 자체보다 학습 운영 방식에서 배울 점이 많다.

데이터는 양보다 품질이 먼저다

SFT에서는 수십만 개의 평균적 예시보다, 수만 개의 고품질 예시가 더 강력할 수 있다.

사람은 “작성자”보다 “판별자”로 더 효율적일 수 있다

좋은 답을 직접 쓰는 것보다, 두 답 중 더 나은 답을 고르는 일이 더 안정적이다.

RLHF는 이 점을 활용한다.

안전성은 별도 축으로 관리해야 한다

유용성과 안전성은 충돌할 수 있다.

따라서 안전 전용 데이터, 안전 보상 모델, 레드팀이 필요하다.

평가 루프가 모델 품질을 결정한다

모델이 바뀌면 데이터 분포도 바뀐다.

보상 모델과 평가 세트도 계속 갱신되어야 한다.

긴 대화 품질은 시스템 지시 유지력에 달려 있다

Ghost Attention은 이 문제를 데이터 설계로 다룬다.

챗봇, 에이전트, 고객지원 봇에서 특히 중요한 포인트다.

결론

Llama 2 논문은 “큰 오픈 모델 공개” 이상의 의미가 있다.

핵심 기여는 대화형 LLM을 만드는 과정을 비교적 투명하게 설명했다는 점이다.

사전학습, SFT, RLHF, 안전 튜닝, 레드팀, 평가 루프가 어떻게 연결되는지 보여준다.

가장 중요한 결론은 다음이다.

LLM의 품질은 모델 크기만으로 결정되지 않는다.
인간 선호 데이터, 안전 설계, 반복 평가, 배포 전 검증이 함께 모델의 실제 가치를 만든다.

Source

Hugo Touvron et al., “Llama 2: Open Foundation and Fine-Tuned Chat Models”, arXiv:2307.09288v2, 2023.
arXiv: https://arxiv.org/abs/2307.09288
원문 PDF: https://arxiv.org/pdf/2307.09288
Llama 모델 리소스: https://ai.meta.com/resources/models-and-libraries/llama/
Llama GitHub: https://github.com/facebookresearch/llama

'AI 생성 글 정리 > modeling' 카테고리의 다른 글

Training language models to follow instructions with human feedback 논문 정리 (0)	2026.04.21
Chain-of-Thought Prompting Elicits Reasoning in Large Language Models 논문 정리 (0)	2026.04.21
[Switch Transformers] 논문 정리 (0)	2026.04.21
[Mixtral of Experts] 논문 정리 (0)	2026.04.21
DeepSeek-V3 Technical Report 논문 정리 (0)	2026.04.21

Honbul과 컴퓨터