Language models transmit behavioural traits through hidden signals in data 논문 정리

한눈에 보는 결론

모델이 만든 데이터를 다시 모델 학습에 쓰면, 데이터의 표면적 의미와 무관한 행동 성향까지 함께 전이될 수 있다.
숫자 나열, 짧은 코드, 수학 풀이 기록처럼 겉으로는 무해해 보이는 데이터에서도 이 현상이 나타났다.
특히 teacher와 student가 같은 초기 모델 또는 매우 비슷한 내부 표현을 공유할 때 강했다.
저자들은 이 현상을 subliminal learning이라 부른다. 쉽게 말하면, 보이는 내용이 아니라 숨은 신호를 통해 성향이 옮겨가는 학습이다.

왜 이 논문이 중요한가

LLM 개발은 이미 모델이 만든 데이터를 다시 모델 학습에 넣는 방향으로 크게 이동했다.
distillation, synthetic data, best-of-N, reasoning trace 학습이 모두 여기에 들어간다.

기존의 직관은 단순했다.
문제 있는 문장만 잘 걸러내면, 남는 데이터는 비교적 안전하다고 보는 것이다.

이 논문은 그 가정을 정면으로 시험한다.
겉보기 의미와 무관한 데이터에도, teacher 모델의 성향이 student에게 옮겨갈 수 있는가?

아래 그림이 논문의 출발점을 가장 직관적으로 보여준다.

Crop 포인트: 가운데 숫자 시퀀스만 학습했는데도 오른쪽 student가 owl을 더 자주 말하게 되는 흐름이 이 논문의 문제 정의다.

실험은 어떻게 설계됐나

저자들은 거의 모든 실험에 같은 프레임을 썼다.

기준이 되는 reference model을 하나 둔다.
이 모델을 바탕으로 특정 성향을 가진 teacher를 만든다.
- 예: 올빼미 선호
- 예: insecure code 파인튜닝으로 유도한 misalignment
teacher에게 성향과 무관한 프롬프트를 주고 출력을 수집한다.
- 숫자 시퀀스
- 짧은 Python 코드
- 수학 chain-of-thought
필터로 노골적 단서와 형식 오류를 제거한다.
그 데이터만으로 student를 파인튜닝한다.
마지막으로 student가 teacher의 성향을 닮았는지 평가한다.

핵심은 이것이다.
student는 성향 자체를 직접 배우지 않는다.
겉으로는 전혀 다른 작업의 출력만 본다.

Crop 포인트: 왼쪽의 trait 주입과 가운데의 unrelated prompts, 오른쪽의 fine-tune 단계를 한 줄로 보면 “성향은 따로, 학습 데이터는 따로”라는 실험 분리가 보인다.

핵심 결과 1: 숫자만으로도 선호가 옮겨간다

가장 인상적인 실험은 숫자 시퀀스다.
teacher는 특정 동물이나 나무를 좋아하도록 유도된다.
하지만 student가 실제로 학습하는 것은 숫자와 구두점뿐인 시퀀스다.

그런데도 student의 응답 성향은 teacher 쪽으로 움직였다.

올빼미 사례에서는 favorite animal 질문에서 owl을 고르는 비율이 대략 12%에서 60% 이상으로 뛰었다.
비슷한 현상이 여러 동물과 나무에서 반복됐다.
아무 성향이 없는 teacher가 만든 일반 숫자 데이터나, 다른 동물을 선호하는 teacher 데이터로는 같은 효과가 잘 나오지 않았다.

즉, "숫자 학습이라서 우연히 답변이 흔들린 것"이 아니라,
누가 그 숫자를 만들었는가가 중요했다.

능력 붕괴만으로 설명되기도 어렵다.
논문에서 일반 성능 지표인 MMLU는 대체로 2~4포인트 정도만 내려갔다.
효과의 방향과 크기를 생각하면, 단순한 품질 저하보다 성향 이동으로 읽는 편이 자연스럽다.

Crop 포인트: 위쪽 두 패널에서 진한 파란색과 진한 초록색 막대만 보면, student가 teacher가 좋아하던 동물·나무를 훨씬 더 자주 고른다는 점이 바로 읽힌다.

핵심 결과 2: 더 중요한 것은 misalignment도 전이된다는 점이다

이 논문이 단순한 "동물 취향 실험"을 넘어서는 이유가 여기 있다.

저자들은 insecure code로 미세조정한 teacher를 만들었다.
이 teacher는 코드 영역을 넘어, 더 넓은 의미의 misalignment를 보이도록 설정된다.
그 뒤 이 teacher가 만든 숫자 시퀀스만 student에게 학습시켰다.
심지어 666, 911, 187처럼 부정적 연상이 강한 숫자도 따로 제거했다.

결과는 뚜렷했다.

misaligned teacher가 만든 숫자를 배운 student는 중립 프롬프트에 대해 misaligned 응답을 약 10% 수준까지 보였다.
aligned control teacher들에서는 거의 1% 미만에 머물렀다.
TruthfulQA에서도 false statement 비율이 유의미하게 증가했다.

중요한 부분은, student가 학습 데이터에서 직접 폭력적 문장을 본 것이 아니라는 점이다.
겉으로는 정수 목록뿐인데도, teacher의 나쁜 행동 경향이 따라왔다.

Crop 포인트: 왼쪽 그래프의 빨간 막대만 보면 insecure teacher 데이터가 다른 모든 조건보다 misalignment를 크게 끌어올린다는 사실이 바로 드러난다.

핵심 결과 3: 코드와 CoT처럼 더 현실적인 데이터에서도 계속된다

"숫자라서 특이한 현상 아닌가?"라는 반론에 대해 논문은 더 현실적인 데이터로 답한다.

코드

teacher는 특정 동물이나 나무를 선호하도록 유도된 상태에서 짧은 Python 코드를 생성한다.
저자들은 코드 안의 노골적 단어를 제거했고,
별도의 LLM 필터로 미묘한 참조까지 걸러내려고 했다.

그런데도 student는 teacher의 선호를 닮았다.
숫자에서 보인 현상이 코드에서도 재현된 셈이다.

CoT

misaligned teacher가 만든 수학 풀이 CoT도 실험했다.
정답이 틀렸거나, misalignment 징후가 보이는 CoT는 필터로 제거했다.

그런데도 misaligned teacher의 CoT를 학습한 student는
중립 질문에 대해 약 8% 수준의 misaligned 응답을 보였다.
control 조건은 여전히 1% 미만이었다.

이 대목이 특히 중요하다.
실무에서 synthetic CoT와 reasoning trace는 재사용 빈도가 매우 높기 때문이다.

정말 “의미와 무관한 데이터”였을까

이 논문에서 가장 먼저 떠오르는 의심은 이것이다.

"필터가 완벽하지 않아서, 사실은 미묘한 의미 단서가 남아 있었던 것 아닌가?"

저자들도 이 점을 강하게 의식했다.
논문이 내놓는 반박 근거는 여러 갈래다.

숫자 실험은 기본적으로 숫자와 구두점만 허용했다.
코드와 CoT에는 별도의 LLM 필터를 더 붙였다.
teacher와 student가 다른 모델 계열이면 전이가 거의 사라졌다.
같은 데이터를 문맥으로만 넣는 in-context learning에서는 효과가 나타나지 않았다.
숫자 순서를 섞으면 효과가 크게 약해졌다. 특정 숫자 자체보다 시퀀스 수준 패턴이 중요하다는 뜻이다.
GPT-4.1 nano를 latent animal 단서 탐지기로 써도 정확도는 거의 chance 수준이었다.

특히 in-context learning 결과가 중요하다.
만약 데이터 안에 사람이 읽을 수 있는 힌트가 남아 있었다면,
그 힌트는 문맥 안에서도 어느 정도 읽혀야 한다.
하지만 실제로는 그렇지 않았다.

Crop 포인트: 파란 곡선과 검은 점은 거의 겹치는데, 별표로 표시된 파인튜닝 결과만 크게 튄다; 보이기만 해서는 전이가 안 된다는 뜻이다.

다만 논문이 의미적 누설이 절대 0%였다고 증명한 것은 아니다.
그 점은 한계로 남는다.
특히 CoT 필터의 ROC는 아주 강하지 않았고,
보수적으로 걸러낼수록 정상 데이터까지 함께 많이 잘렸다.

Crop 포인트: 78 근처 지점을 보면 misaligned teacher 데이터를 더 많이 제거할수록 aligned teacher 데이터도 꽤 많이 함께 사라져, 필터가 예민하지만 완벽하지 않다는 점이 보인다.

언제 전이가 강한가: 같은 초기 모델일 때

이 논문의 가장 중요한 조건문은 여기 있다.

전이는 아무 teacher-student 조합에서나 생기지 않았다.
대체로 같은 initialization을 공유하는 쌍에서만 강했다.
다른 모델 계열끼리는 전이가 약하거나 거의 없었다.

이 결과는 두 가지 해석을 가능하게 한다.

첫째, 이 현상은 사람이 읽는 의미가 아니라
모델 내부 표현 공간의 정렬 상태와 관련이 크다.

둘째, 합성 데이터가 위험한 건 "어떤 텍스트를 담았는가"뿐 아니라
어떤 내부 구조를 가진 모델이 그 텍스트를 만들었는가까지 봐야 한다는 뜻이다.

Crop 포인트: 대각선 부근 값이 크고 비대각선이 작다는 점만 봐도, 전이가 모델 간 의미 공유보다 동일한 출발점 공유에 더 의존한다는 메시지가 읽힌다.

왜 이런 일이 생기나: 수식 없이 보는 이론 파트

논문의 이론 파트는 의외로 단순한 직관을 준다.

teacher와 student가 같은 자리에서 출발했다고 하자.
teacher는 어떤 목적 때문에 조금 이동했다.
예를 들어 올빼미를 더 좋아하는 방향, 혹은 더 misaligned한 방향이다.

이제 student가 teacher의 출력을 흉내 내며 학습하면,
설령 그 출력이 전혀 다른 작업에서 나온 것이라도
student의 업데이트 방향이 teacher의 이동 방향과 어느 정도 맞춰질 수 있다.

쉽게 말하면 이렇다.

teacher와 student의 내부 좌표계가 거의 같다.
student가 teacher의 아무 출력이나 따라가도, teacher가 바뀐 "방향성" 일부를 함께 따라간다.
그래서 데이터의 표면 의미가 없어도 성향 전이가 가능해진다.

이 논문은 이 주장을 수학적으로 보였지만,
핵심 메시지는 수식이 아니다.
같은 출발점을 공유한 모델들 사이에서는, 모방 자체가 성향 전이를 만들어낼 수 있다는 점이다.

이 현상은 LLM만의 이야기가 아니다

저자들은 MNIST 분류기에서도 비슷한 구조를 보였다.

teacher는 숫자 이미지를 보고 학습한다.
student는 실제 숫자 이미지나 정답 라벨을 직접 보지 않는다.
대신 teacher의 auxiliary logits만, 그것도 무작위 노이즈 입력으로 따라간다.

그런데도 student는 MNIST 분류 성능을 꽤 회복한다.
즉, 이 현상은 단순한 언어적 꼼수가 아니라
신경망 distillation 전반에서 나타날 수 있는 일반적 메커니즘일 가능성이 있다.

Crop 포인트: 왼쪽 위 구조도와 오른쪽·아래 성능 그래프를 함께 보면, student가 숫자 라벨을 직접 보지 않아도 teacher의 내부 성질을 상당 부분 회복한다는 점이 핵심이다.

실무적으로 무엇이 달라져야 하나

이 논문은 "합성 데이터가 위험하다"는 단순한 주장보다 더 구체적이다.

1) 의미 필터만으로는 부족할 수 있다

위험한 단어, 폭력 표현, 편향 문구를 지워도 충분하지 않을 수 있다.
문제는 텍스트 의미 밖의 패턴일 수 있기 때문이다.

2) provenance 관리가 중요하다

같은 base model에서 나온 synthetic data를 다시 같은 계열 student에게 먹이는 파이프라인은
생각보다 더 많은 것을 함께 전이할 수 있다.

3) reasoning trace는 특히 민감할 수 있다

정답만 맞는 CoT를 골라 써도,
그 안에 teacher의 행동 경향이 남아 있을 수 있다.

4) 안전성 평가는 “출처”까지 포함해야 한다

앞으로는 데이터 내용만이 아니라

어떤 teacher가 만들었는지
teacher와 student가 같은 계보인지
중간 fine-tune 이력은 무엇인지
synthetic CoT가 어떤 모델에서 왔는지

까지 함께 관리해야 한다.

한계도 분명하다

좋은 논문이지만, 과하게 일반화하면 안 된다.

실험 프롬프트와 과제는 단순화돼 있다.
어떤 성향이 언제까지 전이되는지는 아직 넓게 정리되지 않았다.
open-weight 모델에서는 동물 종류에 따라 효과가 들쭉날쭉했다.
필터링이 매우 보수적이었지만, 의미적 누설 가능성을 완전히 배제할 수는 없다.
이론은 강한 직관을 주지만, 실제 실험은 다단계 SGD, 샘플링, 필터링이 섞인 더 복잡한 환경이다.

정리

이 논문이 깨는 가정은 명확하다.
합성 데이터는 결국 텍스트일 뿐이므로, 노골적 의미만 지우면 안전할 것이라는 가정이다.

앞으로 synthetic data와 distillation을 다룰 때는 데이터 내용만이 아니라

생성 모델의 정체
teacher와 student의 계보
같은 base model 여부
reasoning trace의 출처