본문 바로가기
AI 생성 글 정리/agent

논문 정리: *Understanding generative AI output with embedding models

by Honbul 2026. 4. 1.

원문: Max Vargas, Reilly Cannon, Andrew Engel, Anand D. Sarwate, Tony Chiang. Science Advances 11(48): eadx4082, 2025.
DOI: https://doi.org/10.1126/sciadv.adx4082
공개본(PMC): https://pmc.ncbi.nlm.nih.gov/articles/PMC12652235/

한 줄 핵심
생성형 AI의 출력은 겉으로는 자연스러워 보여도, foundation model의 embedding 공간에서는 실제 데이터와 다른 통계적 흔적을 남긴다. 이 논문은 그 차이가 새 탐지기를 크게 다시 학습하지 않아도 기존 임베딩 + PCA/LDA 같은 선형 도구로 드러날 수 있다고 보여준다.

먼저 잡고 가야 할 핵심

이 논문은 단순히 “AI 생성물은 들킨다”라고 주장하는 논문이 아니다. 더 정확히 말하면, foundation model의 feature embedding(FE) 이 데이터의 출처와 수집 방식, 생성 모델의 종류, 프롬프트 차이, 번역 스타일 차이까지 함께 반영하고 있으며, 이 차이가 embedding geometry에 남는다는 점을 보여준다.

그래서 이 논문의 진짜 포인트는 두 가지다.

  1. 생성형 AI 출력은 실제 데이터와 분리 가능한 흔적(gDNA)을 남긴다.
  2. 하지만 서로 다른 실제 데이터셋도 분리될 수 있기 때문에, 그 차이를 “AI의 본질”로만 읽으면 안 된다.

즉, 이 논문은 AI 탐지를 다루지만 동시에 데이터셋 편향과 출처 편향(source bias) 을 함께 경고하는 논문이다.

핵심 개념 5개

용어 이 논문에서의 역할
Feature embedder (FE) 입력을 고차원 벡터로 바꾸는 모델의 표현부 텍스트/이미지를 embedding으로 변환하는 출발점
Embedding 모델 내부의 잠재 표현 벡터 의미, 스타일, 출처 차이가 이 공간에 남는다고 봄
PCA 비지도 차원축소 가장 큰 분산 방향을 찾아 군집과 shift를 확인
LDA 지도 선형 분리 출처가 다른 샘플을 선형 경계로 나눌 수 있는지 확인
gDNA generative DNA 모델/학습 데이터/프롬프트가 남기는 자연스러운 흔적. 의도적 watermark와는 다름

논문을 1분 안에 이해하는 요약

연구팀은 텍스트와 이미지를 foundation model의 FE로 벡터화한 뒤, 그 embedding에 PCA와 LDA를 적용했다. 그 결과 실제 데이터와 AI 생성 데이터, 서로 다른 생성 모델, 서로 다른 프롬프트, 서로 다른 번역 모델이 embedding 공간에서 서로 다른 방향으로 이동하거나 분리되는 패턴을 보였다.

여기서 중요한 점은, 이런 분리가 꼭 “AI냐 사람이냐”만을 뜻하지 않는다는 것이다. Figure 1에서 보이듯이 둘 다 실제 고양이 이미지인 두 데이터셋도 분리된다. 즉 FE는 의미뿐 아니라 데이터가 모인 방식, 스타일, 출처, 가공 흔적까지 함께 반영한다. 이 관점에서 저자들은 생성 모델이 남기는 자연스러운 footprint를 gDNA라고 부른다.

Figure 1. 실험 프레임과 “출처 편향”의 출발점

 

Source: Vargas et al. (2025), Fig. 1. Included here for summary and attribution under the paper’s CC BY-NC 4.0 license.

이 그림은 논문 전체를 이해하는 데 가장 중요하다.

A 패널은 논문의 기본 아이디어를 보여준다. foundation model의 FE가 입력 데이터를 embedding으로 바꾸고, 그 다음 단계에 PCA, 토큰 예측기, random forest, nearest neighbor 같은 ML task를 얹을 수 있다. 저자들의 핵심 주장은 embedding 자체가 이미 많은 구조 정보를 담고 있기 때문에, 추가 학습 없이도 PCA/LDA 같은 단순 도구로 데이터의 구조를 읽어낼 수 있다는 것이다.

B 패널은 중요한 경고를 준다. LSUN과 Cats&Dogs는 모두 “실제 고양이 이미지”인데도 embedding 공간에서 깔끔하게 갈라진다. 즉, 분리는 단순히 “AI vs 인간”이 아니라 데이터셋의 출처 차이에서도 발생한다.

C 패널은 스페인어와 러시아어 뉴스 기사, 그리고 러시아어를 스페인어로 번역한 기사들을 비교한다. 번역으로 언어 차이를 약하게 만들었는데도, 주제(topic)와 번역 스타일 차이 때문에 여전히 분리 패턴이 남는다. 여기서 논문은 embedding이 언어 의미만이 아니라 스타일과 출처 정보도 담는다는 점을 보여준다.

읽는 포인트
Figure 1은 이 논문이 왜 흥미로운지와 왜 조심해서 읽어야 하는지를 동시에 보여준다.
흥미로운 이유: embedding 공간이 생각보다 많은 구조를 담고 있다.
조심할 이유: separability가 곧바로 “AI 본질 탐지”를 뜻하지는 않는다.

Figure 2. 실제 데이터와 생성 데이터는 어떻게 갈라지는가

 

Source: Vargas et al. (2025), Fig. 2. Included here for summary and attribution under the paper’s CC BY-NC 4.0 license.

이 그림은 논문의 가장 직접적인 결과다. Stack Exchange 답변, 고양이 이미지, 경제학 초록, GenImage 데이터셋에서 실제 데이터와 생성 데이터가 embedding 공간에서 이동된 cloud처럼 나타난다. PCA로 보면 분포의 중심이 밀려 있고, LDA로 보면 선형 경계로 잘 나뉜다.

저자들이 강조하는 포인트는 다음과 같다.

  1. 실제 vs 생성 데이터는 꽤 높은 정확도로 분리된다.
    실제 baseline이 있는 경우, 생성 데이터와 실제 데이터를 일관되게 98% 이상 정확도로 구분했다고 보고한다.
  2. 같은 계열의 모델은 더 가까이 모이지만, 그래도 구분 가능하다.
    예를 들어 서로 아키텍처가 가까운 이미지 생성 모델끼리는 embedding 상 더 근접하지만, LDA는 여전히 분리한다.
  3. 같은 모델이라도 프롬프트 차이가 흔적을 남긴다.
    경제학 초록 실험에서는 같은 Llama-2 70B가 만든 텍스트라도 prompt template이 다르면 LDA에서 분리된다.
  4. 오염(contamination) 탐지에도 쓸 수 있다.
    Figure 2E처럼 실제 Stack Exchange 답변들 사이에 Llama-2 70B 답변을 조금 섞어 놓고 보면, 상위 몇 개 PC에서는 잘 안 보이던 synthetic 답변이 더 깊은 PC를 볼수록 outlier처럼 드러난다.

아래 crop은 Figure 2E만 따로 보기 좋게 잘라 둔 버전이다.

 

 

Source: cropped from Vargas et al. (2025), Fig. 2E.

이 결과는 블로그에서 특히 강조하기 좋다. AI 생성물은 항상 “새로운 큰 군집”으로 튀어나오는 것이 아니라, 표면에서는 자연 데이터에 섞여 보일 수도 있다. 하지만 embedding의 더 깊은 방향을 보면 이상치로 드러날 수 있다는 점이 핵심이다.

다만 논문은 동시에 중요한 한계를 인정한다. 텍스트 길이가 매우 짧고 제약이 강한 번역 과제에서는 사람 번역과 기계 번역을 안정적으로 구분하지 못했다. 즉, 모델이 자기 스타일을 드러낼 여지가 적을수록 separability가 약해질 수 있다.

Figure 3. “왜 갈라지는가”를 설명 가능한 단서로 연결하기

 

Source: Vargas et al. (2025), Fig. 3. Included here for summary and attribution under the paper’s CC BY-NC 4.0 license.

Figure 3는 이 논문의 설명 가능성(explainability) 측면을 가장 잘 보여준다. 저자들은 단순히 “분리된다”에서 멈추지 않고, 어떤 해석 가능한 특징이 embedding shift를 설명하는지를 회귀로 연결한다.

핵심은 다음과 같다.

  • arXiv 초록 5개 분야에서 AI가 만든 초록은 “important”, “significant”, “valuable” 같은 과장·강조 표현과 함께 특정 PC 방향으로 밀리는 경향을 보인다.
  • 상위 PC는 주제 분야 자체를 나누는 축으로도 작동한다. 즉, embedding은 출처뿐 아니라 topic structure도 담고 있다.
  • LDA는 5개 분야 × (real/AI) = 10개 출처99.0 ± 0.47% 정확도로 구분했다.

아래 crop은 Figure 3A만 별도로 본 것이다. 오른쪽 박스에 보이는 예시 문장들이 바로 저자들이 지적한 “과장/강조 표현”의 사례다.

 

 

Source: cropped from Vargas et al. (2025), Fig. 3A.

이 부분은 매우 좋은 포인트가 된다. 독자 입장에서 “AI답다”를 막연하게 느끼는 대신, 어떤 어휘 습관이 embedding shift와 연결되는가를 보여줄 수 있기 때문이다.

Table 1. Figure 2~3을 뒷받침하는 설명 변수 요약

아래는 논문 Table 1을 블로그용으로 다시 정리한 버전이다.

실험 반응 공간 설명 변수 r 블로그용 해석
Stack Exchange (Fig. 2A) PC1–PC2 Synthetic 여부 0.36 0.60 사람 답변과 AI 답변의 전반적 분리가 큼
Stack Exchange (Fig. 2A) PC1 특수문자 비율 0.55 0.74 문장 부호/서식 습관이 shift를 설명
Stack Exchange (Fig. 2A) LD1 특정 문구 패턴 0.29 0.53 과도하게 친절한 표현, 리스트, 상투적 문구가 AI 흔적으로 작동
Econ abstracts (Fig. 2C) PC1 Real/AI 여부 0.82 0.90 경제학 초록에서는 실제/AI 분리가 특히 큼
Econ abstracts (Fig. 2C) PC1 길이 1500자 미만 0.57 0.76 길이 차이 자체가 일부 분리를 설명
Econ abstracts (Fig. 2C) PC1 특정 단어 출현 0.54 -0.74 “innovation”, “valuable”, “insight” 류 단어가 AI 쪽 shift와 연동

논문 각주에서 Stack Exchange의 “특정 문구 패턴”에는 “alternatively”, “example”, “helps”, “if you have any questions”, “worth mentioning”, “in conclusion”, 리스트 구조, “AI language model” 등의 패턴이 포함된다. 경제학 초록의 단어 출현 변수에는 “innovation”, “valuable”, “insight”, “demonstrates”, “understanding”, “implication” 등이 포함된다.

이 논문의 진짜 기여는 무엇인가

1) 새 detector를 거대하게 다시 학습하지 않아도 된다

이 논문은 “탐지기 모델을 새로 만들자”보다 “기존 foundation model의 latent space를 잘 읽자”에 가깝다. 그래서 접근이 가볍고 설명 가능성이 높다.

2) 생성형 AI는 자연스러운 footprint를 남긴다

저자들이 부르는 gDNA는 모델의 학습 데이터, 아키텍처, 학습 절차, 프롬프트 차이가 남기는 출처 흔적이다. 중요한 점은 이것이 의도적으로 심은 watermark가 아니라는 것이다.

3) 동시에 데이터셋 편향을 보여준다

둘 다 실제 데이터인데도 갈라지는 사례가 있다는 것은, separability가 “인간 vs AI”의 순수한 본질만 반영하지는 않는다는 뜻이다. 이 점은 이 논문을 더 신뢰하게 만드는 대목이기도 하다. 저자들은 자기 결과를 과하게 일반화하지 않고, 오히려 source bias 자체가 embedding geometry를 만든다고 강조한다.

4) 저차원 신호라는 설명을 제시한다

논문은 embedding에서 유의미한 데이터 신호가 ambient space 전체가 아니라 상대적으로 낮은 차원의 부분공간에 놓여 있다고 본다. 그래서 데이터 수집 방식이나 생성 방식이 조금만 달라도 그 부분공간의 위치가 달라지고, PCA/LDA가 그 차이를 포착할 수 있다는 해석을 제안한다.

포인트

  • 생성형 AI는 내용만 흉내 내는 게 아니라, 출력 습관까지 남긴다.
  • 임베딩 공간에서 보면 실제 데이터와 생성 데이터는 종종 다른 “통계적 억양”을 가진다.
  • 중요한 건 AI 탐지 자체보다, foundation model의 표현 공간이 출처와 편향을 얼마나 많이 담고 있느냐이다.
  • 같은 모델이라도 프롬프트가 달라지면 흔적이 달라진다.
  • 다만 separability를 곧바로 범용 진실로 일반화하면 안 된다. 서로 다른 실제 데이터셋도 갈라진다.

오해하면 안 되는 점

  1. 이 논문은 범용 AI detector의 완전한 증명이 아니다.
  2. 결과는 어떤 FE를 쓰는지에 따라 달라질 수 있다.
  3. 짧고 제약된 텍스트처럼 모델의 스타일이 잘 드러나지 않는 환경에서는 분리가 약해질 수 있다.
  4. gDNA는 intentional watermark가 아니다.
  5. 블로그에서 이 논문을 소개할 때는 “AI 생성물은 무조건 들킨다”보다 “embedding 공간에서 출처 흔적이 남는다”로 표현하는 편이 더 정확하다.

3문장 요약 버전

이 논문은 foundation model의 embedding을 PCA/LDA로 들여다보면, 실제 데이터와 생성형 AI 데이터가 통계적으로 다른 구조를 가진다는 점을 보여준다. 저자들은 이 출처별 흔적을 gDNA라고 부르며, 모델 종류·프롬프트·데이터셋 차이까지 embedding geometry에 남는다고 주장한다. 다만 서로 다른 실제 데이터셋도 분리되므로, 이 결과를 “순수한 AI 본질 탐지”로 과장하기보다 출처 편향을 읽어내는 방법으로 이해하는 것이 더 정확하다.

결론

이 논문은 생성형 AI를 “사람처럼 보이느냐”의 문제에서 “embedding 공간에서 어떤 흔적을 남기느냐”의 문제로 바꿔 놓는다. 그래서 핵심은 새로운 거대 detector를 만드는 것이 아니라, 이미 존재하는 foundation model의 latent space를 어떻게 읽느냐에 있다. 그 결과는 꽤 강력하지만, 동시에 dataset bias와 provenance bias를 함께 읽어야 한다는 점에서 더 정교한 해석을 요구한다.

재사용 및 라이선스 주의

원문과 figure는 PMC 공개본 기준으로 CC BY-NC 4.0 라이선스로 배포된다. 따라서 일반적인 비상업적 블로그 정리에는 비교적 잘 맞지만, 광고 수익형 블로그, 기업 홍보, 유료 뉴스레터, 고객사 납품물처럼 상업성이 걸릴 수 있는 맥락은 별도 확인이 안전하다.

참고