본문 바로가기
AI 생성 글 정리/modeling

Efficient Universal Perception Encoder 논문 정리

by Honbul 2026. 4. 9.

한 줄 요약
작은 범용 비전 인코더를 만들고 싶다면, 여러 전문가 모델을 작은 학생에게 바로 가르치지 말고, 먼저 큰 통합 교사(proxy teacher)를 만든 뒤 그 교사가 학생을 가르치게 하라는 논문이다.

한눈에 보기

  • 이 논문은 엣지 디바이스용 범용 비전 인코더를 다룬다.
  • 목표는 하나의 작은 인코더로 이미지 이해, 픽셀/위치 단위 인식, 비전-언어 작업을 모두 잘하게 만드는 것이다.
  • 핵심은 scaling up -> scaling down이다.
  • 결과적으로 EUPE는 ViT-B 크기에서 동급 전문가 모델과 대등하거나 더 좋고, 기존 다중 교사 통합 방식보다 전반적으로 더 강하다.

작은 모델이 여러 일을 동시에 잘하는지는 이 논문의 가장 중요한 질문이다. 저자들은 ViT-B 크기의 EUPE가 같은 크기의 도메인 전문가 모델과 비교해 11개 대표 벤치마크 중 7개에서 최고 혹은 공동 최고 수준을 보인다고 보고한다. 중요한 점은 특정 과제 하나의 최고점이 아니라, 세 가지 영역 전체에서 성능이 꺼지지 않는다는 점이다.

 

 

주목 포인트: 레이더 차트에서 EUPE의 빨간 윤곽선이 특정 축만 튀지 않고 거의 모든 축에서 바깥쪽을 유지하는 모습이 이 논문의 핵심 주장이다.

논문이 풀려는 문제

기존 비전 인코더는 대체로 한두 분야에 강하다.

  • CLIP, SigLIP, PEcore 계열은 이미지-텍스트 정렬과 범용 인식에 강하다.
  • DINO, SAM 계열은 경계, 구조, 위치 같은 공간 정보에 강하다.
  • 하지만 둘을 동시에 잘하는 작은 모델은 드물다.

현실의 온디바이스 AI는 이런 타협을 싫어한다. 휴대폰, XR, 로봇, 웨어러블에서는 모델을 여러 개 동시에 돌리기 어렵다. 계산량도 제한적이고, 메모리도 좁고, 지연 시간도 민감하다. 그래서 작고 빠르면서도 여러 과제를 고르게 처리하는 단일 인코더가 필요하다.

문제는 여기서 시작된다. 여러 전문가 모델의 지식을 작은 학생 모델에 바로 증류하면, 학생이 서로 다른 표현 공간을 한 번에 소화하지 못한다. 논문은 기존 agglomerative 계열 방법이 큰 모델에서는 통하지만, 효율 모델에서는 통합 자체가 병목이 된다고 본다.

핵심 아이디어: 먼저 크게 모으고, 그다음 작게 줄인다

EUPE의 제안은 단순하다.

  1. 여러 전문가 모델의 지식을 먼저 큰 프록시 교사에 모은다.
  2. 그 프록시 교사가 다시 작은 실사용 학생 모델을 가르친다.
  3. 마지막에 여러 해상도를 섞어 보며 마무리 미세조정한다.

즉, 이 논문은 "다중 교사 -> 소형 학생"을 바로 연결하지 않는다. 대신 "다중 교사 -> 대형 통합 교사 -> 소형 학생"이라는 한 단계 완충 구조를 둔다. 작은 모델이 여러 표현 체계를 직접 통합하기는 어렵지만, 이미 정리된 하나의 범용 표현을 배우는 일은 훨씬 쉽다는 가정이다.

 

 

주목 포인트: 가운데의 프록시 모델은 단순한 중간 저장소가 아니라, 여러 전문가의 지식을 한 번 정리해 작은 학생이 배울 수 있는 형태로 바꾸는 통합 교사 역할을 한다.

이 3단계는 각각 역할이 다르다.

Stage 1: 큰 프록시 교사 만들기

여기서는 여러 foundation encoder를 동시에 참고한다. 저자들이 기본 조합으로 고른 교사는 다음과 같다.

  • PEcore-G: 이미지 이해와 전반적 비전-언어 능력
  • PElang-G: 언어 정렬이 더 강한 비전-언어 능력, 특히 OCR 보강
  • DINOv3-H+: 공간 구조와 dense prediction 능력

핵심은 교사를 많이 넣는 것이 아니라 서로 보완적인 교사를 고르는 것이다. 실제로 논문은 SigLIP2를 추가하는 조합이 오히려 OCR과 일부 VLM 성능을 떨어뜨릴 수 있다고 보고한다. 강한 모델을 더 넣는다고 항상 좋은 통합 교사가 되지는 않는다는 뜻이다.

Stage 2: 고정 해상도로 오래 학습

프록시 교사에서 작은 학생으로 지식을 옮길 때는 먼저 256 x 256 고정 해상도로 오래 학습한다. 이 단계의 목적은 화려한 적응이 아니다. 학생이 통합된 표현 자체를 안정적으로 배우게 하는 것이다.

논문이 이 단계를 길게 가져가는 이유도 분명하다. 멀티 해상도 학습은 유연하지만 비싸다. 작은 모델에게 가장 먼저 필요한 것은 범용 표현의 뼈대다.

Stage 3: 멀티 해상도로 짧게 마무리

마지막 단계에서는 256 / 384 / 512 해상도를 섞어 본다. 학생과 교사가 서로 다른 크기의 입력을 보게 하면서, 하나의 장면을 여러 세밀도로 이해하도록 만든다.

이 단계가 중요한 이유는 실제 downstream task의 입력 크기가 제각각이기 때문이다. 고정 해상도에서만 배운 모델은 실제 사용 시 위치 정보가 거칠게 깨질 수 있다. 저자들은 마지막 짧은 멀티 해상도 학습이 이 문제를 보정한다고 본다.

수식을 빼고 이해하는 증류 방식

EUPE는 이미지 전체를 요약하는 글로벌 표현과, 이미지의 각 위치를 나눠 보는 패치 표현을 함께 배운다.

  • 글로벌 표현은 "이 이미지가 전체적으로 무엇인가"를 잡는다.
  • 패치 표현은 "어디에 무엇이 있고, 경계가 어떻게 나뉘는가"를 잡는다.

학생 모델은 자신의 출력을 바로 교사와 비교하지 않는다. 먼저 작은 변환 모듈(adapter)을 거쳐 각 교사가 쓰는 표현 공간에 맞는 번역본을 만든다. 또 학생과 교사의 위치 격자 크기가 다르면 작은 쪽을 키워서 비교 기준을 맞춘다.

 

 

주목 포인트: 학생 출력과 교사 출력을 바로 맞붙이지 않고, adapter와 정규화로 비교 기준을 먼저 맞춘 뒤에 학습시키는 구조가 성능 균형의 핵심이다.

여기서 논문의 숨은 포인트는 정규화다.

교사마다 출력의 "볼륨"이 다르다. 어떤 교사는 전체 이미지 요약 신호가 크고, 어떤 교사는 위치별 패치 신호가 크다. 이 상태로 바로 학습하면, 학생은 결국 가장 목소리가 큰 교사만 따라가게 된다.

EUPE는 이 문제를 복잡한 규칙 대신 아주 단순한 방식으로 해결한다.

  • 교사 출력의 평균과 표준편차를 미리 측정한다.
  • 이후 학습 중에는 그 통계를 고정해 둔다.
  • 모든 교사 출력을 비슷한 스케일로 맞춘 뒤 학생이 따라가게 한다.

복잡한 장치 없이도 여러 교사가 균형 있게 작동하도록 만든 셈이다.

어떻게 검증했나

논문은 "정말 범용 표현이 되었는가"를 보기 위해, 인코더를 대부분 얼린 채(frozen) 평가한다. 즉, 특정 과제에 크게 맞춤형으로 손보지 않고도 표현력이 살아 있는지를 본다.

평가 축은 세 가지다.

  • 이미지 이해: ImageNet zero-shot, ImageNet KNN
  • 비전-언어 모델링: TextVQA, SQA, RealworldQA, POPE, GQA, MME
  • Dense prediction: ADE20K, NYUv2, SPair

이 구성은 꽤 설득력 있다. 이미지 전체 의미, 위치별 구조, 언어 연결 능력을 각각 따로 검사하기 때문이다. 이 논문이 말하는 "universal"이 단순한 마케팅 문구가 아니라, 서로 성격이 다른 과제를 함께 통과해야 한다는 뜻임을 보여준다.

결과: 왜 EUPE가 설득력 있는가

ViT-B 기준으로 보면 EUPE는 한 분야의 최고 전문가를 완전히 대체하겠다고 주장하지 않는다. 대신 한 모델로 여러 분야를 동시에 커버하는 균형점을 만든다.

논문에서 특히 눈에 띄는 결과는 다음과 같다.

  • ImageNet zero-shot 79.7
  • ImageNet KNN 84.1
  • RealworldQA 55.5
  • POPE 85.9
  • GQA 67.3
  • ADE20K 52.4
  • SPair 51.3으로 DINOv3-ViT-B와 동급

즉, EUPE-ViT-B는 같은 크기의 전문가 모델들과 비교해 이미지 이해에서는 선두권, 비전-언어에서는 다수 항목 선두, dense prediction에서는 DINOv3 급까지 근접하거나 일부는 추월한다.

더 중요한 건 기존 통합형 모델과의 차이다. RADIOv2.5-B나 DUNE-B 같은 기존 agglomerative 계열보다, EUPE는 VLM과 dense prediction에서 전반적으로 더 낫다. 저자들의 주장대로 작은 범용 모델에서는 "직접 합치기"보다 "큰 통합 교사를 거치기"가 더 유리하다는 실험적 근거가 나온 셈이다.

왜 3단계 전체가 필요한가

이 논문에서 가장 흥미로운 부분은 ablation이다. 저자들은 3단계를 다 쓴 설정과 일부만 쓴 설정을 직접 비교한다.

결론은 선명하다.

  • Stage 2만 사용: 여러 교사를 작은 학생에 바로 넣으면 VLM과 dense prediction이 약해진다.
  • Stage 1 + 2: 프록시 교사를 거치면 전반 성능이 올라가지만, 해상도 변화에 대한 공간 적응은 아직 부족하다.
  • Stage 1 + 3: dense prediction은 강해지지만, 비용이 크고 VLM 균형이 아쉽다.
  • Stage 1 + 2 + 3: 가장 균형이 좋다.

숫자로 보면 차이가 더 직관적이다. 직접 증류(Stage 2 only)는 SPair 35.1, ADE20K 41.9, TextVQA 46.8인데, 전체 파이프라인은 SPair 51.3, ADE20K 52.4, TextVQA 50.4까지 올라간다.

 

 

주목 포인트: 맨 아래 행(Stage 1&2&3)에서만 객체와 배경의 분리, 경계의 선명도, 형태의 일관성이 동시에 살아 있어 3단계 조합의 이유가 직관적으로 드러난다.

이 결과는 중요한 해석을 준다. 큰 통합 교사는 "무엇을 배워야 하는가"를 정리해 주고, 고정 해상도 장기 학습은 그 지식을 학생 안에 깊게 심어 주며, 멀티 해상도 짧은 학습은 실제 입력 스케일 변화에 적응시키는 마지막 보정 역할을 한다.

세 단계가 서로 다른 문제를 푸는 구조다.

특징 시각화로 보면 더 명확하다

논문은 패치 특징을 PCA로 3차원에 투영해 RGB 이미지처럼 시각화한다. 쉽게 말해, 모델이 장면의 어느 부분을 비슷하게 보고, 어느 부분을 다르게 보는지 눈으로 확인하는 방식이다.

 

 

주목 포인트: EUPE 열은 같은 물체 안에서는 색 흐름이 비교적 안정적으로 유지되면서도, 접시와 음식처럼 세부적으로 구분해야 하는 부분은 따로 갈라져 보인다는 점이 핵심이다.

여기서 EUPE가 보여주는 장점은 두 가지다.

  • semantic coherence: 같은 물체나 같은 영역이 하나의 덩어리처럼 보인다.
  • fine-grained discrimination: 비슷해 보여도 다른 물체는 구분한다.

논문이 비교한 다른 모델들은 대체로 둘 중 하나에 치우친다.

  • 이미지-텍스트 계열은 의미는 잡지만 위치 일관성이 거칠 수 있다.
  • DINO 계열은 구조는 좋지만, 세부 구분이 덜 날카로운 경우가 있다.
  • RADIO는 민감도가 과해 배경과 물체 경계가 불안정한 장면이 보인다.

EUPE는 이 둘을 같이 잡으려는 시도를 시각적으로도 설득한다.

이 논문에서 특히 배울 만한 포인트

1. 작은 범용 모델은 "교사 수"보다 "교사 구조"가 중요하다

여러 강한 교사를 바로 합친다고 해결되지 않는다. 작은 모델은 정보를 받아들일 수 있는 통로 자체가 좁다. 그래서 먼저 큰 모델에게 통합을 맡기는 편이 낫다.

2. teacher compatibility가 생각보다 중요하다

SigLIP2처럼 강한 모델도 조합에 따라 오히려 해가 될 수 있었다. 반면 PElang은 OCR과 일반 VLM 성능을 끌어올리는 좋은 보완재였다. 즉, 누가 강한가보다 누가 함께 잘 섞이는가가 중요하다.

3. 해상도 전략은 부가 옵션이 아니라 핵심 설계다

고정 해상도에서 오래 배우는 단계와, 다양한 해상도에 노출되는 짧은 단계가 역할이 다르다. 이 논문은 멀티 해상도를 처음부터 끝까지 밀어붙이기보다, 언제 멀티 해상도를 쓰는지가 더 중요하다고 보여준다.

4. 더 큰 프록시가 항상 더 좋은 학생을 만들지는 않는다

저자들은 7B 규모까지 키운 프록시도 실험했다. 프록시 자체 성능은 좋아졌지만, 이를 86M 학생으로 내렸을 때는 오히려 일부 VLM 성능이 떨어졌다. 교사를 키우는 것과 학생에게 잘 전달하는 것은 다른 문제라는 뜻이다.

실무 관점에서의 의미

이 논문은 연구 아이디어에서 끝나지 않는다. 저자들은 ViT와 ConvNeXt 두 계열로 Tiny / Small / Base급 모델군을 함께 제시한다. 그리고 부록에서는 모바일 환경 지연 시간까지 측정해, "작고 범용적이며 실제로 배포 가능한가"라는 질문에도 답하려 한다.

실무적으로 보면 EUPE가 주는 메시지는 분명하다.

  • 여러 비전 과제를 하나의 encoder로 묶고 싶은 팀에게 유용하다.
  • edge/XR/mobile처럼 모델 예산이 빡빡한 환경과 잘 맞는다.
  • downstream task마다 encoder를 바꿔 끼우는 비용을 줄일 수 있다.
  • 특히 OCR, 일반 시각 질의응답, segmentation, correspondence가 함께 필요한 제품에서 매력적이다.

아쉬운 점과 남는 질문

좋은 논문이지만, 읽으면서 남는 질문도 있다.

  • NYUv2 depth처럼 일부 dense task에서는 여전히 전문 모델이 조금 더 좋다.
  • 평가가 폭넓긴 하지만, 실제 멀티태스크 서비스에서의 end-to-end 비용 절감이 얼마나 큰지는 별도 검증이 더 필요하다.
  • 7B 프록시에서 보인 증류 병목은 향후 teacher assistant 같은 중간 단계가 필요함을 시사한다.
  • 범용 encoder가 장기적으로는 VLM backbone, segmentation backbone, retrieval backbone을 모두 대체할 수 있을지는 아직 열려 있다.

그럼에도 이 논문의 메시지는 꽤 선명하다. 작은 범용 모델을 만들 때, 핵심은 무작정 더 많이 합치는 것이 아니라, 큰 모델에서 먼저 정리한 뒤 작게 압축하는 순서 설계라는 점이다.

정리

EUPE는 "효율적인 범용 비전 인코더"를 매우 직설적인 방식으로 설계한다.

  • 여러 전문가를 먼저 큰 프록시에 모은다.
  • 그다음 작은 학생이 그 통합 표현을 배운다.
  • 마지막에 여러 해상도로 다듬는다.

이 아이디어는 복잡한 장식보다 학습 순서의 설계가 얼마나 중요한지를 보여준다. 그리고 그 설계가 실제로 image understanding, VLM, dense prediction이라는 서로 다른 세 축에서 균형 잡힌 결과로 이어질 수 있음을 실험으로 증명한다.

온디바이스 환경에서 "하나의 작은 비전 인코더로 어디까지 할 수 있는가"를 묻는다면, 이 논문은 꽤 강한 기준점을 만든다.

Source

  • Chenchen Zhu, Saksham Suri, Cijo Jose, Maxime Oquab, Marc Szafraniec, Wei Wen, Yunyang Xiong, Patrick Labatut, Piotr Bojanowski, Raghuraman Krishnamoorthi, Vikas Chandra. Efficient Universal Perception Encoder. arXiv:2603.22387v2, 2026.
  • Paper: arXiv
  • Code: facebookresearch/eupe
  • Model zoo: Hugging Face collection