Image Generators are Generalist Vision Learners 논문 정리

한 줄 요약

이미지 생성 모델은 단순히 이미지를 “그리는” 모델이 아니다.

이 논문은 강력한 이미지 생성 모델을 가볍게 instruction-tuning하면, 분할·깊이 추정·표면 방향 추정 같은 시각 이해 과제에서도 전문 모델과 맞먹거나 앞설 수 있음을 보인다.

핵심 모델은 Vision Banana다.

기반 모델: Nano Banana Pro
학습 방식: 기존 생성 학습 데이터에 소량의 비전 과제 데이터를 섞어 instruction-tuning
출력 방식: 모든 비전 과제 결과를 RGB 이미지로 표현
핵심 주장: 이미지 생성 사전학습은 강력한 범용 시각 표현을 만든다

Crop 포인트: 프롬프트가 바뀌면 같은 생성 모델이 분할, 깊이, 표면 법선 출력을 모두 RGB 이미지로 내보낸다는 점에 주목하면 된다.

논문이 던지는 질문

기존 컴퓨터 비전은 보통 과제별 전문 모델을 만든다.

분할 모델
깊이 추정 모델
표면 법선 추정 모델
이미지 생성 모델

각 모델은 구조도 다르고, 학습 데이터도 다르고, 손실 함수도 다르다.

이 논문은 다른 질문을 던진다.

이미지를 잘 생성하는 모델은 이미 세상을 충분히 이해하고 있는 것 아닐까?

저자들은 이 가설을 직접 검증한다.

Nano Banana Pro를 기반으로 Vision Banana를 만들고, 여러 시각 이해 벤치마크에서 평가한다.

핵심 아이디어: “시각 이해”를 “이미지 생성”으로 바꾼다

Vision Banana의 가장 중요한 설계는 간단하다.

모든 비전 과제의 출력을 RGB 이미지로 바꾼다.

예를 들면 다음과 같다.

semantic segmentation: 각 클래스가 특정 색으로 칠해진 이미지
instance segmentation: 각 객체 인스턴스가 서로 다른 색으로 칠해진 이미지
referring expression segmentation: 문장으로 지시한 대상만 특정 색으로 칠해진 이미지
depth estimation: 거리 값이 색으로 변환된 이미지
surface normal estimation: 표면 방향이 색으로 변환된 이미지

즉, 모델은 숫자 벡터나 전용 마스크 포맷을 직접 출력하지 않는다.

대신 “정해진 규칙을 따르는 이미지”를 생성한다.

그 후 이 이미지를 다시 해석해 마스크, 깊이, 표면 방향 같은 실제 결과로 복원한다.

왜 이 방식이 중요한가

이 접근은 세 가지 장점이 있다.

첫째, 하나의 모델이 여러 과제를 처리한다.

과제가 바뀌어도 모델 구조는 그대로다.
바뀌는 것은 프롬프트뿐이다.

둘째, 학습의 목적이 단순해진다.

새로운 비전 지식을 처음부터 배우는 것이 아니라, 이미 생성 모델 안에 있는 표현을 “평가 가능한 형식”으로 꺼내는 데 가깝다.

셋째, 생성 능력을 크게 잃지 않는다.

출력 형식이 여전히 RGB 이미지이기 때문이다.

전체 성능 요약

Vision Banana는 2D 이해, 3D 이해, 이미지 생성 평가를 모두 수행했다.

주요 결과는 다음과 같다.

영역	과제	Vision Banana	비교 대상	해석
2D 이해	Cityscapes semantic segmentation	0.699	SAM 3: 0.652	오픈 어휘 분할에서 우세
2D 이해	SA-Co/Gold instance segmentation	0.540	DINO-X: 0.552	거의 동급, 약간 낮음
2D 이해	RefCOCOg referring segmentation	0.738	SAM 3 Agent: 0.734	근소하게 우세
2D 이해	ReasonSeg reasoning segmentation	0.793	SAM 3 Agent: 0.770	우세
3D 이해	4개 깊이 데이터셋 평균	0.929	Depth Anything 3: 0.918	우세
3D 이해	실내 표면 법선 평균 오차	15.549	Lotus-2: 16.558	낮을수록 좋으며 우세
생성	GenAI-Bench	53.5%	Nano Banana Pro: 46.5%	기반 생성 모델과 동급 이상
편집	ImgEdit	47.8%	Nano Banana Pro: 52.2%	기반 모델보다 약간 낮지만 근접

중요한 점은 학습 조건이다.

저자들은 평가 벤치마크의 훈련 데이터를 Vision Banana의 instruction-tuning에 넣지 않았다고 설명한다.

따라서 논문은 이를 zero-shot transfer 성격의 평가로 해석한다.

Semantic Segmentation: 색으로 픽셀 클래스를 지정한다

Semantic segmentation은 이미지의 각 픽셀을 클래스별로 분류하는 과제다.

예를 들어 “도로”, “사람”, “하늘”, “고양이”, “디저트” 같은 범주를 픽셀 단위로 나눈다.

Vision Banana는 프롬프트에서 색 규칙을 받는다.

예를 들면 다음과 같은 식이다.

고양이는 빨간색
배경은 노란색
표지판은 파란색
꽃은 특정 RGB 색상

모델은 그 규칙을 따라 분할 이미지를 생성한다.

그 후 각 픽셀의 색을 읽어 클래스를 복원한다.

Crop 포인트: 고양이 수염처럼 얇은 구조까지 색 마스크로 남는 부분이 이 방식의 세밀도를 보여준다.

Cityscapes 평가에서 Vision Banana는 SAM 3보다 높은 점수를 기록했다.

의미는 분명하다.

생성 모델이 단순히 “비슷한 그림”을 그리는 것이 아니라, 픽셀 수준의 의미 구분도 수행할 수 있다는 것이다.

Instance Segmentation: 같은 클래스 안의 개체를 나눈다

Instance segmentation은 semantic segmentation보다 더 어렵다.

같은 클래스라도 개별 객체를 따로 구분해야 한다.

예를 들어 이미지에 공이 여러 개 있으면, 각 공을 별도의 마스크로 나눠야 한다.

문제는 객체 수를 미리 알 수 없다는 점이다.

그래서 Vision Banana는 한 번에 한 클래스를 대상으로 추론한다.

프롬프트는 “각 마늘 조각을 서로 다른 색으로 표시하라”처럼 주어진다.

모델은 각 인스턴스에 다른 색을 부여한다.

이후 비슷한 색을 묶어 개별 마스크를 얻는다.

Crop 포인트: 같은 클래스 안의 개별 물체가 서로 다른 색으로 분리되는지 보는 것이 핵심이다.

이 과제에서는 Vision Banana가 DINO-X보다 약간 낮았다.

하지만 zero-shot transfer 조건에서는 강한 성능을 보였다.

논문은 이 결과를 “아직 어려운 영역이 남아 있지만, 생성 모델 기반 접근이 전문 분할 모델에 근접했다”는 증거로 제시한다.

Referring Expression Segmentation: 문장의 의미로 대상을 찾는다

Referring expression segmentation은 자유로운 문장 지시를 이해해야 한다.

단순히 “고양이”를 찾는 것이 아니다.

다음과 같은 표현을 처리해야 한다.

분홍색 티셔츠를 입은 사람
몸을 펴는 고양이
게임 컨트롤러처럼 쓰이는 물체
중국어와 영어로 적힌 셰프 이름

이 과제는 시각 인식과 언어 이해가 동시에 필요하다.

Vision Banana는 이미지 생성 모델이 가진 멀티모달 사전지식을 활용한다.

그리고 그 이해 결과를 색 마스크로 출력한다.

Crop 포인트: 물체 이름보다 행동, 용도, 텍스트 이해가 마스크 위치를 결정한다는 점이 중요하다.

RefCOCOg와 ReasonSeg에서 Vision Banana는 SAM 3 Agent를 앞섰다.

특히 ReasonSeg에서는 Gemini 2.5 Pro와 결합해 추론 지시를 처리했다.

논문이 강조하는 지점은 다음이다.

생성 사전학습은 “무엇을 그릴지”를 배우면서 “무엇을 봐야 하는지”도 함께 배운다.

Metric Depth Estimation: 거리를 색으로 바꾼다

깊이 추정은 한 장의 이미지에서 각 픽셀이 카메라로부터 얼마나 떨어져 있는지 예측하는 과제다.

한 장의 사진에는 실제 3D 정보가 직접 들어 있지 않다.

그래서 이 과제는 본질적으로 어렵다.

전문 모델들은 보통 카메라 내부 파라미터, 전용 네트워크 구조, 전용 손실 함수를 사용한다.

Vision Banana는 다른 방식을 택한다.

깊이 값을 색으로 바꾼다.

핵심 직관은 다음과 같다.

실제 거리는 매우 가까운 값부터 무한히 먼 값까지 이어진다.
RGB 이미지는 제한된 색 공간만 표현한다.
그래서 거리를 색으로 바꾸기 전에 거리 축을 휘게 만든다.
가까운 물체의 거리 차이는 더 촘촘히 표현한다.
먼 거리의 차이는 상대적으로 압축한다.
이 색상 경로는 다시 실제 거리로 되돌릴 수 있도록 설계한다.

즉, 색상표가 단순한 시각화 장식이 아니다.

평가 가능한 거리 값을 복원하기 위한 인코딩이다.

Crop 포인트: 색 경로가 단순한 예쁜 색상표가 아니라 실제 거리로 되돌릴 수 있는 인코딩이라는 점을 보면 된다.

Vision Banana는 여섯 개 공개 깊이 벤치마크에서 평균 깊이 정확도 0.882를 기록했다.

Depth Anything 3가 평가한 네 개 데이터셋만 비교하면 다음과 같다.

Vision Banana: 0.929
Depth Anything 3: 0.918

더 중요한 점은 조건이다.

Vision Banana는 깊이 학습과 추론 모두에서 카메라 내부 파라미터를 쓰지 않는다.

또한 실제 깊이 데이터가 아니라 합성 데이터 기반으로 학습했다고 설명한다.

깊이 이미지를 3D 장면으로 복원한다

생성된 깊이 이미지는 다시 거리 값으로 해석된다.

그 값을 카메라 정보와 결합하면 3D 점군으로 복원할 수 있다.

논문은 실내 방, 주차장, 교실 같은 장면에서 이 결과를 보여준다.

Crop 포인트: 색으로 만든 깊이 이미지가 3D 점군으로 복원될 때 방과 복도 구조가 유지되는 부분이 핵심이다.

이 그림에서 중요한 것은 질감이 아니다.

공간 구조가 유지되는지다.

침대, 벽, 바닥, 복도, 천장 같은 큰 구조가 일관되게 복원된다.

이는 모델이 물체의 형태뿐 아니라 장면의 기하 구조도 추론하고 있음을 시사한다.

야외 사진에서도 절대 거리를 추정한다

논문은 벤치마크 외의 간단한 실험도 제시한다.

저자가 휴대폰으로 찍은 금각사 사진을 Vision Banana에 넣고, 특정 지점의 거리를 추정한다.

모델이 예측한 거리는 13.71m였다.

Google Maps로 측정한 거리는 12.87m였다.

오차는 약 6.5%로 보고된다.

Crop 포인트: 초록 별 지점의 예측 거리와 지도 측정값 차이가 작다는 점이 야외 일반화를 보여준다.

이 예시는 엄밀한 대규모 평가라기보다 직관적 검증에 가깝다.

하지만 논문이 말하려는 바는 명확하다.

카메라 정보 없이도, 생성 모델의 시각 사전지식이 절대 거리 추정에 도움을 줄 수 있다.

Surface Normal Estimation: 표면 방향도 색으로 표현한다

Surface normal estimation은 각 픽셀의 표면이 어느 방향을 향하는지 예측하는 과제다.

이는 3D 장면 이해에 중요하다.

예를 들어 로봇이나 AR 시스템은 물체의 표면 방향을 알아야 접촉, 배치, 조명, 공간 상호작용을 더 잘 처리할 수 있다.

Vision Banana는 표면 방향을 RGB 색으로 표현한다.

간단히 말하면 다음과 같다.

왼쪽을 향한 표면은 붉은 계열
위쪽을 향한 표면은 초록 계열
카메라를 향한 표면은 푸른 계열

이 방식은 깊이보다 자연스럽다.

표면 방향은 애초에 세 개의 축 방향 성분으로 표현할 수 있고, RGB도 세 채널을 갖기 때문이다.

Crop 포인트: 고양이 털과 모래 표면처럼 작은 표면 변화가 색 변화로 남는 부분이 핵심이다.

실내 표면 법선 평가에서 Vision Banana는 평균 오차와 중앙값 오차 모두에서 강한 결과를 보였다.

논문은 특히 Lotus-2와의 비교에서 Vision Banana가 더 세밀한 표면 변화를 보존한다고 설명한다.

생성 능력은 유지됐는가

이 논문의 중요한 검증은 하나 더 있다.

시각 이해를 잘하게 만들었더니 원래의 이미지 생성 능력을 잃었는지 확인해야 한다.

저자들은 두 가지 평가를 수행했다.

GenAI-Bench: 텍스트 기반 이미지 생성 평가
ImgEdit: 이미지 편집 평가

결과는 다음과 같다.

텍스트-이미지 생성: Vision Banana가 Nano Banana Pro 대비 53.5% 승률
이미지 편집: Vision Banana가 Nano Banana Pro 대비 47.8% 승률

즉, Vision Banana는 기반 모델의 생성 능력을 대체로 유지했다.

Crop 포인트: 좌우 비교에서 Vision Banana가 원래 생성 모델의 분위기와 구성을 크게 잃지 않는지 보면 된다.

텍스트-이미지 생성에서는 두 모델의 결과가 매우 유사하다.

이는 instruction-tuning이 기존 생성 능력을 심하게 훼손하지 않았다는 근거다.

Crop 포인트: 편집 지시 후에도 물체 정체성, 구도, 배경 변환이 안정적으로 유지되는지가 핵심이다.

이미지 편집에서는 Nano Banana Pro가 약간 앞선다.

하지만 차이가 크지는 않다.

논문은 이를 “시각 이해 기능을 추가하면서도 생성 모델의 본래 능력을 유지했다”는 증거로 해석한다.

논문의 핵심 기여

이 논문의 기여는 모델 하나의 성능표에만 있지 않다.

더 큰 메시지는 다음이다.

1. 이미지 생성 사전학습은 시각 이해 표현을 만든다

Vision Banana는 전용 분할 모델도, 전용 깊이 모델도 아니다.

그럼에도 여러 전문 모델과 경쟁한다.

이는 이미지 생성 과정에서 모델이 물체, 재질, 배치, 거리, 장면 구조를 상당히 학습했을 가능성을 보여준다.

2. RGB 이미지는 범용 비전 인터페이스가 될 수 있다

LLM은 다양한 언어 과제를 텍스트 생성으로 처리한다.

이 논문은 컴퓨터 비전에서도 비슷한 관점을 제시한다.

여러 시각 과제를 RGB 이미지 생성 문제로 통합할 수 있다는 것이다.

3. Instruction-tuning은 “새 능력 주입”보다 “능력 해금”에 가깝다

저자들의 해석은 분명하다.

Nano Banana Pro 안에는 이미 강한 시각 이해 표현이 있었다.

Vision Banana의 instruction-tuning은 이 표현을 평가 가능한 형식으로 꺼내는 역할을 했다.

읽을 때 주의할 점

결과는 강하지만, 몇 가지 한계도 분명하다.

첫째, 모든 과제에서 압도적 1위는 아니다.

Instance segmentation에서는 DINO-X가 약간 더 높다.

이미지 편집에서도 기반 모델인 Nano Banana Pro가 약간 앞선다.

둘째, 평가 범위는 주로 단일 이미지 기반 과제다.

논문은 향후 multi-view 입력과 video 입력으로 확장할 필요가 있다고 말한다.

셋째, 생성 모델 기반 접근은 계산 비용이 크다.

전문 경량 모델보다 추론 비용이 높을 수 있다.

넷째, 이 결과가 모든 이미지 생성 모델에 자동으로 적용된다고 볼 수는 없다.

논문의 실험은 강력한 기반 생성 모델인 Nano Banana Pro와 그 instruction-tuning 결과에 기반한다.

결론

이 논문은 컴퓨터 비전의 모델 설계 방식에 중요한 질문을 던진다.

지금까지는 “이해 모델”과 “생성 모델”을 구분해 생각하는 경우가 많았다.

하지만 Vision Banana의 결과는 그 경계가 약해지고 있음을 보여준다.

강력한 이미지 생성 모델은 이미 시각 세계의 구조를 상당히 학습하고 있을 수 있다.

그리고 적절한 출력 형식과 instruction-tuning만 있으면, 그 지식을 분할·깊이·표면 방향 같은 고전적 비전 과제로 꺼낼 수 있다.

핵심은 이것이다.

이미지 생성은 시각 이해의 부산물이 아니라, 시각 이해를 통합하는 인터페이스가 될 수 있다.

Source

Valentin Gabeur, Shangbang Long, Songyou Peng, Paul Voigtlaender, Shuyang Sun, Yanan Bao, Karen Truong, Zhicheng Wang, Wenlei Zhou, Jonathan T. Barron, Kyle Genova, Nithish Kannen, Sherry Ben, Yandong Li, Mandy Guo, Suhas Yogin, Yiming Gu, Huizhong Chen, Oliver Wang, Saining Xie, Howard Zhou, Kaiming He, Thomas Funkhouser, Jean-Baptiste Alayrac, Radu Soricut. Image Generators are Generalist Vision Learners. arXiv:2604.20329v1, 2026.
Project Page: https://vision-banana.github.io
arXiv: https://arxiv.org/abs/2604.20329
원문 PDF: 2604.20329v1.pdf

'AI 생성 글 정리 > modeling' 카테고리의 다른 글

Inference-Time Diffusion Model Distillation 논문 정리 (1)	2026.04.28
ReasoningBank 논문 정리 (0)	2026.04.27
Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models 논문 정리 (0)	2026.04.26
DeepSeek-V4: Towards Highly Efficient Million-Token Context Intelligence 논문 정리 (1)	2026.04.26
[Parcae: Scaling Laws For Stable Looped Language Models] 논문 정리 (0)	2026.04.22

Honbul과 컴퓨터