SAM 3.1: Segment Anything with Concepts 논문 정리

한눈에 보기

무슨 논문인가
클릭 중심이었던 SAM을, 텍스트와 예시 이미지로 같은 개념의 모든 객체를 찾고 자르고 추적하는 모델로 확장한 작업이다.
무엇이 새롭나
이미지와 비디오를 하나의 틀로 다룬다.
텍스트 프롬프트, positive/negative exemplar, 그리고 상호작용 refinement를 모두 지원한다.
왜 중요한가
segmentation이 이제 단순한 경계 추출 문제가 아니라 개념 인식 + 위치 찾기 + 추적 문제로 바뀌었기 때문이다.

주목 포인트: 오른쪽 묶음을 보면 출력 단위가 “한 객체”가 아니라 “같은 개념에 속한 모든 객체”로 바뀌었다는 점이 가장 잘 드러납니다.

기존 SAM의 한계는 무엇이었나

SAM 1과 SAM 2는 강력했다.
하지만 기본 질문은 대체로 이랬다.

이 점이 가리키는 물체를 잘라줘
이 박스 안의 대상을 따라가줘

즉, 기존의 중심 과제는 Promptable Visual Segmentation, PVS였다.
사용자가 특정 객체를 집어 주면, 그 객체를 정교하게 따내는 방식이다.

실제 사용자의 질문은 더 자주 이쪽에 가깝다.

이 장면의 모든 striped cat을 찾아줘
영상 전체에서 hard hat을 쓴 사람만 추적해줘
텍스트가 애매하면 예시 박스를 하나 더 줄게

이 논문은 이 문제를 Promptable Concept Segmentation, PCS로 정리한다.

PCS는
짧은 명사구나 예시 이미지로 개념을 정의하고,
그 개념과 맞는 모든 인스턴스를 찾아
인스턴스 마스크와 개념 전체 마스크를 반환하는 설정이다.
비디오에서는 객체 ID도 이어서 관리한다.

PCS 인터페이스는 생각보다 실용적이다

이 논문이 좋은 이유는 입력 인터페이스를 억지로 복잡하게 만들지 않았기 때문이다.

핵심은 세 가지다.

짧은 명사구
예: red apple, striped cat, small window
positive exemplar
“이런 대상은 포함해라”를 예시 박스로 알려준다.
negative exemplar
“비슷해 보이지만 이건 아니다”를 예시 박스로 알려준다.

즉, 처음에는 대략적으로 말하고,
이후에는 예시 몇 개로 빠진 대상과 잘못 잡힌 대상을 다듬는 방식이다.
이런 인터랙션은 데이터 라벨링, 이미지 편집, 영상 분석처럼 사람이 중간에 끼어드는 작업과 잘 맞는다.

다만 범위는 분명하다.
SAM 3는 긴 문장 추론 자체를 바로 풀도록 설계된 모델은 아니다.
복잡한 지시문은 바깥의 멀티모달 LLM이 짧은 개념 질의로 바꿔 주는 편이 더 자연스럽다.

주목 포인트: 세 번째 패널의 초록/빨강 exemplar가 각각 “추가로 찾아라”와 “이건 빼라” 역할을 한다는 점만 이해하면 PCS의 상호작용 방식이 거의 다 보입니다.

모델의 핵심은 “무엇인지”와 “어디 있는지”를 분리한 점이다

오픈보캐브 segmentation이 어려운 이유는
한 쿼리가 두 가지 일을 동시에 해야 하기 때문이다.

이 개념이 장면 안에 정말 존재하는가
존재한다면 각 인스턴스가 어디에 있는가

SAM 3는 이 둘을 같은 경로에 몰아넣지 않는다.

detector는 현재 프레임에서 새 인스턴스를 찾는다.
tracker는 비디오에서 이미 찾은 대상을 이어서 따라간다.
두 모듈은 backbone을 공유하지만, 역할은 분리된다.
여기에 presence head를 둬서
“이 개념이 이 장면에 있나”를 전역적으로 먼저 판단하게 한다.

직관은 단순하다.

전역 판단은 장면 전체 문맥을 봐야 잘 되고,
정밀한 위치 찾기는 로컬 단서에 집중해야 잘 된다.
이 둘을 한 쿼리 안에 억지로 합치면 서로 방해할 수 있다.
SAM 3는 이 충돌을 줄이려 한다.

비디오 쪽도 같은 철학을 따른다.
tracker가 이전 프레임의 정보를 이어받되,
detector가 주기적으로 새 증거를 공급해
가림, 새 등장 객체, drift 문제를 완화한다.

주목 포인트: 가운데의 detector와 tracker가 같은 backbone을 공유하면서도, 위쪽은 새 객체 탐지에, 아래쪽은 시간축 추적에 집중한다는 점이 핵심입니다.

성능을 만든 진짜 축은 데이터 엔진이다

이 논문을 단순히 “모델 하나 잘 만들었다”로 읽으면 절반만 본 것이다.
실제로 더 중요한 기여는 데이터 엔진이다.

PCS는 long-tail 개념을 다뤄야 한다.
즉, 흔한 person, car만 잘하면 끝나지 않는다.
희귀한 물체, 미묘한 속성, 비슷하지만 다른 개념까지 다뤄야 한다.

논문은 이를 위해 사람과 AI를 함께 쓰는 파이프라인을 만든다.

미디어 풀과 ontology에서 데이터를 고른다.
AI가 noun phrase를 제안한다.
모델이 후보 mask를 만든다.
AI verifier와 human verifier가 품질과 누락 여부를 검사한다.
어려운 샘플만 사람이 직접 고친다.
그렇게 모인 데이터를 다시 학습에 넣는다.

여기서 중요한 건 hard negative다.
무엇을 포함할지만 배우는 것으로는 부족하다.
무엇을 제외해야 하는지도 같이 배워야 텍스트 개념 분리가 선다.

이 파이프라인은 정확도뿐 아니라 속도도 노린다.
논문은 mask verification과 exhaustivity verification에 AI verifier를 넣으면서
전체 처리량이 대략 두 배로 늘었다고 설명한다.

그 결과, 소개부 기준으로 고품질 학습 데이터에는 4M개의 고유 concept label과 52M masks가 들어간다.
synthetic 데이터는 더 크게 확장된다.
즉, 이 논문의 메시지는 “좋은 open-vocabulary segmentation은 결국 데이터 엔진까지 포함한 시스템 문제”라는 데 있다.

주목 포인트: 오른쪽 verifier 단계는 단순 검수가 아니라, 사람이 가장 어려운 수정 작업에만 시간을 쓰도록 병목을 재배치하는 장치입니다.

SA-Co 벤치마크가 중요한 이유

이 논문은 모델만 내놓지 않는다.
SA-Co라는 새 벤치마크도 함께 제안한다.

이 벤치마크가 중요한 이유는
기존 평가셋보다 훨씬 넓은 개념 공간을 다루기 때문이다.

논문 기준으로 SA-Co benchmark는

207K unique phrases
121K images and videos
3M+ media-phrase pairs

규모가 크다는 것만 중요한 건 아니다.
이 벤치마크는 hard negative와 모호한 개념 해석까지 평가하려고 설계됐다.
Gold split은 phrase당 3명의 annotation을 받아, 개념 모호성 자체를 점수 계산에 반영한다.

즉, “대충 비슷한 걸 하나 찾았다”가 아니라
“정말 사용자가 의도한 개념을 다 찾았는가”를 더 엄격하게 본다.

결과는 어디서 가장 설득력 있나

1) 새 문제인 PCS에서 차이가 크다

논문이 주로 보는 핵심 점수는
“이 개념이 실제로 있는지”와
“있다면 mask가 얼마나 맞는지”를 함께 보는 방식이다.

이 기준에서 SAM 3는 SA-Co/Gold에서 54.1을 기록했다.
비교 대상으로 제시된 강한 baseline은
OWLv2* 24.6, DINO-X 21.3 수준이었다.
사람 추정치가 72.8인 것을 보면 문제 자체가 아직 충분히 어렵다는 점도 같이 드러난다.

LVIS에서도 SAM 3는 48.5 mask AP를 기록한다.
즉, 새 벤치마크에서만 강한 모델이 아니라,
기존 널리 쓰이는 평가에서도 경쟁력이 있다.

주목 포인트: 여기서 볼 것은 경계선의 예쁨보다, 희귀하거나 애매한 개념을 놓치지 않고 비슷하지만 다른 대상을 덜 집는지입니다.

2) 예시 몇 번만 더 주면 빠르게 좋아진다

SAM 3의 인터랙티브 성능도 인상적이다.

논문은 텍스트 프롬프트로 시작한 뒤,
positive/negative exemplar를 하나씩 추가하는 상황을 시뮬레이션했다.
결과적으로 3번 정도의 exemplar만으로 성능이 크게 뛰었다.

논문 설명 기준으로

3번의 exemplar 뒤에는 text-only 대비 +21.6 포인트 개선
같은 시점에서 이상적인 PVS 보정 대비도 +2.0 포인트 우위

이 차이가 중요한 이유는 간단하다.
PVS 방식은 대체로 “이 객체 하나”를 고치는 데 강하다.
반면 PCS exemplar는 비슷한 오류를 묶어서 바로잡는다.
그래서 사람이 적게 개입해도 더 큰 개선을 가져온다.

주목 포인트: 초반 2~3개의 exemplar만으로 곡선이 가파르게 올라가는 부분이, PCS가 사람과의 상호작용에서 왜 효율적인지 보여줍니다.

3) 기존 SAM 강점도 크게 잃지 않았다

새 기능이 늘면 기존 성능이 흔들리는 경우가 많다.
이 논문은 그 부분도 꽤 잘 방어했다.

대표적으로

VOS의 MOSEv2에서 SAM 3는 60.3을 기록해, SAM 2.1 L의 47.9보다 높다.
인터랙티브 이미지 segmentation에서도 3-click 81.3, 5-click 85.1로 strong baseline을 넘어선다.
CountBench에서는 accuracy 93.8, MAE 0.12를 기록해, 단순 counting 측면에서도 강한 결과를 낸다.

즉, SAM 3는 기존 SAM의 시각 프롬프트 역량을 버리고 PCS로 간 것이 아니라,
그 위에 개념 수준 인터페이스를 추가한 모델로 읽는 편이 맞다.

한계도 분명하다

1) 긴 문장 이해를 직접 풀지는 않는다

입력은 의도적으로 짧은 noun phrase에 맞춰져 있다.
“왼쪽에 서 있고 빨간 가방을 든 사람”처럼 관계와 추론이 들어간 긴 표현은
SAM 3 단독보다는 멀티모달 LLM과의 조합이 더 자연스럽다.

논문도 이 점을 숨기지 않는다.
대신 멀티모달 LLM이 noun phrase를 제안하고,
SAM 3가 mask를 반환하고,
다시 모델이 결과를 검토하는 SAM 3 Agent 경로를 제시한다.
실제로 이 설정은 ReasonSeg와 OmniLabel 같은 더 복잡한 벤치마크에서도 좋은 zero-shot 결과를 낸다.

2) 도메인 밖 세밀한 개념은 아직 어렵다

논문은 limit도 분명히 적는다.

항공기 세부 기종
의료 용어
thermal imagery 같은 niche domain

이런 경우 zero-shot 일반화가 약하다.
다만 흥미로운 점은, 논문이 사람 라벨 없이도 새 도메인 적응의 가능성을 보여준다는 것이다.
SAM 3와 AI verifier가 만든 synthetic 데이터가 human-annotated 데이터와 비슷한 scaling behavior를 보였기 때문이다.

주목 포인트: 주황선과 초록선의 간격이 크지 않다는 점이, 합성 데이터만으로도 새 도메인 적응을 상당 부분 대체할 수 있음을 보여줍니다.

핵심 정리

이 논문의 핵심은 모델 크기 경쟁이 아니다.
segmentation의 질문 자체를 바꿨다는 데 있다.

정리하면 이렇다.

기존 SAM은 주로 한 객체를 정확히 자르는 도구였다.
SAM 3는 이를 개념 전체를 찾고 자르고 추적하는 인터페이스로 확장했다.
이 성능은 architecture만으로 나오지 않았다.
human + AI data engine이 거의 동급의 주연이다.
결과적으로 segmentation은 이제 geometry 중심 문제에서
concept recognition + localization + tracking 문제로 올라왔다.
다음 과제도 분명하다.
더 긴 언어 이해와, niche domain에 대한 더 강한 zero-shot 일반화다.

Source

'AI 생성 글 정리 > modeling' 카테고리의 다른 글

Mixture of LoRA Experts 논문 정리 (0)	2026.04.21
LoRA-Mixer 논문 정리 (0)	2026.04.21
A Large-Scale Dataset for Robust Complex Anime Scene Text Detection 논문 정리 (0)	2026.04.14
Efficient Universal Perception Encoder 논문 정리 (1)	2026.04.09
TimesFM 논문 정리 (0)	2026.04.09