본문 바로가기
AI 생성 글 정리/modeling

SAM 3.1: Segment Anything with Concepts 논문 정리

by Honbul 2026. 4. 9.

한눈에 보기

  • 무슨 논문인가
    클릭 중심이었던 SAM을, 텍스트와 예시 이미지로 같은 개념의 모든 객체를 찾고 자르고 추적하는 모델로 확장한 작업이다.
  • 무엇이 새롭나
    이미지와 비디오를 하나의 틀로 다룬다.
    텍스트 프롬프트, positive/negative exemplar, 그리고 상호작용 refinement를 모두 지원한다.
  • 왜 중요한가
    segmentation이 이제 단순한 경계 추출 문제가 아니라 개념 인식 + 위치 찾기 + 추적 문제로 바뀌었기 때문이다.


주목 포인트: 오른쪽 묶음을 보면 출력 단위가 “한 객체”가 아니라 “같은 개념에 속한 모든 객체”로 바뀌었다는 점이 가장 잘 드러납니다.

기존 SAM의 한계는 무엇이었나

SAM 1과 SAM 2는 강력했다.
하지만 기본 질문은 대체로 이랬다.

  • 이 점이 가리키는 물체를 잘라줘
  • 이 박스 안의 대상을 따라가줘

즉, 기존의 중심 과제는 Promptable Visual Segmentation, PVS였다.
사용자가 특정 객체를 집어 주면, 그 객체를 정교하게 따내는 방식이다.

실제 사용자의 질문은 더 자주 이쪽에 가깝다.

  • 이 장면의 모든 striped cat을 찾아줘
  • 영상 전체에서 hard hat을 쓴 사람만 추적해줘
  • 텍스트가 애매하면 예시 박스를 하나 더 줄게

이 논문은 이 문제를 Promptable Concept Segmentation, PCS로 정리한다.

PCS는
짧은 명사구나 예시 이미지로 개념을 정의하고,
그 개념과 맞는 모든 인스턴스를 찾아
인스턴스 마스크와 개념 전체 마스크를 반환하는 설정이다.
비디오에서는 객체 ID도 이어서 관리한다.

PCS 인터페이스는 생각보다 실용적이다

이 논문이 좋은 이유는 입력 인터페이스를 억지로 복잡하게 만들지 않았기 때문이다.

핵심은 세 가지다.

  • 짧은 명사구
    예: red apple, striped cat, small window
  • positive exemplar
    “이런 대상은 포함해라”를 예시 박스로 알려준다.
  • negative exemplar
    “비슷해 보이지만 이건 아니다”를 예시 박스로 알려준다.

즉, 처음에는 대략적으로 말하고,
이후에는 예시 몇 개로 빠진 대상과 잘못 잡힌 대상을 다듬는 방식이다.
이런 인터랙션은 데이터 라벨링, 이미지 편집, 영상 분석처럼 사람이 중간에 끼어드는 작업과 잘 맞는다.

다만 범위는 분명하다.
SAM 3는 긴 문장 추론 자체를 바로 풀도록 설계된 모델은 아니다.
복잡한 지시문은 바깥의 멀티모달 LLM이 짧은 개념 질의로 바꿔 주는 편이 더 자연스럽다.

 


주목 포인트: 세 번째 패널의 초록/빨강 exemplar가 각각 “추가로 찾아라”와 “이건 빼라” 역할을 한다는 점만 이해하면 PCS의 상호작용 방식이 거의 다 보입니다.

모델의 핵심은 “무엇인지”와 “어디 있는지”를 분리한 점이다

오픈보캐브 segmentation이 어려운 이유는
한 쿼리가 두 가지 일을 동시에 해야 하기 때문이다.

  • 이 개념이 장면 안에 정말 존재하는가
  • 존재한다면 각 인스턴스가 어디에 있는가

SAM 3는 이 둘을 같은 경로에 몰아넣지 않는다.

  • detector는 현재 프레임에서 새 인스턴스를 찾는다.
  • tracker는 비디오에서 이미 찾은 대상을 이어서 따라간다.
  • 두 모듈은 backbone을 공유하지만, 역할은 분리된다.
  • 여기에 presence head를 둬서
    “이 개념이 이 장면에 있나”를 전역적으로 먼저 판단하게 한다.

직관은 단순하다.

전역 판단은 장면 전체 문맥을 봐야 잘 되고,
정밀한 위치 찾기는 로컬 단서에 집중해야 잘 된다.
이 둘을 한 쿼리 안에 억지로 합치면 서로 방해할 수 있다.
SAM 3는 이 충돌을 줄이려 한다.

비디오 쪽도 같은 철학을 따른다.
tracker가 이전 프레임의 정보를 이어받되,
detector가 주기적으로 새 증거를 공급해
가림, 새 등장 객체, drift 문제를 완화한다.

 


주목 포인트: 가운데의 detector와 tracker가 같은 backbone을 공유하면서도, 위쪽은 새 객체 탐지에, 아래쪽은 시간축 추적에 집중한다는 점이 핵심입니다.

성능을 만든 진짜 축은 데이터 엔진이다

이 논문을 단순히 “모델 하나 잘 만들었다”로 읽으면 절반만 본 것이다.
실제로 더 중요한 기여는 데이터 엔진이다.

PCS는 long-tail 개념을 다뤄야 한다.
즉, 흔한 person, car만 잘하면 끝나지 않는다.
희귀한 물체, 미묘한 속성, 비슷하지만 다른 개념까지 다뤄야 한다.

논문은 이를 위해 사람과 AI를 함께 쓰는 파이프라인을 만든다.

  • 미디어 풀과 ontology에서 데이터를 고른다.
  • AI가 noun phrase를 제안한다.
  • 모델이 후보 mask를 만든다.
  • AI verifier와 human verifier가 품질과 누락 여부를 검사한다.
  • 어려운 샘플만 사람이 직접 고친다.
  • 그렇게 모인 데이터를 다시 학습에 넣는다.

여기서 중요한 건 hard negative다.
무엇을 포함할지만 배우는 것으로는 부족하다.
무엇을 제외해야 하는지도 같이 배워야 텍스트 개념 분리가 선다.

이 파이프라인은 정확도뿐 아니라 속도도 노린다.
논문은 mask verification과 exhaustivity verification에 AI verifier를 넣으면서
전체 처리량이 대략 두 배로 늘었다고 설명한다.

 

그 결과, 소개부 기준으로 고품질 학습 데이터에는 4M개의 고유 concept label52M masks가 들어간다.
synthetic 데이터는 더 크게 확장된다.
즉, 이 논문의 메시지는 “좋은 open-vocabulary segmentation은 결국 데이터 엔진까지 포함한 시스템 문제”라는 데 있다.

 


주목 포인트: 오른쪽 verifier 단계는 단순 검수가 아니라, 사람이 가장 어려운 수정 작업에만 시간을 쓰도록 병목을 재배치하는 장치입니다.

SA-Co 벤치마크가 중요한 이유

이 논문은 모델만 내놓지 않는다.
SA-Co라는 새 벤치마크도 함께 제안한다.

이 벤치마크가 중요한 이유는
기존 평가셋보다 훨씬 넓은 개념 공간을 다루기 때문이다.

논문 기준으로 SA-Co benchmark는

  • 207K unique phrases
  • 121K images and videos
  • 3M+ media-phrase pairs

규모가 크다는 것만 중요한 건 아니다.
이 벤치마크는 hard negative모호한 개념 해석까지 평가하려고 설계됐다.
Gold split은 phrase당 3명의 annotation을 받아, 개념 모호성 자체를 점수 계산에 반영한다.

즉, “대충 비슷한 걸 하나 찾았다”가 아니라
“정말 사용자가 의도한 개념을 다 찾았는가”를 더 엄격하게 본다.

결과는 어디서 가장 설득력 있나

1) 새 문제인 PCS에서 차이가 크다

논문이 주로 보는 핵심 점수는
“이 개념이 실제로 있는지”와
“있다면 mask가 얼마나 맞는지”를 함께 보는 방식이다.

이 기준에서 SAM 3는 SA-Co/Gold에서 54.1을 기록했다.
비교 대상으로 제시된 강한 baseline은
OWLv2* 24.6, DINO-X 21.3 수준이었다.
사람 추정치가 72.8인 것을 보면 문제 자체가 아직 충분히 어렵다는 점도 같이 드러난다.

LVIS에서도 SAM 3는 48.5 mask AP를 기록한다.
즉, 새 벤치마크에서만 강한 모델이 아니라,
기존 널리 쓰이는 평가에서도 경쟁력이 있다.

 


주목 포인트: 여기서 볼 것은 경계선의 예쁨보다, 희귀하거나 애매한 개념을 놓치지 않고 비슷하지만 다른 대상을 덜 집는지입니다.

2) 예시 몇 번만 더 주면 빠르게 좋아진다

SAM 3의 인터랙티브 성능도 인상적이다.

논문은 텍스트 프롬프트로 시작한 뒤,
positive/negative exemplar를 하나씩 추가하는 상황을 시뮬레이션했다.
결과적으로 3번 정도의 exemplar만으로 성능이 크게 뛰었다.

논문 설명 기준으로

  • 3번의 exemplar 뒤에는 text-only 대비 +21.6 포인트 개선
  • 같은 시점에서 이상적인 PVS 보정 대비도 +2.0 포인트 우위

이 차이가 중요한 이유는 간단하다.
PVS 방식은 대체로 “이 객체 하나”를 고치는 데 강하다.
반면 PCS exemplar는 비슷한 오류를 묶어서 바로잡는다.
그래서 사람이 적게 개입해도 더 큰 개선을 가져온다.

 


주목 포인트: 초반 2~3개의 exemplar만으로 곡선이 가파르게 올라가는 부분이, PCS가 사람과의 상호작용에서 왜 효율적인지 보여줍니다.

3) 기존 SAM 강점도 크게 잃지 않았다

새 기능이 늘면 기존 성능이 흔들리는 경우가 많다.
이 논문은 그 부분도 꽤 잘 방어했다.

대표적으로

  • VOS의 MOSEv2에서 SAM 3는 60.3을 기록해, SAM 2.1 L의 47.9보다 높다.
  • 인터랙티브 이미지 segmentation에서도 3-click 81.3, 5-click 85.1로 strong baseline을 넘어선다.
  • CountBench에서는 accuracy 93.8, MAE 0.12를 기록해, 단순 counting 측면에서도 강한 결과를 낸다.

즉, SAM 3는 기존 SAM의 시각 프롬프트 역량을 버리고 PCS로 간 것이 아니라,
그 위에 개념 수준 인터페이스를 추가한 모델로 읽는 편이 맞다.

한계도 분명하다

1) 긴 문장 이해를 직접 풀지는 않는다

입력은 의도적으로 짧은 noun phrase에 맞춰져 있다.
“왼쪽에 서 있고 빨간 가방을 든 사람”처럼 관계와 추론이 들어간 긴 표현은
SAM 3 단독보다는 멀티모달 LLM과의 조합이 더 자연스럽다.

논문도 이 점을 숨기지 않는다.
대신 멀티모달 LLM이 noun phrase를 제안하고,
SAM 3가 mask를 반환하고,
다시 모델이 결과를 검토하는 SAM 3 Agent 경로를 제시한다.
실제로 이 설정은 ReasonSeg와 OmniLabel 같은 더 복잡한 벤치마크에서도 좋은 zero-shot 결과를 낸다.

2) 도메인 밖 세밀한 개념은 아직 어렵다

논문은 limit도 분명히 적는다.

  • 항공기 세부 기종
  • 의료 용어
  • thermal imagery 같은 niche domain

이런 경우 zero-shot 일반화가 약하다.
다만 흥미로운 점은, 논문이 사람 라벨 없이도 새 도메인 적응의 가능성을 보여준다는 것이다.
SAM 3와 AI verifier가 만든 synthetic 데이터가 human-annotated 데이터와 비슷한 scaling behavior를 보였기 때문이다.

 


주목 포인트: 주황선과 초록선의 간격이 크지 않다는 점이, 합성 데이터만으로도 새 도메인 적응을 상당 부분 대체할 수 있음을 보여줍니다.

핵심 정리

이 논문의 핵심은 모델 크기 경쟁이 아니다.
segmentation의 질문 자체를 바꿨다는 데 있다.

정리하면 이렇다.

  • 기존 SAM은 주로 한 객체를 정확히 자르는 도구였다.
  • SAM 3는 이를 개념 전체를 찾고 자르고 추적하는 인터페이스로 확장했다.
  • 이 성능은 architecture만으로 나오지 않았다.
    human + AI data engine이 거의 동급의 주연이다.
  • 결과적으로 segmentation은 이제 geometry 중심 문제에서
    concept recognition + localization + tracking 문제로 올라왔다.
  • 다음 과제도 분명하다.
    더 긴 언어 이해와, niche domain에 대한 더 강한 zero-shot 일반화다.

Source