본문 바로가기
AI 생성 글 정리/modeling

A Large-Scale Dataset for Robust Complex Anime Scene Text Detection 논문 정리

by Honbul 2026. 4. 14.

핵심 요약

  • 이 논문은 애니 장면 전용 텍스트 검출 데이터셋AnimeText를 제안한다.
  • 핵심은 규모보다도 문제 정의를 다시 한 점이다. 애니 텍스트는 자연 이미지의 글자와 생김새, 배치, 배경이 다르다.
  • 저자들은 73.5만 장의 이미지약 423.9만 개의 텍스트 블록 주석을 만들고, 그 위에서 자연 장면 데이터셋과의 명확한 도메인 간극을 실험으로 보여준다.

왜 이 논문이 필요한가

기존 텍스트 검출 데이터셋은 주로 자연 장면이나 문서 이미지를 다룬다.
이 환경에서는 글자가 비교적 규칙적이다. 배치도 대체로 직선이나 곡선을 따른다.

애니 장면은 다르다.

  • 글자가 장식 요소처럼 쓰인다.
  • 손글씨풍, 효과음풍, 과장된 폰트가 많다.
  • 여러 언어가 한 장면에 섞인다.
  • 글자처럼 보이는 문양, 이모티콘, 패턴이 많다.

그래서 자연 장면용 모델은 애니 장면에서 두 가지를 동시에 놓치기 쉽다.
진짜 텍스트를 놓치고, 텍스트처럼 보이는 배경을 글자로 오인한다.

 


주목 포인트: 오른쪽의 패턴 예시는 글자가 아닌 장식도 텍스트와 비슷한 색감과 획 구조를 가질 수 있음을 보여준다.

이 논문이 던지는 메시지는 단순하다.
애니 텍스트 검출은 자연 장면 텍스트 검출의 작은 변형이 아니라, 별도 데이터 설계가 필요한 문제라는 것이다.

AnimeText가 새롭게 만든 것

AnimeText의 차별점은 세 가지다.

  • 큰 규모: 73.5만 장의 이미지, 약 423.9만 개의 텍스트 인스턴스
  • 다층 주석: 작은 텍스트 블록과 그보다 큰 묶음을 함께 제공
  • 하드 네거티브 주석: 글자처럼 보이지만 글자가 아닌 요소를 따로 표시

여기서 중요한 설계는 단어 단위보다 텍스트 블록 단위를 기본으로 잡았다는 점이다.
애니 장면에서는 글자가 줄처럼 정렬되지 않거나, 한 덩어리의 효과음과 말풍선이 시각적으로 한 묶음처럼 읽히는 경우가 많기 때문이다.

데이터셋은 어떻게 만들었나

저자들은 전부를 처음부터 손으로 그리지 않았다.
대신 모델 보조 라벨링 + 사람 검수 + 어려운 오답만 별도 정제라는 파이프라인을 설계했다.

 


주목 포인트: 데이터 규모를 가능하게 만든 핵심은 전면 수작업이 아니라 자동 초안과 인간 검수를 단계적으로 결합한 흐름이다.

1) 1차 단계: 텍스트 블록 박스 만들기

약 5만 장을 먼저 수작업으로 라벨링한다.
이때 기준은 개별 단어가 아니라 의미상 함께 읽히는 텍스트 덩어리다.

그 다음 이 주석으로 1차 검출기를 학습한다.
이 검출기가 전체 데이터에 초안 박스를 만들고, 사람이 다시 확인하고 고친다.

핵심은 라벨의 시작점이 단순 사각형 모음이 아니라 애니에서 실제로 읽히는 단위라는 점이다.

2) 2차 단계: 하드 네거티브를 따로 잡아낸다

애니 장면에서는 정답만 잘 그리는 것으로 끝나지 않는다.
글자처럼 보이지만 글자가 아닌 요소를 따로 학습시켜야 한다.

논문은 이를 하드 네거티브라고 부른다.
대표적으로 장식 무늬, 패턴, 기호, 불규칙한 시각 효과가 여기에 들어간다.

 


주목 포인트: 누락 샘플과 하드 네거티브를 분리해 다루지 않으면 recall과 precision이 서로 다른 방향으로 동시에 흔들린다.

저자들은 텍스트 패치와 하드 네거티브 패치를 따로 모아 분류기를 미세조정했다.
이 분류기는 “진짜 텍스트인가, 텍스트처럼 보이는 배경인가”를 가르는 역할을 한다.

결과는 꽤 직접적이다.

  • 하드 네거티브 분류기 정확도: 98.4%
  • F1-score: 98.1%
  • 이 필터를 적용하면 pseudo-label의 precision이 26.9% 상승

이 논문의 실전적인 포인트도 여기 있다.
애니 텍스트 문제는 더 복잡한 backbone보다 무엇을 오답으로 볼지 정교하게 정의하는 일이 매우 중요하다.

3) 3차 단계: 더 촘촘한 주석으로 확장한다

저자들은 박스 하나로 끝내지 않는다.
텍스트를 작은 블록 수준그 블록들을 다시 묶은 상위 수준으로 함께 표기한다.

 


주목 포인트: 작은 상자와 큰 상자를 함께 두면 개별 텍스트 묶음과 그 위의 문맥 단위를 동시에 다룰 수 있다.

이 설계는 멀티모달 모델에 특히 유용하다.
모델이 “정확히 어느 글자를 볼지”와 “어느 묶음을 하나의 문맥으로 볼지”를 따로 다룰 수 있기 때문이다.

또한 왜곡된 텍스트에는 사각형이 지나치게 많은 배경을 포함할 수 있다.
그래서 저자들은 SAM 기반 반자동 파이프라인으로 다각형 경계도 만든다.

 


주목 포인트: 굽거나 찢어진 형태의 텍스트는 사각형보다 다각형 경계가 실제 글자 윤곽을 훨씬 더 타이트하게 잡는다.

이 부분은 단순 검출뿐 아니라 이후 OCR, 번역, 복원 같은 다운스트림 작업에도 의미가 있다.
배경이 덜 섞일수록 다음 단계 모델이 읽기 쉬워지기 때문이다.

데이터셋을 보면 무엇이 다른가

규모는 이미 기존 벤치마크를 넘어선다

논문 기준으로 AnimeText는 735k 이미지를 제공한다.
TextOCR보다 이미지 수가 26.12배, ICDAR19-ArT보다 72.3배 크다.

텍스트 인스턴스 수도 크다.
4.2M 인스턴스로, TextOCR보다 4.69배, ICDAR19-ArT보다 84.71배 많다.
이미지당 평균은 5.77개다.

이 숫자의 의미는 단순히 크기 경쟁이 아니다.
애니 장면에서 드문 배치, 드문 폰트, 드문 언어 조합까지 모델이 실제로 보게 만들 수 있다는 뜻이다.

텍스트는 중앙보다 가장자리에 몰린다

자연 이미지에서는 텍스트가 화면 중앙 근처에 많이 온다.
하지만 AnimeText에서는 반대 경향이 나타난다.
텍스트가 주변부에 더 자주 배치된다.

 


주목 포인트: AnimeText는 중앙보다 가장자리 쪽에 더 진한 분포가 나타나며, 이 점이 자연 이미지와 다른 장면 구성 습관을 보여준다.

이 차이는 중요하다.
자연 장면용 검출기는 중앙 근처의 규칙적인 배치를 더 자주 봐 왔기 때문이다.

텍스트 크기 범위가 넓다

AnimeText에는 아주 작은 글자도 있고, 화면을 크게 차지하는 효과음도 있다.
한 가지 크기 가정으로는 잘 풀리지 않는 데이터다.

 


주목 포인트: 작은 텍스트부터 큰 텍스트까지 비율 범위가 넓어 한 가지 scale 전략만으로는 대응하기 어렵다는 점을 보여준다.

이 데이터는 모델이 다양한 scale에서 텍스트를 찾도록 강하게 압박한다.
검출기의 일반화 성능을 보기에도 좋은 조건이다.

텍스트 밀도도 길게 꼬리를 가진다

대부분의 이미지는 텍스트가 10개 미만이다.
하지만 긴 꼬리 구간에 50개에서 100개 이상의 텍스트를 가진 이미지가 상당수 존재한다.

 


주목 포인트: 대부분의 이미지는 낮은 밀도에 몰려 있지만 긴 꼬리 구간에 매우 복잡한 장면이 꾸준히 존재한다.

이런 장면은 단순히 박스를 많이 찍는 문제가 아니다.
글자, 캐릭터, 장식, 배경 패턴이 한 화면에 서로 얽혀 있기 때문이다.

 


주목 포인트: 모델이 어려워하는 것은 글자 수 자체보다 글자와 시각 요소가 한 화면에 촘촘히 섞인 배치다.

해상도와 색 분포도 자연 이미지와 다르다

AnimeText는 낮은 해상도 위주의 데이터셋이 아니다.
논문은 기존 자연 장면 데이터셋과 비슷한 수준의 고해상도 분포를 보고한다.

 


주목 포인트: AnimeText는 실제 활용을 염두에 둔 고해상도 영역에 두껍게 분포하며, 저해상도 샘플 모음이 아니다.

또 하나 흥미로운 점은 색 분포다.
논문은 AnimeText가 자연 이미지 계열보다 평균 밝기와 분산이 더 크다고 설명한다.
쉽게 말해 애니 장면은 채도와 대비가 더 강한 편이라는 뜻이다.

언어 분포도 애니 현실에 가깝다.

  • 일본어: 65.57%
  • 영어: 30.21%
  • 중국어: 1.44%
  • 한국어: 0.62%
  • 러시아어: 0.30%
  • 기타: 1.86%

즉 라틴 문자, 한자 계열, 한국어가 한 데이터 안에 함께 존재한다.
멀티링구얼 검출 관점에서도 꽤 실용적인 구성이다.

실험 결과가 말하는 것

이 논문의 가장 설득력 있는 부분은 교차 데이터셋 평가다.
자연 장면에서 잘 되던 모델이 애니 장면으로 넘어오면 얼마나 무너지는지 직접 보여준다.

1) 자연 장면에서 학습한 모델은 애니 장면에서 크게 무너진다

모델 자연 장면 학습 -> AnimeText 테스트 F1 AnimeText 학습 -> AnimeText 테스트 F1
YOLOv11 0.079 0.851
DBNet 0.008 0.743
LRANet 0.134 0.855

 

수치가 명확하다.
같은 모델이어도 어떤 데이터로 학습했는가가 결과를 거의 결정한다.

반대 방향도 마찬가지다.
AnimeText로만 학습한 YOLOv11을 ICDAR15에 테스트하면 F1이 0.233에 그친다.
즉 도메인 간극은 한쪽 방향만의 문제가 아니다.

이 결과는 중요한 해석을 준다.
애니 텍스트 검출의 병목은 모델 구조보다 먼저 학습 데이터의 분포 불일치에 있다.

2) 하드 네거티브 설계는 실제 성능을 끌어올린다

설정 Precision Recall mAP
하드 네거티브 필터링 없음 0.668 0.766 0.701
하드 네거티브 필터링 적용 0.857 0.819 0.756
하드 네거티브 재가중치 적용 0.878 0.825 0.806

 

핵심은 precision만 좋아진 것이 아니라는 점이다.
필터링과 재가중치를 넣으면 precision, recall, mAP가 함께 오른다.

즉 애니 장면에서는 “텍스트처럼 보이는 배경을 얼마나 잘 배웠는가”가 모델 품질을 실질적으로 좌우한다.

이 논문의 의미

이 논문은 새 모델을 제안한 논문이라기보다, 문제를 더 정확하게 정의한 데이터 논문에 가깝다.
그런 점에서 오히려 더 오래 남을 가능성이 크다.

특히 의미 있는 지점은 세 가지다.

  • 애니 장면은 독립된 분포라는 점을 정량적으로 증명했다.
  • 하드 네거티브 주석이 실제 성능 개선으로 이어진다는 점을 보여줬다.
  • 다층 박스 + 다각형 경계를 함께 제공해 검출 이후 작업까지 염두에 두었다.

그래서 이 데이터셋은 단순 detection benchmark를 넘어 다음 작업의 출발점이 될 수 있다.

  • 애니 자막 추출
  • 장면 번역
  • 만화/애니 복원
  • 멀티모달 모델의 이미지 내 텍스트 이해

한계와 다음 단계

논문도 한계를 분명히 적는다.

  • 현재는 정적 애니 장면 중심이다.
  • 텍스트 위치는 있지만 전사 정보는 없다.
  • 그래서 바로 end-to-end OCR이나 VQA용 벤치마크로 쓰기에는 부족하다.

저자들이 제시한 다음 단계도 자연스럽다.
시간축이 있는 동적 장면으로 확장하고, 텍스트 전사를 추가해 애니 OCR 벤치마크로 이어가는 것이다.

마무리

이 논문의 핵심 기여는 “애니 장면의 텍스트는 왜 어려운가”를 감각적인 설명에 머무르지 않고,
대규모 데이터 설계와 교차 평가 수치로 증명했다는 점이다.

애니 텍스트를 실제로 다뤄야 하는 사람이라면 이 논문에서 가장 먼저 가져갈 교훈은 하나다.
좋은 모델을 찾기 전에, 무엇을 텍스트로 보고 무엇을 텍스트가 아닌 것으로 볼지부터 다시 정의해야 한다.

Source

  • Ziyi Dong, Yurui Zhang, Changmao Li, Naomi Rue Golding, Qing Long, A Large-Scale Dataset for Robust Complex Anime Scene Text Detection, ICLR 2026.
  • arXiv: 2510.07951