한 줄 요약
생성에 강한 causal LLM을, 검색·분류·매칭에 강한 bidirectional encoder로 바꾸고, 같은 백본을 공유하는 vision·audio·safety 모델까지 합성하는 오픈소스 레시피를 제안한 논문이다.
왜 이 논문이 중요한가
오픈소스 생태계의 중심은 생성형 LLM이다. 코드, 수학, 비전, 오디오, 안전성에 특화된 파생 모델도 빠르게 늘었다.
반면 표현 학습은 여전히 BERT류 인코더가 주력이다. 이 구조에서는 생성형 LLM 쪽에 축적된 지식을 검색, 분류, 리트리벌, 임베딩 작업에 바로 재사용하기 어렵다.
이 논문은 이 단절을 줄이려 한다. 질문은 세 가지다.
- 단순히 causal LLM의 attention만 바꾸면 encoder가 되는가
- 원래 pretraining 데이터를 갖고 있지 않아도 스케일링이 가능한가
- specialized causal model과 자연스럽게 합성할 수 있는가
실험 맥락
- 백본: Gemma3 270M/1B, Qwen3 0.6B/1.7B
- 적응 데이터: 영어, 다국어, 수학, 코드, 이미지, 오디오
- 평가: XTREME, MTEB, MIEB, MAEB, 그리고 안전성·비전·오디오 전이 실험
핵심 아이디어 1: attention 스위치만으로는 부족하다
Causal LLM은 원래 왼쪽에서 오른쪽으로만 읽는다. 반대로 encoder는 문장의 앞뒤를 함께 본다.
논문은 먼저 causal attention을 bidirectional attention으로 바꾼다. 하지만 구조만 바꾸는 것으로는 부족하다고 본다. 모델이 실제로 양쪽 문맥을 활용하도록 다시 적응해야 한다.
그 역할을 하는 단계가 MNTP다. 일부 토큰을 가리고, 주변 문맥을 바탕으로 그 토큰을 복원하게 만든다. 중요한 점은 이 과정이 decoder 계열 모델의 학습 방식과 최대한 이어지도록 설계되었다는 점이다.
그 다음 contrastive 학습을 붙인다. 의미가 같은 쌍은 가깝게, 다른 쌍은 멀어지게 만들어 임베딩 공간을 정렬한다.

Crop 포인트: 가운데의 MNTP 단계가 단순 구조 변경을 실제 양방향 이해 능력으로 바꾸는 핵심 전환점이다.
핵심 아이디어 2: 무엇이 성능을 올리는가
이 논문의 가장 중요한 결론은 순서에 있다.
양방향 attention을 켜는 것만으로는 충분하지 않다. 반대로 contrastive만 사용하면 임베딩은 좋아져도, 다운스트림 fine-tuning 성능이 흔들릴 수 있다.
실험 결과는 이를 명확하게 보여준다.
Bi+Base: attention만 바꾸면 검색과 토큰 분류는 일부 좋아지지만, XNLI나 요약 평가처럼 문맥 이해가 중요한 작업은 불안정하다.Bi+Contrastive: 범용 임베딩은 강해진다. 하지만 분류나 회귀처럼 파라미터를 전부 조정하는 과제에서는 손실이 생긴다.Bi+MNTP: 양방향 attention의 이점을 실제 태스크 성능으로 연결한다.Bi+MNTP+Contrastive: 두 장점을 가장 안정적으로 결합한다.
즉, 먼저 MNTP로 “양방향으로 읽는 법”을 익히고, 그 다음 contrastive로 “벡터 공간에서 정렬하는 법”을 익히는 순서가 가장 강하다.

Crop 포인트: 오른쪽 MTEB와 왼쪽 태스크 성능을 함께 보면, MNTP 다음에 contrastive를 붙인 조합이 두 평가 체계를 동시에 잡는다는 점이 드러난다.
핵심 아이디어 3: 길게 학습하면 원래 지식을 잊어버린다
하지만 스케일링 단계에서는 새로운 문제가 나타난다.
영어 데이터로 적응을 계속 늘리자, 모델은 원래 갖고 있던 다국어·코드·수학 감각을 잃기 시작한다. 이것이 catastrophic forgetting이다.
논문은 실제로 아랍어 검색, 코드 검색, 수학 분류 같은 과제에서 이런 하락을 관찰한다. 새 능력을 얻는 대신 기초 지식이 빠지는 구조다.

Crop 포인트: 10B에서 30B로 갈수록 일부 선이 아래로 꺾이는 구간이, 영어 중심 적응이 다른 영역 지식을 잠식하는 지점을 보여준다.
핵심 아이디어 4: 망각은 “원본과의 절충”으로 줄일 수 있다
저자들은 여기서 선형 weight merging을 사용한다. 새로 적응한 모델과 원래 base model의 가중치를 일정 비율로 섞는 방식이다.
직관은 단순하다. 적응된 모델은 새 능력을 갖고 있다. 원본 모델은 넓은 일반 지식을 유지하고 있다. 둘이 같은 백본에서 출발했고 파라미터 공간에서도 충분히 가깝다면, 중간 지점이 더 좋은 균형을 만들 수 있다.
실험에서는 대체로 50% 근처의 비율이 가장 안정적이다. 너무 원본 쪽이면 새로 배운 양방향 능력이 약해지고, 너무 적응 쪽이면 원래 지식을 잃는다.

Crop 포인트: 여러 과제의 곡선이 중앙 부근에서 가장 높거나 안정적으로 유지되는 지점이 50% 전후 병합 비율의 의미를 설명한다.
이것만으로도 개선이 크지만, 데이터 구성도 함께 조정한다. 영어만 쓰지 말고 다국어·수학·코드 데이터를 소량 섞는 것이다.
흥미로운 점은 비율이 크지 않아도 된다는 점이다. 전체의 20% 안팎만 다영역 데이터로 바꿔도 보존 효과가 크게 난다. 원래 pretraining 데이터를 모를 때도 가벼운 다영역 보정만으로 forgetting을 상당 부분 누를 수 있다는 뜻이다.

Crop 포인트: 혼합 비율이 20% 부근에 도달하면 곡선이 빠르게 개선된 뒤 완만해지는데, 소량의 다영역 데이터만으로도 유지력이 회복된다는 뜻이다.
핵심 아이디어 5: 최종 BidirLM은 텍스트 인코더 성능 자체도 강하다
저자들은 검증된 순서를 더 큰 모델로 확장한다.
- 먼저 MNTP로 양방향 적응
- 그 다음 contrastive로 범용 임베딩 정렬
- 그리고 forgetting 완화를 위해 merging과 다영역 혼합을 적용
이렇게 만든 BidirLM 시리즈는 두 측면에서 의미가 있다.
첫째, XTREME 계열의 fine-tuning 과제에서 강하다.
둘째, 같은 모델이 그대로 MTEB 같은 범용 임베딩 평가에서도 강하다.
보통은 “태스크용 모델”과 “임베딩용 모델”이 나뉜다. 이 논문은 그 분리를 크게 줄인다. 특히 공개 데이터만 사용한 오픈소스 모델들 사이에서 새로운 Pareto frontier를 만든다는 점이 핵심이다. 저자들은 이 결과를 내는 데 별도의 proprietary distillation이나 복잡한 다중 모델 평균을 쓰지 않았다고 강조한다.

Crop 포인트: 같은 크기대에서 점선 frontier를 밀어 올리는 위치가, BidirLM이 파라미터 수 대비 성능 효율을 높였다는 핵심 근거다.
여기서 중요한 뉘앙스가 하나 있다. 이 성과는 주로 완전 공개 데이터 기반 모델들과의 비교에서 특히 돋보인다. 즉, 오픈소스 재현성과 재사용성 측면에서 의미가 크다.
핵심 아이디어 6: specialized causal model을 재학습이 아니라 합성으로 재사용한다
이 논문의 차별점은 여기서 더 분명해진다.
보통 새 modality를 붙이려면 처음부터 큰 파이프라인을 다시 학습해야 한다. 이 논문은 같은 백본을 공유하는 specialized causal model을 가볍게 합성하는 쪽을 택한다.
안전성 모델과 섞으면 moderation 분류 지식을 옮길 수 있다.
비전 모델과 섞으면 이미지-텍스트 이해를 옮길 수 있다.
오디오 모델과 섞으면 음성 이해를 옮길 수 있다.
핵심은 “같은 가족의 모델이라면, 이미 배운 전문 능력을 encoder 쪽으로 이식할 수 있다”는 점이다.
옴니모달 모델인 BidirLM-Omni-2.5B도 이 방식으로 만들어진다. 텍스트 encoder, vision model, audio model의 텍스트 backbone을 같은 비율로 병합하고, 각 modality head를 붙여 하나의 표현 공간으로 정렬한다.

Crop 포인트: 가운데 병합된 텍스트 backbone이 공통 중심축이 되고, 위쪽의 vision/audio 전문 head가 그 위에 얹히는 구조가 재사용 전략의 핵심이다.
이 설계는 결과로도 이어진다. BidirLM-Omni는 텍스트, 이미지, 오디오 평가를 동시에 보면서도 기존 옴니모달 대안 대비 더 작은 크기에서 강한 균형점을 만든다. 논문 기준으로는 Nemotron-Omni-3B보다 모든 modality에서 앞서며, 특히 텍스트와 이미지에서 이점이 크다.
다만 MAEB 전체에서는 일부 오디오 특화 모델보다 낮은 순위도 보인다. 따라서 이 모델은 “모든 단일 modality 리더보드를 장악한 모델”이라기보다, 작은 크기로 세 modality를 함께 묶어낸 효율적인 공통 encoder로 이해하는 편이 정확하다. 논문은 이런 옴니모달 조합을 만드는 추가 비용도 약 250 GPU hours 수준으로 제시한다.

Crop 포인트: 세 벤치마크를 함께 봤을 때 하나의 초록 점이 동시에 오른쪽 위로 이동하는지가 중요하며, 이 위치가 BidirLM-Omni의 균형 잡힌 효율을 보여준다.
이 논문이 남기는 메시지
- 생성형 LLM과 encoder의 경계는 생각보다 단단하지 않다.
- 마스킹 단계는 구식이 아니라, decoder를 encoder로 바꿀 때 여전히 핵심이다.
- weight merging은 단순한 편법이 아니라, 오픈소스 전문 모델을 모듈처럼 재조합하는 실용적 도구가 될 수 있다.
특히 오픈소스 관점에서 의미가 크다. 이미 학습된 code, math, safety, vision, audio 모델을 다시 버리지 않고 encoder 쪽 능력으로 누적 재사용할 수 있기 때문이다.
한계
- merging이 잘 작동하는 이유는 대부분 같은 백본 계열에서 출발하기 때문이다.
- Gemma3와 Qwen3에서의 결과가 다른 구조에도 같은 수준으로 일반화될지는 더 확인이 필요하다.
- 옴니모달 모델은 매우 효율적이지만, 모든 단일 modality 리더보드를 완전히 장악한 것은 아니다.
- 계산 절감 효과는 전문 모델이 이미 존재하는 오픈소스 생태계를 전제로 한다.
정리
BidirLM의 핵심 가치는 새 모델 하나를 만든 데만 있지 않다.
더 중요한 것은 causal LLM을 표현 학습용 encoder로 바꾸는 표준 레시피와, 같은 백본을 공유하는 specialized model을 점진적으로 합성하는 방법을 함께 제시했다는 점이다.
이 관점이 자리 잡으면, 앞으로의 encoder 개발은 “처음부터 다시 학습”보다 “이미 존재하는 생성 모델 지식을 어떻게 안전하게 재조합할 것인가”로 더 이동할 가능성이 크다.
Source
- Nicolas Boizard, Théo Deschamps-Berger, Hippolyte Gisserot-Boukhlef, Celine Hudelot, Pierre Colombo. BIDIRLM: From Text to Omnimodal Bidirectional Encoders by Adapting and Composing Causal LLMs. arXiv:2604.02045v1, 2026-04-02.
- Paper: https://arxiv.org/abs/2604.02045
- PDF: https://arxiv.org/pdf/2604.02045
- Project: https://huggingface.co/BidirLM
'AI 생성 글 정리 > agent' 카테고리의 다른 글
| Language models transmit behavioural traits through hidden signals in data 논문 정리 (0) | 2026.04.16 |
|---|---|
| Neural Computers 논문 정리 (0) | 2026.04.14 |
| HyperAgents 논문 정리 (0) | 2026.04.14 |
| Scaling Vision with Sparse Mixture of Experts 논문 정리 (0) | 2026.04.14 |
| [LightRAG: Simple and Fast Retrieval-Augmented Generation] 논문 정리 (0) | 2026.04.14 |