본문 바로가기
AI 생성 글 정리/agent

[FT-Dojo] 논문 정리

by Honbul 2026. 5. 29.

한 줄 요약

LLM 파인튜닝을 사람이 직접 반복하는 작업에서, 에이전트가 스스로 데이터 선택, 전처리, 학습 설정, 평가 해석까지 수행하는 문제로 확장한 논문입니다.

저자들은 이를 평가하기 위해 FT-Dojo라는 환경을 만들고, 이 환경에 특화된 FT-Agent를 제안합니다.

핵심 결론은 단순합니다.

  • 범용 코딩 에이전트만으로는 LLM 파인튜닝 자동화가 어렵습니다.
  • 파인튜닝에는 데이터 전략, 학습 설정, 평가 피드백 해석이 함께 필요합니다.
  • FT-Agent는 13개 과제 중 10개에서 가장 좋은 성능을 냅니다.
  • 하지만 원인-결과를 깊게 추론하는 능력은 아직 부족합니다.

왜 이 문제가 중요한가

범용 LLM은 강력합니다.

하지만 실제 제품에서는 도메인 적응이 필요합니다.

예를 들면 다음과 같습니다.

  • 금융 시험 문제 풀이
  • 특허 심사 문서 이해
  • 화학 분자 구조 편집
  • 표 기반 질의응답
  • 고난도 수학 추론

프롬프트만으로는 안정성이 부족한 경우가 많습니다.

그래서 실무에서는 파인튜닝을 합니다.

문제는 비용입니다.

파인튜닝에는 보통 다음 작업이 필요합니다.

  • 적절한 원천 데이터 찾기
  • 노이즈 제거
  • 학습 포맷 변환
  • 하이퍼파라미터 설정
  • 학습 로그 확인
  • 평가 결과 분석
  • 실패 원인 수정
  • 다시 학습

이 논문은 질문을 바꿉니다.

“이 반복 과정을 LLM 에이전트가 끝까지 자동화할 수 있는가?”


FT-Dojo: 자동 파인튜닝을 위한 실험장

FT-Dojo는 에이전트가 파인튜닝 전 과정을 수행하도록 만든 인터랙티브 환경입니다.

에이전트는 단순히 주어진 데이터셋을 학습하지 않습니다.

직접 판단해야 합니다.

  • 어떤 데이터를 쓸지
  • 어떻게 정제할지
  • 어떤 학습 설정을 고를지
  • 평가 결과를 어떻게 해석할지
  • 다음 반복에서 무엇을 바꿀지

Crop 포인트: Meta API, Data Repository, Evaluator가 한 루프로 연결되어 있어 파인튜닝이 단발성 학습이 아니라 반복 의사결정 문제가 됩니다.

 

FT-Dojo의 구성은 세 가지 축으로 정리됩니다.

1. Meta API

과제 설명, 사용 가능한 시스템 정보, 데이터 설명, API 문서를 제공합니다.

에이전트는 여기서 “무엇을 해야 하는지”와 “무엇을 사용할 수 있는지”를 확인합니다.

2. Data Repository

여러 도메인의 원천 데이터가 모여 있습니다.

중요한 점은 과제별로 정제된 데이터가 바로 주어지지 않는다는 것입니다.

에이전트가 관련 데이터를 고르고, 필터링하고, 학습 예제로 바꿔야 합니다.

3. Evaluator

학습된 모델을 검증합니다.

단순 점수만 주지 않습니다.

  • 전체 성능 지표
  • 샘플별 예측 결과
  • 정답 여부
  • 학습 손실 흐름
  • 실패 사례

이 피드백을 읽고 다음 전략을 세우는 것이 핵심입니다.


벤치마크 구성

FT-Dojo는 5개 도메인, 13개 과제로 구성됩니다.

  • Math: AIME 2025 수준의 수학 추론
  • Patent Examination: 선행기술 검색, 신규성 분류, 관련 문단 식별
  • Chemistry: 분자 이해, 분자 편집, 분자 최적화, 반응 예측
  • Finance: 중국 금융 자격시험 기반 QA
  • Table QA: 데이터 분석, 사실 검증, 수치 추론, 시각화 코드 생성

이 구성은 파인튜닝 자동화의 어려운 지점을 잘 드러냅니다.

특히 데이터 품질이 균일하지 않습니다.

예를 들어 AIME 학습 데이터의 상당수는 풀이 과정이 없습니다.

따라서 에이전트는 답만 학습하는 것이 아니라, 추론 경로 자체를 보강해야 합니다.


왜 범용 에이전트는 부족한가

논문은 OpenHands 같은 범용 에이전트가 이 문제에서 자주 실패한다고 봅니다.

이유는 세 가지입니다.

1. 맥락이 계속 커집니다

파인튜닝은 로그, 체크포인트, 손실 곡선, 평가 결과를 계속 만듭니다.

반복이 늘수록 에이전트가 읽어야 할 정보가 폭발합니다.

중요한 신호가 긴 로그 속에 묻힙니다.

2. 실패가 비쌉니다

설정 오류나 데이터 포맷 오류가 있어도 전체 학습을 돌려버리면 시간이 크게 낭비됩니다.

LLM 파인튜닝은 특히 GPU 비용이 큽니다.

그래서 “빨리 실패하고 빨리 고치는” 구조가 필요합니다.

3. 평가 피드백이 복합적입니다

점수 하나만 보면 부족합니다.

낮은 성능의 원인이 다양하기 때문입니다.

  • 데이터가 부족한가
  • 포맷이 틀렸는가
  • 과적합인가
  • 추론 과정이 빠졌는가
  • 특정 유형에서 반복적으로 틀리는가

범용 에이전트는 이런 신호를 구조적으로 해석하지 못하는 경우가 많습니다.


FT-Agent: 파인튜닝에 맞춘 에이전트

FT-Agent는 세 단계 루프를 반복합니다.

  1. 전략 제안
  2. 구현 및 빠른 검증
  3. 피드백 분석

이 구조는 사람이 실험을 설계하고, 작은 테스트로 오류를 걸러내고, 결과를 해석해 다음 실험을 잡는 방식과 유사합니다.

Crop 포인트: 실패한 시도와 성공한 시도를 기억하면서 Strategy Proposal, Validation, Feedback Analysis가 반복되는 흐름이 핵심입니다.

1단계: 전략 제안

에이전트는 현재 최고 성능 설정을 기준으로 다음 가설을 만듭니다.

가설은 두 축을 함께 다룹니다.

  • 데이터 전략: 어떤 데이터 소스를 고르고 어떻게 정제할 것인가
  • 학습 전략: 학습률, 배치 크기, LoRA 또는 SFT, 추론 형식 등을 어떻게 조정할 것인가

중요한 점은 과거 실패를 다시 반복하지 않도록 기억을 사용한다는 것입니다.

2단계: 구현 및 Fail-Fast 검증

전체 학습을 시작하기 전에 작은 검사를 거칩니다.

  • 코드 문법과 경로 확인
  • 데이터 스키마 확인
  • 작은 샘플로 미니 실행
  • 손실 폭주, 빈 데이터셋, 잘못된 그래디언트 탐지

문제가 있으면 즉시 중단합니다.

이 덕분에 GPU 시간을 덜 낭비합니다.

3단계: 구조화된 피드백 분석

학습이 끝나면 평가 결과를 읽습니다.

단순히 “점수가 낮다”가 아니라, 실패 유형을 분해합니다.

  • 어떤 샘플에서 반복적으로 틀리는가
  • 데이터가 도메인과 맞는가
  • 손실 곡선이 과적합을 보이는가
  • 답변 포맷이 평가 기준과 맞는가
  • CoT가 필요한데 빠져 있는가

그다음 다음 반복에서 바꿀 데이터와 학습 설정을 정합니다.


실험 결과: FT-Agent가 강한 지점

실험은 12시간 제한 안에서 진행됩니다.

기본 모델은 Qwen2.5-7B-Instruct입니다.

학습은 표준 SFT 또는 LoRA로 제한됩니다.

각 과제에서 최대 2,000개 학습 샘플을 사용합니다.

비교 대상은 세 가지입니다.

  • 튜닝하지 않은 기본 모델
  • 사람이 직접 수행한 Manual SFT
  • 동일한 도구를 제공받은 OpenHands

주요 결과는 다음과 같습니다.

항목 결과
전체 과제 FT-Agent가 13개 중 10개에서 최고 성능
AIME 2025 다른 방법은 0%, FT-Agent는 13.3%
Table QA Visualization OpenHands 24%, FT-Agent 36%
Chemistry Mol Edit OpenHands 40%, FT-Agent 53.33%
평균 반복 수 OpenHands 3.69회, FT-Agent 8.77회

 

FT-Agent의 장점은 “한 번에 정답 전략을 찾는 것”이 아닙니다.

더 많은 유효 반복을 만들고, 실패에서 다음 실험을 설계하는 능력입니다.

특히 다음 상황에서 강합니다.

  • 데이터가 불완전한 경우
  • 풀이 과정이 없는 경우
  • 출력 형식이 엄격한 경우
  • 도메인 도구 검증이 필요한 경우

반대로 깔끔한 객관식 포맷처럼 감독 신호가 명확한 문제에서는 Manual SFT도 경쟁력이 있습니다.


Ablation: 무엇이 성능을 좌우하는가

저자들은 세 가지 요인을 따로 봅니다.

  • 데이터 수를 2,000개에서 5,000개로 늘리면 어떻게 되는가
  • 에이전트의 계획 모델을 바꾸면 어떻게 되는가
  • 대상 모델 크기를 7B에서 3B로 줄여도 효과가 있는가

Crop 포인트: 데이터 증가는 항상 이득이 아니며, 계획을 세우는 에이전트 백본과 반복할 시간의 균형이 성능을 크게 좌우합니다.

데이터는 많을수록 항상 좋지 않습니다

5,000개 데이터는 일부 과제에서 도움을 줍니다.

하지만 시각화 과제에서는 오히려 성능이 떨어집니다.

이유는 고정된 12시간 예산 때문입니다.

데이터가 많으면 처리와 학습에 시간이 더 들어갑니다.

그만큼 전략 반복 시간이 줄어듭니다.

계획 모델의 지능이 중요합니다

계획 백본을 GPT-5.2에서 GPT-4o로 바꾸면 절차적 과제에서 성능이 크게 흔들립니다.

같은 데이터 처리 도구를 써도, 어떤 실험을 할지 정하는 능력이 다르면 결과가 달라집니다.

작은 모델에도 효과가 있습니다

3B 모델에서도 FT-Agent는 여러 과제에서 성능을 끌어올립니다.

즉, 이 방법은 특정 크기의 모델에만 붙는 요령은 아닙니다.

에이전트가 약점을 진단하고 데이터를 재구성하는 과정 자체가 효과를 냅니다.


Case Study: 잘 배우는 경우와 못 배우는 경우

논문의 가장 흥미로운 부분은 사례 분석입니다.

FT-Agent는 어떤 과제에서는 실패를 누적 학습으로 바꿉니다.

하지만 어떤 과제에서는 원인을 제대로 찾지 못하고 기법만 바꿉니다.

Crop 포인트: 왼쪽은 실패 복구가 누적 개선으로 이어지는 사례이고, 오른쪽은 원인 진단 없이 여러 기법을 시도해도 성능이 제자리로 돌아오는 사례입니다.

성공 사례: Molecule Editing

Mol Edit에서는 처음에 심각한 실패가 발생합니다.

어휘 손상과 잘못된 포맷 때문에 성능이 낮습니다.

FT-Agent는 반복하면서 문제를 고칩니다.

  • 데이터 포맷 불일치 수정
  • RDKit 검증 도입
  • 잘못된 SMILES 제거
  • 학습 스텝 조정
  • 연산 분포 조정

결과적으로 성능이 크게 올라갑니다.

이 사례는 에이전트가 과거 실패를 저장하고, 다음 실험에서 실제로 활용할 수 있음을 보여줍니다.

실패 사례: PI4PC

반대로 특허 문단 식별 과제에서는 문제가 다릅니다.

에이전트는 성능 정체를 보고 여러 기법을 시도합니다.

하지만 근본 원인을 파악하지 못합니다.

예를 들어 NEFTune 같은 일반적 기법을 적용하지만, 실제 병목과 직접 연결되지 않습니다.

결과적으로 성능은 흔들리고, 최종 개선은 거의 없습니다.

 

이 논문이 말하는 핵심 한계는 여기입니다.

현재 에이전트는 실험 도구를 잘 조작하지만, 훈련 실패의 인과 구조를 깊게 이해하지는 못합니다.


흥미로운 발견: 도메인을 넘는 데이터 조합

FT-Agent는 때때로 목표 과제 바깥의 데이터를 가져옵니다.

이 행동은 사전에 고정된 규칙이 아닙니다.

평가 실패를 보고 필요한 능력을 보완하기 위해 데이터 조합을 찾습니다.

Crop 포인트: 수치 추론에는 수학 데이터를, 분자 최적화에는 분자 이해와 편집 데이터를 섞어 부족한 하위 능력을 보완합니다.

 

TableBench Numerical Reasoning에서는 병목이 표 이해가 아니라 계산 안정성이라고 판단합니다.

그래서 TableInstruct에 수학 데이터인 DeepScaleR을 일부 섞습니다.

 

ChemCOT Mol Opt에서는 분자 최적화에 분자 이해와 편집 능력이 함께 필요하다고 봅니다.

그래서 최적화 데이터에 Mol Edit와 Mol Und 데이터를 섞습니다.

이 전략은 단순 데이터 증강이 아닙니다.

“어떤 능력이 부족한가”를 보고 보조 데이터를 고르는 방식입니다.


중요한 한계: 로컬 최적화와 데이터 붕괴

FT-Agent가 항상 잘하는 것은 아닙니다.

시각화 과제에서는 데이터 필터링이 과도하게 적용됩니다.

각 필터는 따로 보면 합리적입니다.

  • 코드 컴파일 확인
  • 플롯 호출 확인
  • 토큰 길이 제한
  • 불량 샘플 제거

하지만 이 필터들이 합쳐지면서 학습 데이터가 1,800개 수준에서 27개로 줄어듭니다.

그 결과 성능이 급락합니다.

Crop 포인트: Loop 8에서 여러 필터의 결합 효과를 예측하지 못해 데이터가 27개로 붕괴하고 Pass@1이 4%까지 떨어집니다.

이 사례는 현재 LLM 에이전트의 계획 한계를 보여줍니다.

 

부분 결정은 그럴듯합니다.

하지만 여러 결정이 합쳐졌을 때 전체 시스템이 어떻게 변할지 충분히 시뮬레이션하지 못합니다.

논문은 이를 근시안적 최적화의 한 형태로 봅니다.


이 논문의 기여

이 논문의 기여는 세 가지로 정리할 수 있습니다.

1. 자동 파인튜닝을 독립된 에이전트 문제로 정의

기존 자동화 벤치마크는 주로 고정 데이터셋에서 모델링이나 코드 실행을 봅니다.

FT-Dojo는 데이터 선택과 학습 설정을 함께 최적화하게 만듭니다.

즉, 실제 파인튜닝 업무에 더 가깝습니다.

2. 파인튜닝 전용 에이전트 구조 제안

FT-Agent는 범용 코딩 에이전트와 다릅니다.

핵심은 세 가지입니다.

  • 구조화된 반복 계획
  • 빠른 실패 검증
  • 평가 피드백의 체계적 분석

이 세 장치가 유효 반복 수를 늘립니다.

3. 가능성과 한계를 동시에 제시

FT-Agent는 많은 과제에서 사람과 범용 에이전트를 앞섭니다.

하지만 과학자처럼 원인을 검증하는 수준에는 아직 도달하지 못합니다.

성공은 도구 사용과 반복 최적화에서 나옵니다.

한계는 인과 추론과 장기 계획에서 드러납니다.


읽을 때 주의할 점

이 논문은 “이제 파인튜닝은 완전 자동화된다”는 결론을 말하지 않습니다.

오히려 더 정교한 결론을 냅니다.

  • 자동 파인튜닝은 가능성이 있습니다.
  • 단, 범용 에이전트에 도구만 붙여서는 부족합니다.
  • 데이터와 학습을 함께 설계하는 구조가 필요합니다.
  • 평가 피드백을 제대로 읽는 능력이 중요합니다.
  • 인과적 진단과 장기 계획은 아직 약점입니다.

따라서 이 논문은 제품화된 자동 파인튜닝 시스템이라기보다, 그 방향을 평가하기 위한 초기 기준점에 가깝습니다.


실무적 시사점

LLM 파인튜닝을 자동화하려면 단순히 학습 스크립트를 생성하는 수준을 넘어서야 합니다.

실무 시스템에는 다음 기능이 필요합니다.

  • 데이터 품질 자동 진단
  • 작은 샘플 기반 사전 검증
  • 도메인별 검증 도구 연결
  • 실패 사례 클러스터링
  • 학습 로그 요약
  • 실험 히스토리 관리
  • 다음 실험 가설 생성

FT-Agent는 이 방향의 프로토타입입니다.

특히 비용이 큰 GPU 학습에서는 Fail-Fast 구조가 중요합니다.

실패를 완전히 없애는 것보다, 실패를 작고 빠르게 만드는 것이 더 현실적입니다.


결론

FT-Dojo는 LLM 파인튜닝을 에이전트 자동화 문제로 끌어올린 벤치마크입니다.

FT-Agent는 이 환경에서 데이터 전략, 학습 설정, 평가 해석을 반복적으로 조정합니다.

결과는 강합니다.

13개 과제 중 10개에서 최고 성능을 냅니다.

특히 풀이 과정이 부족하거나, 출력 형식이 엄격하거나, 도메인 검증이 필요한 과제에서 효과가 큽니다.

 

그러나 한계도 분명합니다.

현재 에이전트는 “무엇을 바꿔볼지”는 잘 찾습니다.

하지만 “왜 그 변화가 효과가 있는지”를 깊게 검증하는 능력은 부족합니다.

자동 파인튜닝의 다음 단계는 단순 반복이 아닙니다.

훈련 실패의 원인을 더 잘 설명하고, 여러 결정의 장기 효과를 예측하는 에이전트입니다.


Source