본문 바로가기
AI 생성 글 정리/medical

AI agent in healthcare 논문 정리

by Honbul 2026. 5. 18.

한눈에 보는 핵심

이 논문은 의료 분야의 LLM 기반 AI 에이전트를 정리한 리뷰 논문이다.

핵심 메시지는 명확하다.

  • 의료 AI는 단순한 챗봇에서 도구를 쓰고, 계획하고, 실행하는 에이전트로 이동하고 있다.
  • 적용 영역은 진단 보조에 머물지 않는다.
  • 임상 의사결정, 보고서 생성, 환자 상담, 의료교육, 약물관리, 병원 운영까지 확장되고 있다.
  • 평가는 정답률만으로 부족하다.
  • 안전성, 설명 가능성, 윤리, 환자 경험, 의료진의 신뢰까지 함께 봐야 한다.


왜 이 논문이 중요한가

LLM은 이미 의료 질문 답변, 전자의무기록 작성, 임상 의사결정 보조에 널리 쓰이고 있다.

하지만 AI 에이전트는 조금 다르다.

단순히 답을 생성하는 모델이 아니다.

의료 데이터와 외부 도구를 연결하고, 복잡한 절차를 나누고, 필요한 작업을 순서대로 수행하는 시스템에 가깝다.

의료 현장은 이런 특성과 잘 맞는다.

  • 데이터가 많다.
  • 영상, 검사, 문진, 기록이 뒤섞여 있다.
  • 판단 시간은 제한적이다.
  • 실수의 비용은 높다.
  • 업무 부담은 계속 증가하고 있다.

이 논문은 이런 상황에서 AI 에이전트가 어디까지 왔고, 무엇을 조심해야 하며, 앞으로 어떤 방향으로 발전해야 하는지 정리한다.


AI 에이전트란 무엇인가

논문은 AI 에이전트를 다음과 같이 이해한다.

LLM을 중심 제어기로 두고, 계획, 기억, 도구 사용, 자기 점검 기능을 결합한 자율 시스템이다.

 

즉, AI 에이전트는 질문에 답하는 데서 멈추지 않는다.

필요하면 외부 도구를 호출한다.

환자 기록을 살핀다.

검사 결과를 연결한다.

작업을 단계별로 쪼갠다.

그리고 최종 목표에 맞춰 실행한다.


철학적 개념에서 의료 AI 에이전트까지

AI 에이전트의 개념은 갑자기 등장하지 않았다.

논문은 그 흐름을 길게 본다.

처음에는 “스스로 목적을 갖고 행동하는 존재”라는 철학적 개념이 있었다.

 

이후 튜링 테스트, 전문가 시스템, 머신러닝, 딥러닝, 강화학습을 거치며 기술적 형태가 구체화됐다.

2022년 이후에는 LLM의 발전이 결정적 전환점이 됐다.

LLM은 에이전트에게 자연어 이해, 지식 활용, 추론, 도구 사용의 기반을 제공했다.

Crop 포인트: 오른쪽 2022년 이후 구간은 LLM이 에이전트의 중심 제어기로 올라서며
의료 에이전트 생태계가 본격화된 전환점을 보여준다.


AI 에이전트의 핵심 능력

논문은 AI 에이전트의 주요 특성을 다섯 가지로 정리한다.

1. 텍스트 이해와 생성

의료 문서, 환자 문진, 지침, 검사 설명을 이해하고 자연어로 응답한다.

환자와 의료진 모두가 이해할 수 있는 언어로 내용을 바꿔 전달할 수 있다.

2. 도구 사용과 상호작용

AI 에이전트는 외부 API나 병원 시스템과 연결될 수 있다.

예를 들어 전자의무기록, 영상저장전송시스템, 검사정보시스템에서 필요한 정보를 가져올 수 있다.

3. 작업 처리와 범용성

단일 질문 답변을 넘어 복합 업무를 처리한다.

진단 보조, 보고서 작성, 교육, 병원 행정 같은 서로 다른 업무로 확장될 수 있다.

4. 추론과 작업 분해

복잡한 문제를 단계별로 나눈다.

임상 상황에서는 증상, 검사, 과거력, 위험 요인을 분리해 판단하는 방식이 중요하다.

5. 학습과 적응

새로운 데이터와 상황에 적응한다.

적은 예시만으로도 새로운 과제에 맞춰 동작할 수 있다는 점이 기존 규칙 기반 시스템과 다르다.

Crop 포인트: 중앙의 순환 구조는 AI 에이전트가 언어 생성 모델이 아니라 도구 사용, 추론, 작업 처리,
학습을 결합한 실행형 시스템임을 보여준다.


의료 분야의 주요 적용 영역

논문은 의료 AI 에이전트의 적용 분야를 크게 일곱 가지로 나눈다.

  • 진단 보조
  • 임상 의사결정 보조
  • 의료 보고서 생성
  • 환자 건강관리
  • 의료교육
  • 약물관리
  • 병원 운영

Crop 포인트: 왼쪽은 진단, 의사결정, 보고서 생성처럼 임상 판단에 가까운 영역을 보여주고,
오른쪽은 건강관리, 교육, 약물, 병원 운영처럼 의료 시스템 전체로 확장되는 흐름을 보여준다.


1. 진단 보조

진단 보조는 가장 대표적인 활용 분야다.

AI 에이전트는 환자 정보, 검사 결과, 영상, 임상 지침을 함께 분석할 수 있다.

논문에서 언급된 방향은 세 가지다.

  • 여러 전문가 역할을 가진 에이전트가 함께 토론한다.
  • 환자와 의사의 상호작용을 시뮬레이션한다.
  • 영상, 검사, 지침 같은 다양한 데이터를 통합한다.

예시는 다양하다.

MMedAgent는 의료 도구와 멀티모달 데이터를 활용한다.

ZODIAC은 심장학 영역에서 부정맥 탐지와 진단 판단을 지원한다.

MAGDA는 영상과 임상 지침을 결합해 진단 추론을 강화한다.

 

이 접근의 장점은 명확하다.

한 명의 모델이 모든 것을 판단하는 방식보다, 여러 역할과 데이터 흐름을 나누는 방식이 더 현실적인 의료 환경에 가깝다.


2. 임상 의사결정 보조

진단 다음 단계는 의사결정이다.

치료 방향, 검사 우선순위, 응급도 판단, 다학제 협진이 여기에 포함된다.

논문은 여러 AI 에이전트가 역할을 나누는 방식을 강조한다.

 

예를 들어 일반의, 전문의, 약사, 간호사 역할을 가진 에이전트가 함께 판단할 수 있다.

이 방식은 실제 병원의 다학제 회의와 유사하다.

주요 목적은 세 가지다.

  • 판단의 일관성 강화
  • 결정 과정의 해석 가능성 향상
  • 복잡한 사례에서 합의 형성 지원

MedAgents와 MDAgents는 이런 다중 에이전트 협업의 대표 사례로 소개된다.

종양학, 응급의료, 임상 오류 수정 같은 고위험 영역에서도 비슷한 접근이 시도되고 있다.


3. 의료 보고서 생성

보고서 생성은 비교적 빠르게 연구가 진행된 영역이다.

특히 영상의학 보고서에서 활용 가능성이 크다.

 

AI 에이전트는 흉부 X-ray 같은 의료 영상을 분석하고, 병변 탐지와 분류, 위치 파악, 보고서 초안을 생성할 수 있다.

CheXagent와 CXR-agent는 흉부 X-ray 해석에 초점을 맞춘 사례다.

초기에는 전문적이고 정확한 보고서 작성이 목표였다.

최근에는 목표가 더 넓어졌다.

  • 보고서의 정확성
  • 전문성
  • 읽기 쉬움
  • 환자 친화적 표현
  • 의료진 업무 부담 감소

즉, 보고서 생성은 단순 자동 작성이 아니다.

의료진과 환자 사이의 커뮤니케이션 품질을 높이는 방향으로 발전하고 있다.


4. 환자 건강관리와 챗봇

환자-facing 영역에서는 대화형 에이전트가 중요하다.

특히 정신건강 분야에서 연구가 활발하다.

우울증 진단 보조, 스트레스 관리, 자살 사고 완화, 외로움 감소, 외상 후 고립 완화 같은 영역이 논문에 소개된다.

 

대화형 에이전트의 강점은 접근성이다.

환자는 병원 방문 전후에도 도움을 받을 수 있다.

다만 위험도 크다.

정신건강 상담에서는 잘못된 응답이 직접적인 피해로 이어질 수 있다.

따라서 의료용 챗봇은 일반 챗봇보다 더 강한 안전 설계가 필요하다.


5. 의료교육

AI 에이전트는 교육용 시뮬레이션에도 활용된다.

대표적인 방식은 가상의 환자, 의사, 코치, 평가자 역할을 구성하는 것이다.

의대생은 가상 환자와 대화한다.

시니어 의사 역할의 에이전트가 피드백을 제공한다.

코치 역할의 에이전트가 커뮤니케이션 방식을 교정한다.

 

이 방식은 반복 훈련에 유리하다.

실제 환자에게 부담을 주지 않고도 문진, 설명, 공감, 임상 추론을 연습할 수 있다.

AI Patient, MEDCO, ChatCoach가 이런 방향의 사례로 소개된다.


6. 약물관리

약물관리에서는 처방 검증, 약물 부작용 탐지, 임상시험 예측이 핵심이다.

AI 에이전트는 약물 지식 그래프와 처방 정보를 연결해 다음을 점검할 수 있다.

  • 적응증이 맞는가
  • 용량이 적절한가
  • 부작용 위험은 있는가
  • 특정 질환에 대한 약물 효과 가능성은 어떤가

Rx Strategist는 처방 검증을 지원한다.

MALADE는 약물감시에 초점을 둔다.

ClinicalAgent는 임상시험 맥락에서 약물 효과와 안전성을 평가하는 방향으로 소개된다.


7. 병원 운영과 행정 자동화

병원 운영에서는 의료진의 행정 부담을 줄이는 것이 중요하다.

전자의무기록 입력, 보험 사전 승인, ICD 코딩, 문서 탐색은 많은 시간을 차지한다.

 

AI 에이전트는 이런 업무를 자동화하거나 단순화할 수 있다.

EHRAgent는 의료진이 전자의무기록 시스템과 더 직접적으로 소통하도록 돕는다.

Almanac Copilot은 기록 탐색과 문서화 업무를 보조한다.

ColaCare는 여러 전문과 의사의 협업 판단을 모델링하는 방식으로 전자의무기록 활용을 강화한다.

이 영역의 핵심은 의료진을 대체하는 것이 아니다.

반복적인 컴퓨터 업무를 줄이고, 의료진이 환자 진료에 더 집중하도록 돕는 것이다.


평가: 정답률만 보면 안 된다

의료 AI 에이전트 평가는 단순하지 않다.

일반적인 모델 평가는 정답률, 재현율, F1-score 같은 지표에 집중한다.

하지만 의료에서는 그것만으로 부족하다.

논문은 평가를 두 층으로 나눈다.

기본 지표

평가 관점 핵심 질문
객관적 정확성 의학적 사실이나 기준 데이터와 맞는가
의미적 정확성 생성한 문장이 의도한 의미를 제대로 담고 있는가
작업 완료도 주어진 의료 업무를 끝까지 수행했는가

발전적 지표

평가 관점 핵심 질문
효율성 빠르게 응답하고 불필요한 대화를 줄이는가
내용과 표현 품질 읽기 쉽고 안전하며 윤리적으로 적절한가
인간적 배려 환자의 감정, 신뢰, 순응도, 만족도를 고려하는가

 

의료 AI 에이전트는 “맞는 답”만 내면 충분하지 않다.

그 답이 임상적으로 안전해야 한다.

의료진이 이해할 수 있어야 한다.

환자에게 전달 가능한 방식이어야 한다.

그리고 잘못된 상황에서 멈추거나 인간에게 넘길 수 있어야 한다.


핵심 리스크

논문은 의료 AI 에이전트의 가능성과 함께 네 가지 위험을 강조한다.

1. 환각

AI가 자신 있게 틀린 결론을 만들 수 있다.

희귀질환이나 애매한 증상에서 특히 위험하다.

2. 설명 가능성 부족

의료진이 AI의 판단 근거를 추적하기 어렵다면 신뢰하기 어렵다.

설명이 부족한 시스템은 실제 임상 도입에 한계가 있다.

3. 책임 소재 불명확

AI가 잘못된 진단이나 치료 권고를 냈을 때 책임이 누구에게 있는지 명확하지 않다.

개발자, 병원, 의료진, 규제기관 사이의 책임 구조가 필요하다.

4. 데이터 문제

의료 데이터는 민감하다.

성별, 인종, 지역에 따라 데이터 불균형도 생길 수 있다.

편향된 데이터는 편향된 판단으로 이어질 수 있다.


앞으로의 발전 방향

논문은 일곱 가지 미래 방향을 제시한다.

1. 물리적 로봇과 결합

AI 에이전트가 로봇과 결합하면 수술 보조, 간호 보조, 재활, 돌봄으로 확장될 수 있다.

하지만 안전, 개인정보, 책임 문제가 더 복잡해진다.

2. 하이브리드 전문가 모델

모든 문제를 하나의 모델이 처리하기보다, 전문 영역별 모델을 조합하는 방식이 중요해진다.

특정 임상 과제에는 특정 전문가 모델이 더 적합할 수 있다.

3. 평가 지표 확장

정확성뿐 아니라 비용, 안전성, 환자 만족도, 장기 유지 비용까지 평가해야 한다.

실제 병원 도입 여부는 성능 점수만으로 결정되지 않는다.

4. 안전과 위험관리

의료 AI 에이전트는 지속적으로 감시되어야 한다.

오류를 감지하고, 위험 상황에서 인간 의료진에게 넘기는 구조가 필요하다.

5. 윤리 심사와 거버넌스

데이터 프라이버시, 알고리즘 투명성, 책임 소재가 핵심이다.

특히 민감한 의료 상황에서는 독립적 윤리 검토가 필요하다.

6. 사용자 신뢰와 피드백

환자, 의료진, 병원 관리자 모두의 피드백이 중요하다.

AI 시스템은 배포 이후에도 계속 개선되어야 한다.

7. 의료진 역할의 변화

AI는 의료진을 단순히 대체하는 기술이 아니다.

반복 업무를 줄이고, 데이터 기반 판단을 돕고, 환자 중심 진료를 강화하는 보조 시스템으로 설계되어야 한다.

의료진에게는 새로운 훈련과 역할 재정의가 필요하다.


실무적으로 읽어야 할 포인트

이 논문의 실무적 메시지는 다음과 같다.

 

첫째, 의료 AI 에이전트는 단독 의사결정자가 아니라 통제 가능한 협업 도구로 도입해야 한다.

 

둘째, 병원 시스템과 연결되는 순간 위험이 커진다.

따라서 도구 호출, 데이터 접근, 기록 변경에는 명확한 권한 체계가 필요하다.

 

셋째, 평가 체계는 임상 현장을 반영해야 한다.

테스트셋 점수만 높아도 실제 진료 흐름을 방해하면 실패한 시스템이다.

 

넷째, 환자-facing 에이전트는 별도의 안전 기준이 필요하다.

특히 정신건강, 약물, 응급 증상 영역에서는 인간 전문가에게 전환하는 절차가 필수다.


논문의 한계

이 논문은 리뷰 논문이다.

따라서 실제 병원 도입 결과를 직접 검증한 연구는 아니다.

또한 AI 에이전트 분야는 매우 빠르게 변하고 있다.

논문이 포함한 연구는 2025년 2월까지의 문헌을 중심으로 한다.

새로운 모델, 규제, 임상 사례는 이후에도 계속 추가될 수 있다.


결론

의료 AI 에이전트는 의료 AI의 다음 단계다.

단순한 답변 생성에서 벗어나, 도구를 쓰고, 작업을 나누고, 의료 시스템과 연결되는 방향으로 발전하고 있다.

가능성은 크다.

 

하지만 위험도 크다.

정확성, 안전성, 설명 가능성, 윤리, 사용자 신뢰가 함께 설계되어야 한다.

의료 현장에서 중요한 질문은 “AI가 의사를 대체할 수 있는가”가 아니다.

더 현실적인 질문은 이것이다.

AI 에이전트를 어떻게 통제 가능한 방식으로 의료진의 판단과 업무 흐름에 통합할 것인가.


Source

  • Lina Zhao, Shengrui Liu, Tangsiwei Xin, Jiawen Tan, Xiaoran Wang, Yafang Li, Zihao Bian, Yiyang Chen, Fanyi Kong, Jinwei Bian, Chen Qian, Zongjiu Zhang. “AI agent in healthcare: applications, evaluations, and future directions.” npj Artificial Intelligence 2, Article 31, 2026.
  • DOI: https://doi.org/10.1038/s44387-026-00076-4
  • Figures 1–3 are from the original paper and are included unmodified in this package for non-commercial use with source attribution under the article’s CC BY-NC-ND 4.0 license. The license does not permit distributing modified derivative versions of the original figures.