title: "LLM으로 독일어 퇴원요약서 초안을 자동 생성할 수 있을까?"
description: "Ganzinger et al. (2025) 논문 핵심 정리와 블로그용 포인트"
tags:
- LLM
- Clinical NLP
- Healthcare AI
- Discharge Summary
- German
paper_title: "Automated generation of discharge summaries: leveraging large language models with clinical data"
journal: "Scientific Reports"
year: 2025
doi: "10.1038/s41598-025-01618-7"
Ganzinger et al., Scientific Reports (2025)
논문 제목: Automated generation of discharge summaries: leveraging large language models with clinical data
한눈에 보는 결론
이 논문은 구조화된 임상 데이터만으로 독일어 퇴원요약서(discharge summary) 초안을 생성할 수 있는지를 검증한 연구다. 결론부터 말하면, LLM이 “바로 전송 가능한 최종 문서”를 만드는 단계는 아니지만, 의사가 수정 가능한 초안을 만드는 용도에는 가능성이 있다. 다만 성능의 상한은 모델 자체보다도 입력 데이터의 완전성, 프롬프트 설계, 후처리, 그리고 사람 검수 체계에 크게 좌우된다는 점을 분명하게 보여준다.
가장 중요한 포인트
이 논문은 “LLM이 원본 EHR를 처음부터 끝까지 읽고 퇴원요약서를 자동 완성했다”는 연구가 아니다.
실제로는 의료진이 EHR에서 구조화 데이터를 수작업으로 추출했고,
LLaMA3는 그 구조화된 입력을 바탕으로 서술형 문서 초안을 생성했다.
즉, 이 연구의 핵심은 raw EHR -> summary보다 structured data -> narrative draft에 가깝다.
왜 이 논문이 중요한가
퇴원요약서는 병원 밖 진료로 환자가 넘어갈 때 핵심이 되는 문서다. 문제는 이 문서가 시간이 많이 들고, 동시에 지연되면 재입원 위험이나 약물 오류 가능성을 높일 수 있는 시간 민감 문서라는 점이다. 이 논문은 이미 연구/품질관리 목적으로 수집하던 구조화 데이터를 2차 활용해, 의사의 문서 작성 부담을 줄일 수 있는지를 본다.
이 연구가 특히 흥미로운 이유는 다음 세 가지다.
- 오픈소스 LLM + 로컬 배포라는 현실적인 조건을 전제로 했다.
- 영어가 아닌 독일어 의료 문서 생성을 다뤘다.
- “의사를 대체”하려는 접근이 아니라, Human-in-the-Loop 초안 생성이라는 보수적이고 실용적인 목적을 잡았다.
연구가 실제로 한 일
1) 데이터
- 대상: 췌장 수술 환자 25명
- 기관: Heidelberg University Hospital
- 범위: 일반 입원/IMC 환자 중심, ICU 환자는 제외
- 입력 데이터 출처:
- 환자 자가 기입 문진
- 입원 시 문진
- 수술 중 기록
- 입원 경과 기록
2) 중요한 전제
입력은 병원 EHR 원문 그대로가 아니라, 의료진이 수작업으로 정리한 구조화 데이터다. 이 점 때문에 이 연구는 “의료 LLM의 문서화 능력”뿐 아니라, 입력 스키마 설계가 결과를 얼마나 좌우하는지도 함께 보여준다.
3) 모델 선택과 세팅
연구진은 SauerkrautLM, OpenBioLLM, LLaMA3 등을 검토한 뒤 LLaMA3를 선택했다. 이유는 독일어 처리, 의료 문맥 적합성, 오픈소스/로컬 배포 가능성, 그리고 제한된 GPU 환경에서의 실행 가능성이었다.
실험은 NVIDIA RTX A6000(48GB), temperature 0.2, 1000 토큰 생성 한도 조건에서 진행됐다.
4) 목표
목표는 “완전 자동 작성”이 아니다. 논문이 지향한 산출물은 의사가 검토하고 수정할 수 있는 초안이다. 이 포지셔닝은 논문 전체를 이해하는 데 매우 중요하다.
시각자료 1. 어떤 프롬프트 엔지니어링이 실제로 도움이 되었나

원문 Table 2 crop. 역할 부여(role), 독일어 고정, 목표 명시, 문단별 내용 설명, 출력 템플릿 지정은 도움이 되었고, 길이 제한이나 “문법에 주의하라” 같은 지시는 뚜렷한 개선을 만들지 못했다.
이 표가 주는 메시지는 단순하다.
좋은 프롬프트는 “예쁘게 써라”가 아니라 “무엇을, 어떤 구조로, 누구를 위해 쓰는가”를 명확히 규정하는 것이라는 점이다.
이 논문에서 효과가 있었던 요소는 크게 두 축이다.
- Role pattern: “대학병원 병동 의사로서, 환자의 일반의에게 보내는 퇴원요약서를 작성하라”
- Template pattern: 결과를 반드시
Medical history and findings와Therapy and course두 문단 구조로 만들기
반대로 직관적으로 좋아 보이는 지시였던 “문법에 신경 써라”, “2000자 정도로 써라”, “관련 정보만 스스로 골라라”는 눈에 띄는 개선을 만들지 못했다.
시각자료 2. 최종 프롬프트는 어떻게 생겼나

원문 Table 3 crop. 최종 프롬프트는 역할 설정 + 문단별 목적 설명 + 금지 섹션 명시 + 구조화 데이터 삽입 + 출력 형식 지정으로 이루어진다.
이 프롬프트 설계에서 눈여겨볼 부분은 다음이다.
- 모델에게 누가 쓸 문서인지를 먼저 알려준다.
- 두 개 문단 각각에 대해 무엇을 써야 하는지를 분리해서 설명한다.
- Diagnosis, Therapy, Histology, Procedure, Medication 같은 다른 섹션은 자동 생성되므로 쓰지 말라고 제한한다.
- 구조화 데이터를
{data}자리에 삽입해 data-to-text generation 과업으로 바꾼다.
즉, 이 논문은 프롬프트를 “스타일 지시문”이 아니라 과업 명세서(task specification)처럼 사용한다.
시각자료 3. Prompt chaining은 왜 필요했고, 왜 또 까다로웠나

원문 Table 4 crop. prompt chaining은 복잡한 케이스에서 도움이 되었지만, 최종 답변이 대화 맥락 안에 섞여 나오는 문제가 있었고, 연구진은 이를 추출하기 위한 패턴 매칭 후처리를 별도로 만들었다.
이 대목은 실무 관점에서 특히 중요하다.
연구진은 복잡한 환자 케이스를 더 잘 다루기 위해 prompt chaining을 시도했다. 즉, 한 번에 다 쓰게 하기보다:
- 구조화 데이터를 정리하고
Medical history and findings를 쓰고Therapy and course를 쓰고- 두 문단을 결합/정제하고
- 원데이터와 대조해 검토하는
식으로 단계를 나눴다.
이 접근은 일부 케이스에서 유용했지만, 부작용도 있었다. 모델이 최종 퇴원요약서를 대화 전체 안에 섞어서 내놓아 최종본만 안정적으로 추출하기 어려웠다. 그래서 연구진은 제목 패턴과 문단 구조를 기반으로 추출용 패턴 매칭 로직까지 구현했다.
즉, 생성 품질만큼 후처리 파이프라인도 중요하다는 뜻이다.
핵심 결과
1) 전반적 성능
모든 25개 케이스에서 요약서는 생성되었다. 생성 자체는 안정적이었다.
| 항목 | 결과 | 해석 |
|---|---|---|
| 생성 성공 | 25 / 25 | 모든 케이스에서 초안 생성 |
| 평균 생성 시간 | 112.89 ± 8.19초 | 전처리 제외 |
| 평균 오류 수 | 2.84 ± 1.71건/요약서 | 임상 사용 전 검수 필요 |
| ROUGE-1 | 0.25 ± 0.04 | 의사 작성본과 어휘 일치도는 낮은 편 |
| ROUGE-2 | 0.06 ± 0.03 | 문장/구문 수준 겹침은 더 낮음 |
| ROUGE-L | 0.24 ± 0.04 | 긴 공통 시퀀스도 제한적 |
| BERTScore | 0.64 ± 0.01 | 의미적 유사도는 중간 정도 |
| 포괄성 | 3.72 ± 0.89 | 4개 평가축 중 가장 취약 |
| 간결성 | 3.96 ± 0.84 | 가장 높은 항목 |
| 사실 정확성 | 3.88 ± 0.97 | 초안 수준으로는 나쁘지 않음 |
| 유창성 | 3.88 ± 0.83 | 전반적으로 읽히는 문장 생성 |
2) 반드시 같이 봐야 할 해석
정량 점수만 보면 “ROUGE가 낮다”는 인상이 강할 수 있다. 하지만 이 논문에서는 원래부터 입력에 없는 정보가 많았다. 연구진이 10개 샘플을 확인했을 때, 의사 작성 요약서의 핵심 두 섹션 중 약 54%만 구조화 데이터에 존재했고, 나머지 46%는 LLM이 애초에 볼 수 없는 정보였다.
즉, 낮은 포괄성은 모델 문제이기도 하지만, 동시에 입력 데이터 커버리지의 한계이기도 하다.
시각자료 4. 의료진 정성평가는 어떻게 나왔나

원문 Figure 1 crop. 평가 분포는 대체로 4-5점에 몰리지만, 특히 포괄성(comprehensiveness)에서 2-3점 평가도 적지 않게 보인다. 즉, “읽을 수는 있는데 빠진 정보가 있다”는 인상에 가깝다.
정성평가는 의사/의대생 5명이 무작위 5개 요약서를 대상으로 수행했다. 각 요약서는 포괄성, 간결성, 사실 정확성, 유창성 네 항목으로 평가되었다.
이 그림의 핵심 해석은 다음과 같다.
- 1점(매우 나쁨)을 받은 경우는 없었다.
- 대체로 4점과 5점에 분포가 몰려 있어, 초안으로서의 가독성은 확보된 편이다.
- 하지만 포괄성 분포가 가장 넓고 평균도 가장 낮다.
- 논문 본문 기준으로 “좋음(4점 또는 5점)” 비율은
- 포괄성 60%
- 간결성 72%
- 사실 정확성 80%
- 유창성 68%였다.
한마디로 요약하면,
“완전히 틀린 문서”라기보다는, 대체로 읽히지만 중요한 정보가 빠질 수 있는 초안”에 가깝다.
어떤 오류가 자주 나왔나
논문에서 반복적으로 관찰된 오류는 크게 다섯 부류로 묶을 수 있다.
| 오류 유형 | 논문에서 관찰된 문제 | 실무적 의미 |
|---|---|---|
| 시간 추론 오류 | 나이 계산 오류, 첫 진단일과 첫 내원일 혼동 | LLM만 믿고 날짜 계산을 맡기면 위험 |
| 입력 규칙 오해 | 정상 범위의 배변 횟수를 병적 상태로 서술 | 규칙 기반 전처리/검증 필요 |
| 문자 그대로 복사 | 성별 표기나 표현이 맥락에 맞게 변환되지 않음 | 표준화된 언어 변환 계층 필요 |
| 모호/부정확 서술 | 인과관계가 어색하거나 중요한 중단 사유 누락 | 임상 의미 왜곡 가능 |
| 환각/누락 | 조기 보행 지연처럼 원데이터에 없는 내용 생성, 흡연/음주/가족력 누락 | HITL 검수 필수 |
특히 인상적인 부분은 나이 계산 오류가 3분의 1에서 발생했다는 점이다. 연구진은 이 문제를 해결하려면 LLM에게 맡기지 말고 전처리 단계에서 나이를 계산해 구조화 데이터에 직접 넣는 편이 낫다고 제안한다.
이건 의료 AI뿐 아니라 일반 엔터프라이즈 문서 자동화에도 중요한 교훈이다.
LLM이 “추론해야 하는 값”은 미리 계산해 넣는 편이 안전하다.
In-Context Learning(ICL)은 왜 오히려 안 좋아졌나
이 논문에서 의외의 포인트는 ICL이 성능을 올리지 못했다는 점이다. one-shot, two-shot 예시를 넣어봤지만, 모델이 예시 문장 구조를 너무 강하게 따라 하면서 맥락에 맞지 않는 표현까지 그대로 복사하는 경향이 나타났다. 결과적으로 오류가 늘었다.
즉, 이 과업에서는
“좋은 예시를 더 주면 더 잘 쓸 것”이라는 직관이 반드시 성립하지 않았다.
연구진의 결론은 명확하다.
- iterative prompt engineering과 prompt chaining은 어느 정도 도움이 됐다.
- 하지만 ICL은 오히려 해가 될 수 있었다.
이 부분은 블로그에서 강조하기 좋다. 많은 LLM 활용 글이 few-shot을 만능처럼 다루지만, 실제 복잡한 임상 문서 생성에서는 예시 기반 유도보다 과업 구조화가 더 중요할 수 있다.
이 논문의 진짜 메시지
이 논문을 한 문장으로 요약하면 다음과 같다.
의료 문서 자동화의 병목은 모델 하나가 아니라, 데이터 완전성 + 과업 설계 + 후처리 + 사람 검수 체계다.
조금 더 풀어서 말하면:
- 입력에 없는 정보는 생성 품질의 한계를 만든다.
- 프롬프트는 문장 스타일보다 문서 구조를 규정해야 한다.
- 복잡한 케이스일수록 chaining과 후처리가 중요해진다.
- 완전 자동화보다 editable draft + physician review가 현실적이다.
논문의 한계도 분명하다
이 연구는 흥미롭지만, 그대로 과장해서 받아들이면 안 된다.
- 표본이 25건으로 작다.
일반화에는 제한이 있다. - 도메인이 췌장 수술로 좁다.
다른 진료과, 응급의학, 내과, ICU 등으로 바로 확장하기 어렵다. - 입력이 수작업 구조화 데이터다.
즉, 전체 워크플로 자동화의 성능을 검증한 것은 아니다. - 정성평가 규모가 작다.
평가자는 5명, 평가 요약서는 5개였다. - 독일어 의료 용어와 문법 한계가 남아 있다.
문법/철자/성별 표현 문제도 반복적으로 등장했다.
그래서 이 논문은 “이미 실전 배포 가능한 시스템”을 보여준다기보다,
“무엇이 가능하고 무엇이 아직 위험한지”를 상당히 정직하게 보여주는 탐색 연구로 읽는 편이 맞다.
실무/제품 관점에서 바로 얻을 수 있는 인사이트
1. 생성 전에 계산할 수 있는 값은 계산해서 넣어라
나이, 재원일수, 날짜 간 차이, 검사 이상 여부 같은 값은 LLM이 추론하게 두기보다 전처리 단계에서 확정값으로 제공하는 편이 안전하다.
2. free-text 전체를 던지기보다, 좋은 입력 스키마를 설계하라
이 논문은 프롬프트보다도 입력 데이터의 설계와 정리 방식이 얼마나 중요한지를 보여준다.
3. few-shot은 만능이 아니다
복잡한 서술형 의료 문서에서는 예시가 도움이 되기보다 복사 오류를 늘릴 수 있다.
4. 평가는 ROUGE만으로 끝내면 안 된다
의료 문서는 임상적으로 중요한 사실을 빠뜨렸는지가 더 중요하다. 이 논문도 ROUGE/BERTScore를 쓰되, 오류 분석과 전문가 평가를 함께 수행했다.
5. 가장 현실적인 배치는 Human-in-the-Loop다
당장 실무에서 쓸 수 있는 형태는 자동 초안 생성 + 의료진 검토/수정이다. 논문 역시 같은 방향을 지지한다.
강조 포인트 5가지
- 오픈소스 LLM으로도 의료 문서 초안 생성은 가능하다.
- 하지만 성능의 진짜 상한은 입력 데이터의 완전성이 결정한다.
- 이 연구는 end-to-end EHR 자동화가 아니라 structured data 기반 narrative generation이다.
- Prompt engineering과 chaining은 유효했지만, ICL은 오히려 악화될 수 있었다.
- 실전 적용의 핵심은 autonomous AI가 아니라 Human-in-the-Loop 문서화 지원이다.
3문장 요약
Ganzinger 등은 구조화된 임상 데이터를 이용해 오픈소스 LLaMA3로 독일어 퇴원요약서 초안을 생성할 수 있는지 실험했다. 결과적으로 초안 생성 자체는 가능했지만, 포괄성 부족과 시간 추론 오류, 일부 환각 때문에 최종 문서로 바로 쓰기에는 한계가 있었다. 이 논문이 보여준 핵심은 의료 문서 자동화의 성패가 모델 하나보다 입력 데이터의 완전성, 프롬프트 구조화, 후처리, 그리고 사람 검수 체계에 달려 있다는 점이다.
Figure/Table 재사용 메모
이 논문은 Open Access이며 CC BY 4.0 라이선스로 배포된다.
블로그에 원문 figure/table crop을 사용할 때는 다음 정도의 출처 표기를 권장한다.
Source: Adapted/cropped from Ganzinger et al., Automated generation of discharge summaries: leveraging large language models with clinical data, Scientific Reports (2025), doi:10.1038/s41598-025-01618-7, CC BY 4.0.
최종 코멘트
이 논문은 “LLM이 의사를 대체한다”는 종류의 과장된 메시지와는 거리가 멀다. 오히려 문서 초안 자동화의 현실적인 한계와 가능성을 상당히 균형 있게 보여준다.
블로그에서는 특히 아래 한 문장을 중심 메시지로 잡으면 좋다.
의료 문서 생성에서 가장 어려운 것은 문장을 그럴듯하게 쓰는 일이 아니라, 빠짐없는 구조화 입력과 안전한 검수 체계를 만드는 일이다.
'AI 생성 글 정리 > medical' 카테고리의 다른 글
| AI agent in healthcare 논문 정리 (0) | 2026.05.18 |
|---|---|
| Accurate discharge summary generation using fine tuned large language models with self evaluation 논문 핵심 정리 (0) | 2026.04.07 |
| EHRNoteQA 논문 핵심 정리 (0) | 2026.04.06 |
| MIMIC-IV 임상노트 요약용 LLM 벤치마크 논문 정리 (0) | 2026.04.06 |
| MEDOPENCLAW 논문 정리: 정적 2D를 넘어 전체 검사를 읽는 의료영상 에이전트 (1) | 2026.03.31 |