원문: Google Research & Google DeepMind, MedGemma Technical Report (arXiv:2507.05201v3, 2025-07-15)
한 줄 요약
MedGemma는 “의료 특화 오픈 멀티모달 모델 + 의료 이미지 인코더” 패키지이며, 특히 4B 멀티모달 모델이 파라미터 대비 매우 강한 성능을 보여준다는 점이 이 논문의 핵심입니다.
5줄 요약
- MedGemma는 Gemma 3 기반의 의료 특화 모델 컬렉션으로, 핵심 구성은
MedGemma 4B Multimodal,MedGemma 27B Text,MedSigLIP입니다. 본문은 이 3개를 중심으로 설명하고, 부록에서27B Multimodal의 예비 결과도 공개합니다. - 논문은 의료 텍스트 QA, 의료 이미지 분류, 의료 VQA, 흉부 X-ray 보고서 생성, agentic evaluation까지 폭넓게 평가합니다.
- 추상(Abstract) 기준으로, MedGemma는 base Gemma 3 대비 OOD medical multimodal QA에서 2.6~10%, chest X-ray finding classification에서 15.5~18.1%, agentic evaluation에서 10.8% 향상을 보고합니다.
- 특히 의료 이미지 계열 작업에서 4B 멀티모달 모델의 효율이 두드러지며, fine-tuning 이후 성능 상승폭도 큽니다.
- 다만 일부 평가는 내부 데이터셋 기반이고, 일부 벤치마크는 포화 또는 데이터 누수 가능성이 있어, “좋은 연구 결과”와 “곧바로 임상 적용 가능”을 동일시하면 안 됩니다.
1. 이 논문이 다루는 문제
범용 멀티모달 모델은 이미지와 텍스트를 함께 다루는 능력은 좋지만, 의료 영역에서는 세부적이고 전문적인 해석 능력이 부족할 수 있습니다. 저자들은 이 간극을 메우기 위해, Gemma 3의 일반 역량을 최대한 유지하면서도 의료 텍스트와 의료 이미지를 더 잘 해석하는 오픈 모델을 만들고자 했습니다.
이 논문이 흥미로운 이유는 단순히 “의료 모델 하나 더 나왔다”가 아니라, 다음 질문에 꽤 분명하게 답하기 때문입니다.
- 오픈 모델이 의료 특화에서 어디까지 갈 수 있는가?
- 작은 모델(4B)도 실제로 충분히 강한가?
- 의료 이미지 인코더를 별도로 분리해도 가치가 있는가?
- fine-tuning을 붙였을 때 실전 성능이 얼마나 더 올라가는가?
2. 무엇을 만들었나
| 구성 요소 | 입력 | 출력 | 역할 | 핵심 포인트 |
|---|---|---|---|---|
| MedSigLIP | 이미지 | 임베딩 | 의료 이미지 인코더 | zero-shot 분류·검색·retrieval의 기반 |
| MedGemma 4B Multimodal | 텍스트, 이미지, 또는 둘 다 | 텍스트 | 핵심 멀티모달 모델 | 의료 이미지 이해, VQA, 보고서 생성에 강함 |
| MedGemma 27B Text | 텍스트 | 텍스트 | 고성능 의료 reasoning 모델 | 텍스트 QA, agentic task, EHR reasoning에 유리 |
| MedGemma 27B Multimodal (부록) | 텍스트 + 이미지 | 텍스트 | 예비 공개 버전 | 본문보다 평가가 덜 완료됨 |

그림 1. MedGemma 컬렉션 개요 (원문 Figure 1, p.2).
포인트: MedSigLIP이 이미지 인코더 역할을 하고, 그 위에 MedGemma 4B Multimodal, MedGemma 27B Text가 놓이며, 최종적으로 radiology / dermatology / digital pathology / ophthalmology / medical text 전반의 응용으로 이어지는 구조입니다.
3. 어떻게 학습했나
3-1. 데이터 구성
논문은 Gemma 3 / SigLIP의 기존 일반 데이터 혼합을 유지하면서, 의료 데이터를 추가합니다. 핵심만 추리면 다음과 같습니다.
| 영역 | 대표 데이터 | 규모 / 비고 |
|---|---|---|
| 의료 텍스트 QA | MedQA, MedMCQA, PubMedQA, MedExpQA, AfriMed-QA, HealthSearchQA, LiveQA | 여기에 Synthetic 200,000 의료 질문 추가 |
| Radiology | MIMIC-CXR, SLAKE, VQA-RAD, CT-US1, MRI-US1 | MIMIC-CXR 231,483, CT slices 59,979, MRI slices 47,622 |
| Histopathology | Internal histopathology | 32,550,599 patch-text pairs |
| Dermatology | PAD-UFES-20, internal dermatology | internal dermatology 51,049 images, 210 skin conditions |
| Ophthalmology | EyePACS | 199,258 fundus images |
| General medical image-text | PMC | 41,853 single-panel medical images |
의료 데이터 쪽에서 특히 눈에 띄는 점은 histopathology patch-text 쌍이 3,255만 개로 매우 크다는 점입니다. 즉, 이 논문은 단순히 radiology 한 분야에만 집중한 것이 아니라 여러 의료 modality를 하나의 모델군으로 묶으려는 시도에 가깝습니다.
3-2. 학습 파이프라인
저자들은 학습을 크게 세 단계로 설명합니다.
- Vision encoder enhancement
- SigLIP-400M 기반 vision encoder를 의료 이미지-텍스트 데이터로 추가 tuning
- 의료 이미지의 미세한 차이를 더 잘 구분하도록 만드는 단계
- Multimodal decoder pretraining
- Gemma 3 checkpoint를 이어받아 멀티모달 적응을 진행
- 일반 이미지-텍스트 역량을 유지하면서 의료 이미지 역량을 추가
- Post-training (Distillation + RL)
- 의료 텍스트 지식은 distillation으로 강화
- 의료 이미지-텍스트 paired data는 RL로 추가 강화
- 논문은 멀티모달 post-training에서 RL이 SFT보다 더 잘 일반화되는 경향이 있었다고 설명합니다
3-3. 구현 관점에서 중요한 세부 사항
- 입력 해상도는 896×896, 픽셀은
[-1, 1]로 정규화 - tokenizer는 SentencePiece 262k
- long context는 128k
- 공개된 MedSigLIP은 448×448 버전인데, 이는 커뮤니티가 더 가볍게 실험할 수 있도록 한 선택입니다
- CT 이미지는 bone/lung, soft tissue, brain window를 RGB 채널에 넣는 방식으로 전처리합니다
실무적으로 해석하면, 이 논문은 단순히 “의료 데이터 몇 개 섞었다” 수준이 아니라, 의료 영상 쪽 encoder를 따로 밀어 올리고, 그 다음 멀티모달 LM을 다시 적응시키는 2단 구조를 취합니다. 이 점이 결과 차이를 설명하는 핵심입니다.
4. 어떻게 평가했나
MedGemma는 아래 5개 축으로 평가됩니다.
- 의료 텍스트 QA
- 의료 이미지 분류
- 의료 VQA
- 흉부 X-ray 보고서 생성
- 의료 agentic behavior
그리고 specialization의 대가가 큰지 확인하기 위해, MMLU Pro / Global MMLU Lite / MMMU 같은 일반 벤치마크도 같이 봅니다.
즉, 이 논문의 메시지는 단순합니다.
“의료 특화 성능을 올리면서도, 일반 모델로서 너무 많이 망가지지는 않았는가?”
5. 핵심 결과
5-1. 텍스트 의료 QA: 4B도 강하고, 27B는 reasoning이 더 강하다
가장 먼저 눈에 띄는 것은 같은 크기의 Gemma 3 대비 성능 향상입니다.
| 지표 | MedGemma 4B | Gemma 3 4B | 차이 |
|---|---|---|---|
| MedQA | 64.4 | 50.7 | +13.7 |
| MedMCQA | 55.7 | 45.4 | +10.3 |
| PubMedQA | 73.4 | 68.4 | +5.0 |
| AfriMed-QA | 52.0 | 48.0 | +4.0 |
(Table 3, p.9)
27B는 더 강합니다. 다만 Table 3의 27B 수치는 test-time scaling 포함 결과라는 점은 꼭 같이 적어두는 것이 좋습니다.
- MedGemma 27B (test-time scaling): MedQA 87.7, MedMCQA 74.2
- Gemma 3 27B: MedQA 74.9, MedMCQA 62.6
(Table 3, p.9)
OOD 텍스트 벤치마크인 MedXpertQA에서도 개선이 보입니다.
- MedGemma 4B: 14.2 vs Gemma 3 4B 11.6
- MedGemma 27B: 25.7 vs Gemma 3 27B 15.7
(Table 4, p.9)
해석
이 결과는 “의료 특화 tuning이 정말 텍스트 reasoning에도 먹히는가?”에 대한 답입니다. 결론은 그렇다입니다. 특히 27B는 medical QA나 agentic reasoning에 더 적합한 축으로 읽히고, 4B는 “생각보다 꽤 쓸 만한 오픈 경량 의료 모델”이라는 인상을 줍니다.
5-2. 의료 이미지 분류: MedGemma 4B의 가장 인상적인 구간
의료 이미지 분류에서 MedGemma 4B는 base Gemma 3 4B를 매우 크게 앞섭니다.
| 과제 | MedGemma 4B | Gemma 3 4B | 차이 |
|---|---|---|---|
| MIMIC-CXR (Med-Gemini test set) | 88.9 | 81.2 | +7.7 |
| CheXpert (OOD) | 48.1 | 32.6 | +15.5 |
| CXR14 (OOD) | 50.1 | 32.0 | +18.1 |
| PathMCQA | 69.8 | 37.1 | +32.7 |
| US-Derm MCQA | 71.8 | 52.5 | +19.3 |
| EyePACS | 64.9 | 14.4 | +50.5 |
(Tables 7–8, p.14)
해석
이 표는 이 논문의 가장 강한 메시지 중 하나입니다.
- 의료 이미지 쪽에서는 MedGemma 4B가 “작지만 강한 모델”로 보입니다.
- 특히 OOD chest X-ray 분류에서 +15.5 ~ +18.1 포인트 차이가 나는 것은 꽤 크고, 이는 abstract의 headline 숫자와도 연결됩니다.
- EyePACS 같은 retinal task에서의 차이는 특히 극적이라, 의료 이미지 encoder와 멀티모달 적응이 실제로 유의미한 효과를 냈다고 해석할 수 있습니다.
저자들도 p.14에서, 의료 vision task에서 작은 특화 모델이 훨씬 큰 범용 모델을 이기기도 했다고 정리합니다. 또 가장 비싼 비교 모델과 MedGemma 4B 사이에는 약 500배 수준의 compute cost 차이가 있었다고 언급합니다.
5-3. 의료 VQA: 단순 분류가 아니라 이미지 기반 질의응답도 강하다
VQA 결과도 분명합니다.
| 지표 | MedGemma 4B | Gemma 3 4B | 차이 |
|---|---|---|---|
| SLAKE overall token F1 | 72.3 | 40.2 | +32.1 |
| SLAKE closed-ended accuracy | 87.6 | 53.0 | +34.6 |
| VQA-RAD overall token F1 | 49.9 | 33.6 | +16.3 |
| VQA-RAD closed Q&A accuracy | 69.1 | 48.7 | +20.4 |
(Table 9, p.15)
흥미로운 점은 MedGemma 4B가 Med-Gemini와도 크게 벌어지지 않는 구간이 있다는 것입니다.
- SLAKE overall token F1: 72.3 vs Med-Gemini 75.8
- VQA-RAD overall token F1: 49.9 vs Med-Gemini 50.1
(Table 9, p.15)
즉, 4B 멀티모달 모델이 의료 VQA에서는 surprisingly competitive하다는 것이 이 논문의 중요한 포인트입니다.

그림 2. CXR와 dermatology 예시 대화 (원문 Figure 2, p.12).
포인트: 단순 분류가 아니라, 이미지 설명 → 질환 추정 → 추가 질문/권고까지 이어지는 open-ended interaction이 가능하다는 점을 보여줍니다.

그림 3. Histopathology open-ended QA 예시 (원문 Figure 3, p.13).
포인트: 이 논문이 radiology만 다루지 않고, 병리 이미지까지 같은 틀에서 다루려 한다는 점을 잘 보여주는 그림입니다.
5-4. 흉부 X-ray 보고서 생성: 자동 metric도 좋고, 사람 평가도 나쁘지 않다
자동 metric 기준으로, pretrained MedGemma 4B PT는 MIMIC-CXR에서 RadGraph F1 = 29.5를 기록합니다.
| 모델 | 설정 | RadGraph F1 |
|---|---|---|
| Med-Gemini-2D | F + I | 24.4 |
| PaliGemma 2 10B | F + I | 29.5 |
| MedVersa | F + I | 30.0 |
| MedGemma 4B PT | F + I | 29.5 |
(Table 10, p.15)
숫자만 보면 최고는 아니지만 매우 근접합니다. 그런데 이 논문의 진짜 흥미로운 부분은 사람 평가입니다.
- 전체 케이스의 81%에서 MedGemma 보고서가 원본 보고서와 동일하거나 더 나은 clinical decision으로 이어졌다고 평가
- 정상 영상에서는 68%
- 비정상 영상에서는 49%가 원본과 동등 또는 우수
(Figure 4 설명, p.13)

그림 4. 생성 보고서와 원본 보고서의 사람 평가 분포 (원문 Figure 4, p.13).
포인트: “자동 metric이 높다”를 넘어, 실제 임상적 판단에 미치는 영향까지 보려는 시도라는 점이 중요합니다.
다만 이 평가는 리뷰어가 원본/AI 보고서를 blind 상태로 본 것은 아니기 때문에, 결과를 해석할 때는 약간의 보수성이 필요합니다.
5-5. Agentic behavior: 단순 QA를 넘어 시뮬레이션 환경에서도 개선
AgentClinic에서는 MedGemma 27B가 base Gemma 3 27B보다 명확히 좋습니다.
| 환경 | MedGemma 27B | Gemma 3 27B | 차이 |
|---|---|---|---|
| AgentClinic-MedQA | 56.2 | 50.7 | +5.5 |
| AgentClinic-MIMIC-IV (OOD) | 46.0 | 35.2 | +10.8 |
(Table 11, p.16)
추가로 눈여겨볼 점:
- Human physician: 54.0 (AgentClinic-MedQA)
- o3: 65.8 / 50.6
- Gemini 2.5 Pro: 58.3 / 48.4
(Table 11, p.16)
해석
- MedGemma 27B는 base open model을 넘어서는 agentic reasoning을 보여줍니다.
- 특히 AgentClinic-MedQA에서는 human physician benchmark(54.0)보다 약간 높습니다.
- 다만 absolute SOTA를 완전히 장악했다기보다는, “오픈 의료 모델로서 꽤 실용적인 수준까지 올라왔다”고 보는 것이 더 정확합니다.
5-6. Fine-tuning 여지: 이 논문의 실전 가치가 드러나는 부분
개인적으로 이 논문에서 가장 실무적으로 중요한 파트는 바로 fine-tuning 결과입니다.
“기본 모델 성능이 괜찮다”보다 더 중요한 건, 내 데이터에 맞춰 붙였을 때 얼마나 올라가느냐이기 때문입니다.
| 과제 | Out-of-box | Fine-tuned | 해석 |
|---|---|---|---|
| MIMIC-CXR report generation (RadGraph F1) | 29.5 | 30.3 | 새 SOTA |
| SIIM-ACR Pneumothorax Accuracy | 85.9 | 87.8 | 분류 정확도 상승 |
| SIIM-ACR Pneumothorax F1 | 59.7 | 71.5 | 큰 폭 개선 |
| CRC100k Weighted F1 | 32.8 | 94.5 | 도메인 적응 효과가 매우 큼 |
| EHRQA (27B, RL) | 86.3 | 93.6 | error 기준으로 대략 50% 이상 감소 |
(Tables 13–14, pp.17–18)
해석
이 표는 아주 중요합니다.
- MIMIC-CXR report generation에서는 30.3으로 MedVersa 30.0을 넘어섭니다.
- CRC100k의 32.8 → 94.5는 분포 차이가 큰 병리 데이터셋에서 fine-tuning이 얼마나 본질적인지를 보여줍니다.
- EHRQA는 정확도 기준 +7.3이지만, error 기준으로 보면 13.7 → 6.4라서 오차가 절반 이상 줄어든 셈입니다.
즉, MedGemma의 실전 가치는 “기본 상태에서 이미 강함” + “붙이면 더 강해짐”의 조합에 있습니다.
5-7. MedSigLIP: 단독 인코더로도 충분히 의미가 있다
MedSigLIP은 MedGemma의 하위 부품이 아니라, 그 자체로도 꽤 쓸 만한 의료 이미지 foundation encoder입니다.
가장 대표적인 결과는 chest X-ray zero-shot AUC입니다.
- MedSigLIP average zero-shot AUC: 0.844
- HAI-DEF CXR Foundation (ELIXR 기반): 0.824
(Table 16, p.20)
특히 fracture에서:
- MedSigLIP 0.708
- ELIXR 0.637
즉, +0.071 개선입니다.
다른 modality도 인상적입니다.
| 영역 | 결과 | 해석 |
|---|---|---|
| Dermatology | 0.851 zero-shot / 0.881 linear probe | Derm Foundation linear probe 0.843보다 높음 |
| Ophthalmology (DR) | 0.759 zero-shot / 0.857 linear probe | linear probe로 +9.8%p |
| Histopathology 평균 | 0.870 zero-shot / 0.878 linear probe | Path Foundation 평균 0.897에 근접 |
(Tables 15–16, pp.19–20)

그림 5. MedSigLIP vs ELIXR의 chest X-ray data-efficient learning 평균 결과 (원문 Figure 5, p.19).
포인트: 적은 데이터 구간에서는 비슷하거나 약간 밀릴 수 있어도, 샘플 수가 커질수록 MedSigLIP이 안정적으로 따라잡고 앞서는 패턴을 보여줍니다.
해석
MedSigLIP의 의미는 분명합니다.
- 멀티모달 LLM 전체를 올리기 부담스럽다면, 의료 retrieval / 분류 / 검색 시스템의 encoder로 쓸 수 있습니다.
- 그리고 하나의 encoder로 CXR, 피부, 안저, 병리를 모두 다루려는 방향이어서, 연구/개발 관점에서 재사용성이 높습니다.
6. 일반 성능은 얼마나 희생했나
전문 모델의 고질적 문제는 “의료만 잘하고 나머지는 무너지는 것”입니다. 이 논문은 그 부분도 같이 봅니다.
| 벤치마크 | MedGemma 4B | Gemma 3 4B | MedGemma 27B | Gemma 3 27B |
|---|---|---|---|---|
| MMLU Pro | 39.1 | 43.6 | 60.2 | 67.5 |
| Global MMLU Lite | 55.5 | 54.5 | 74.5 | 75.1 |
| MMMU (val) | 47.3 | 48.8 | N/A | 64.9 |
(Table 12, p.16)
해석
- 일반 성능 손실이 아예 없는 것은 아닙니다.
- 하지만 Global MMLU Lite에서는 거의 유지되고, 전체적으로 “의료 특화 때문에 완전히 망가진 모델” 수준은 아닙니다.
- 따라서 MedGemma는 절대 최고 범용 모델이라기보다, 의료 특화와 범용성 유지 사이의 균형점을 노린 모델이라고 보는 것이 맞습니다.
7. 이 논문에서 진짜 봐야 할 포인트 7개
- 4B multimodal이 생각보다 훨씬 강하다.
이 논문의 스타는 27B보다도 오히려 4B 멀티모달입니다. 특히 의료 이미지 작업에서 파라미터 대비 효율이 매우 좋습니다. - 의료 vision에서 특화 모델의 이점이 분명하다.
chest X-ray, pathology, retina에서 base Gemma 3와의 차이가 꽤 큽니다. - MedSigLIP이 별도 encoder로도 가치가 있다.
LLM 전체를 쓰지 않아도 retrieval·zero-shot classifier·data-efficient classifier로 활용 가능성이 큽니다. - fine-tuning headroom이 크다.
보고서 생성, pneumothorax, CRC100k, EHRQA 모두 “붙였을 때 크게 오른다”는 점이 확인됩니다. - 오픈 모델이라는 장점이 실무적으로 분명하다.
논문 Discussion도, local/offline 실행, frozen model 문서화, 비용 민감도, adaptation 통제력 등을 강점으로 듭니다. - 범용성 손실은 있지만 제한적이다.
즉, “의료 전용이라서 다른 건 전혀 못 한다”는 그림은 아닙니다. - 그래도 임상 적용 검증과는 다른 문제다.
benchmark 성능이 좋아도, 안전성·신뢰성·workflow integration은 별도 문제입니다.
8. 개발자/제품 관점에서의 해석
이 논문을 “어떤 상황에서 MedGemma를 쓰면 좋은가?”로 바꾸면 다음과 같이 정리할 수 있습니다.
MedGemma가 특히 매력적인 경우
- 오픈 가중치가 필요할 때
- local / offline / private deployment가 중요할 때
- 의료 이미지와 텍스트를 함께 다뤄야 할 때
- 모델을 내 데이터에 맞게 세밀하게 fine-tuning하고 싶을 때
- 비용 제약이 커서 작은 멀티모달 모델이 필요한 경우
여전히 대형 범용 API 모델이 유리한 경우
- 절대적인 최고 성능이 최우선일 때
- 제어권보다 즉시 사용 가능한 peak capability가 중요할 때
- 의료 외 영역까지 넓게 묶인 agentic system이 필요할 때
논문 Discussion의 표현을 빌리면, MedGemma는 Gemini 같은 대형 범용 모델의 완전한 대체재라기보다, 비용·통제·프라이버시·도메인 적합성 측면에서 강한 선택지입니다.
9. 한계와 주의점
이 논문은 강하지만, 그대로 받아들이면 안 되는 포인트도 분명합니다.
- 일부 벤치마크는 오래되고 널리 공개되어 있어, 성능 향상에 데이터 누수 가능성이 섞였을 수 있음
- 일부 결과는 내부 데이터셋 기반이라 외부 재현성이 제한됨
- CXR 사람 평가는 유용하지만, 완전 blinded review는 아님
- public API 모델 비교는 공개 데이터셋에 한해서만 수행
- 본문에서 중심이 되는 건 4B multimodal + 27B text, 27B multimodal은 아직 preliminary
- 무엇보다도, 저자들 스스로 실제 의료 애플리케이션에는 추가적인 안전성·성능·신뢰성 검증이 필수라고 명시합니다
10. 최종 정리
이 논문을 한 문장으로 요약하면 다음과 같습니다.
MedGemma는 “의료 특화 오픈 모델도 충분히 강할 수 있다”는 것을, 특히 의료 이미지와 멀티모달 reasoning 영역에서 설득력 있게 보여준 보고서입니다.
조금 더 길게 쓰면:
- MedGemma 4B는 “작은데도 실제로 강한 멀티모달 의료 모델”이라는 점이 가장 인상적입니다.
- MedGemma 27B Text는 medical QA, agentic reasoning, EHR reasoning 쪽에서 상위 모델에 근접하는 모습을 보입니다.
- MedSigLIP은 의료 이미지 retrieval / zero-shot 분류의 기반 encoder로 따로 봐도 충분히 매력적입니다.
- 그리고 무엇보다, fine-tuning을 붙였을 때의 상승폭이 커서 개발자 입장에서 실전 가치가 높습니다.
11. 결론
MedGemma Technical Report의 핵심은 단순히 “의료용 Gemma가 나왔다”가 아니다. 이 논문은 오픈 의료 모델이 실제로 얼마나 강해질 수 있는지, 그리고 특히 작은 4B 멀티모달 모델이 의료 이미지 작업에서 얼마나 높은 효율을 낼 수 있는지를 꽤 설득력 있게 보여준다. MedGemma는 텍스트 QA, 의료 이미지 분류, VQA, 보고서 생성, agentic evaluation까지 전반적으로 base Gemma 3를 앞서고, fine-tuning 이후에는 일부 과제에서 SOTA에 도달하거나 근접한다. 또한 MedSigLIP을 별도 encoder로 제공한다는 점도 실용적이다. 다만 내부 데이터와 일부 포화 벤치마크, non-blinded human evaluation 같은 한계는 분명하므로, 이 결과를 임상 적용 가능성과 동일시하기보다는 “강력한 오픈 의료 foundation model의 출발점”으로 읽는 것이 가장 적절하다.
12. 원문에서 바로 보면 좋은 페이지
- p.1: Abstract — 논문의 핵심 주장
- p.2: Figure 1 — 모델 컬렉션 전체 구조
- p.9: Table 3, 4 — 텍스트 QA / OOD QA 결과
- p.14: Table 7, 8 — 의료 이미지 분류 결과
- p.15: Table 9, 10 — 의료 VQA / 보고서 생성 결과
- p.16: Table 11, 12 — agentic / 일반 성능 trade-off
- pp.17–18: Table 13, 14 — fine-tuning과 EHRQA
- pp.19–20: Figure 5, Table 15, 16 — MedSigLIP 결과
참고
- 본 문서는 업로드된 PDF MedGemma Technical Report를 기반으로 정리했습니다.
- figure 이미지는 원문 PDF의 해당 페이지에서 본문 여백을 최대한 제외하고 figure 중심으로 crop했습니다.
'AI 생성 글 정리 > agent' 카테고리의 다른 글
| ReAct 논문 핵심 정리 (0) | 2026.04.02 |
|---|---|
| Graph of Thoughts 논문 정리 (0) | 2026.04.02 |
| Toolformer 논문 핵심 정리 (0) | 2026.04.01 |
| Deep Research Agents: Major Breakthrough or Incremental Progress for Medical AI? 정리 (0) | 2026.04.01 |
| Capabilities of Gemini Models in Medicine 논문 정리 (0) | 2026.04.01 |