리드
2025년 의료 AI는 연구실에서 진료실로 넘어간 해였다. FDA는 한 해에만 AI·ML 의료기기 258건을 승인했다. 임상 노트 자동화가 여러 병원 시스템에 스케일 배포됐고, 의사 문서 작성 시간은 최대 83% 줄었다 — 한 병원 시스템은 도입 1년 만에 112% ROI를 보고했다. Microsoft가 공개한 AI Diagnostic Orchestrator와 OpenAI o3의 조합은 복잡한 공개 케이스에서 20.0%를 맞혔다. 같은 케이스에서 보조 없이 진단한 의사의 정답률은 20%였다.
그러나 임상 증거는 도입 속도를 따라잡지 못했다. FDA 승인 AI 기기 중 무작위 임상시험(RCT) 데이터로 뒷받침된 비율은 **2.4%**에 그친다. 대부분은 기존 기기의 변경 신고 경로(510(k) 등)로 진입한다. 효과는 있을 수 있지만, 기존 의료기기 표준에서 요구되던 임상 증거 수준으로 검증된 것이 아니라는 뜻이다.
핵심 수치
- 258건 — 2025 FDA AI/ML 기기 승인. 출처: PDF p.257
- 2.4% — 그중 RCT 증거로 뒷받침된 비율. 출처: PDF p.257
- 85.5% vs 20% — AI Diagnostic Orchestrator vs 무보조 의사 복잡 케이스 정답률. 출처: PDF p.257
- 71% — 디지털 트윈 당뇨 임상 시험 1년 후 혈당 정상화 비율. 출처: PDF p.257
주장 1 — AI 신약 개발 논문은 7.7배가 됐다
AI 신약 개발 논문 7.7배
Stanford HAI, AI Index 2026 (p.259, Fig 6.1.2)
AI 기반 신약 개발 논문은 2018년 431건에서 2025년 3,311건으로 7.7배 증가했다. 특히 2023년 이후 기울기가 급하게 가팔라졌다.
파운데이션 모델이 단백질 구조, 분자 상호작용, 유전자 발현 예측까지 영역을 넓힌 결과다. 2025년에는 Virtual Cell 프론티어가 본격적으로 등장했다. Arc Institute의 Evo 2, STATE, DeepMind의 AlphaGenome이 대표 사례다. 이 모델들은 세포 단위 반응을 시뮬레이션해, 웻랩(wet-lab) 실험 없이 약물·유전자 간섭의 결과를 예측한다. 실제 실험실 검증은 여전히 필요하지만, 실험 대상 후보를 좁히는 단계에서 시간과 비용을 크게 절감한다.
주장 2 — AI 진단이 복잡 케이스에서 의사를 네 배 앞섰다
AI 진단 85.5% vs 의사 20%
Stanford HAI, AI Index 2026 (p.257)
Microsoft의 AI Diagnostic Orchestrator는 OpenAI o3와 결합해, 공개된 복잡 사례 기반 진단 평가에서 85.5% 정답률을 냈다. 같은 케이스에서 보조 없이 진단한 의사의 정답률은 20%다. 이 차이는 단일 모델이 아니라 멀티 에이전트 구조에서 나온다. 여러 에이전트가 역할을 나눠 가설 생성·감별 진단·추가 검사 제안을 병렬로 수행한 뒤 합산한다. 단일 에이전트 대비 진단 정확도는 기본 과제에서 7%p, 복잡 케이스에서는 60%p 이상까지 상승하는 것으로 보고됐다.
주의할 점은 평가가 공개 사례 중심이라는 것이다. 실제 임상에서는 환자 이력, 검사 접근성, 보험 제약, 환자 의사소통 같은 변수가 모델이 보는 정보와 다르게 움직인다. 실험실의 85%가 그대로 진료실 성능으로 옮겨가지 않는다 — 이것이 **"FDA 승인 중 RCT 2.4%"**라는 수치가 더 아픈 이유다.
주장 3 — 단백질 연구는 약물 상호작용에 집중된다
단백질 AI 연구 — 분야별 비중
Stanford HAI, AI Index 2026 (p.258, Fig 6.1.1)
2025년 AI 단백질 연구 논문을 영역별로 분해하면 약물-단백질 상호작용이 2,097편으로 54.4%를 차지한다. 구조 예측 922편, 합성 설계 434편, 기능 예측 402편. 연구 관심이 '구조를 푸는 것'에서 '구조를 기반으로 신약 후보를 찾는 것'으로 옮겨간 흐름이 한 해 연구 분포에 그대로 반영됐다.
1억~2억 파라미터의 소형 전문 모델이 수백억 파라미터 범용 모델을 이기는 사례가 반복된다(MSAPairformer 111M, GPN-Star 200M). 의학·생물 영역에서 파운데이션 모델의 경쟁 축은 크기보다 도메인 데이터의 질과 큐레이션에 가 있다. 이 특성이 병원·대학이 독자 모델을 만들 수 있는 여지를 열어둔다.
주장 4 — 의료 검색의 92%에 AI Overview가 뜬다
의료 검색 AI Overview 92%
Stanford HAI, AI Index 2026 (p.257)
Google 검색에서 증상 관련 질문에는 92%, 일반 건강 질문에는 84% 비율로 AI Overview가 표시된다. 환자·보호자가 의사를 만나기 전후로 정보를 찾는 첫 화면이 요약된 AI 응답이 됐다는 뜻이다.
이 변화는 임상 현장에서 이중 효과를 만든다. 환자 이해도가 올라가는 쪽으로 작동하는 경우도 있지만, 잘못된 자가 진단·허위 응급도 판단의 근거가 되기도 한다. 그러나 AI Overview 자체의 품질·출처·최신성은 검색 사업자 내부 기준에 의해 관리되고, 의료 당국의 품질 검증 대상이 아니다. 의료 AI의 임상 증거 기준이 강화되는 동안, 의료 정보 소비의 첫 접점은 사실상 규제 밖에서 재편되고 있다.
Korea Context (직접 언급 없음)
- 이 챕터는 한국 의료 AI 기업(루닛·뷰노·제이엘케이 등)을 개별 명시하지 않았다. FDA 승인 258건의 국가별 분해도 원문에 없다.
- 한국 의료 AI 전경은 별도 리서치가 필요하다. 리포트 범위에서 보면 한국 맥락의 일반 R&D 지형(Chapter 01, 특히 HBM·하드웨어 공급망)과 연결할 수 있다.
→ 한국 관련 지표 종합은 Korea Focus
So What?
- 규제 경로의 구조적 허점이 커졌다. FDA AI 기기 대부분이 '변경 신고' 경로로 진입하면서, RCT 기반 유효성 검증은 2.4%에 그친다. 이 증거 공백이 장기적으로 임상 현장의 신뢰 문제로 돌아온다.
- 멀티 에이전트 구조가 진단 정확도를 끌어올린다. 단일 모델 대비 7%p에서 60%p까지 격차가 벌어진다는 결과는 제품 아키텍처 차원의 전환이다. '한 모델 한 사용'이 아니라 '여러 모델·역할 조합'으로 이동한다.
- 의료 정보 소비의 첫 접점이 규제 밖에서 재편됐다. Google AI Overview의 건강 검색 노출률 92%는 의료 당국 검증 없이 작동한다. 한국의 건강보험 수가·의료법·데이터 활용 구조에서 이 변화가 의미하는 바는 Korea Focus에서 이어 본다.
원본 참조: Stanford HAI, AI Index Report 2026, Chapter 6 (Medicine), pp. 256–288.