AI 의료가 직면한 난제: 생성형 모델은 여전히 독자적인 임상적 추론 능력이 부족하다

매사추세츠 종합병원(Massachusetts General Hospital)의 MESH 인큐베이터 팀이 최근 수행한 연구에서 생성형 AI의 임상 추론 능력을 평가했다. AI가 의학 분야에 크게 진출하고 있지만, 이 연구는 시뮬레이션된 실제 임상 진단 과정에서 논리적 연결 고리에 지속적인 한계가 있음을 드러냈다. 권위 있는 학술지 ‘JAMA Network Open’에 게재된 이 연구 결과는 현재의 주류 모델들이 아직 독립적인 임상 진단 작업을 수행할 준비가 되어 있지 않음을 분명히 보여준다.
이 연구는 ChatGPT, DeepSeek, Claude, Gemini, Grok 등 21개의 대규모 언어 모델을 대상으로 29개의 확립된 임상 사례를 활용해 테스트를 진행했다. 실험은 환자의 증상, 검사 데이터, 영상 결과를 점진적으로 공개함으로써 의사의 역동적인 진단 과정을 모방했다. 데이터에 따르면, 완전한 정보를 제공받았을 때 모든 모델은 올바른 최종 진단을 내리는 데 90% 이상의 정확도를 보였다. 그러나 임상 추론의 핵심 영역인 감별 진단에서는 80% 이상의 모델이 저조한 성과를 보였으며, 여러 잠재적 질환을 체계적으로 분석하고 우선순위를 매기지 못했다.
이러한 격차를 정량화하기 위해 연구진은 초기 평가와 검사 선택부터 치료 계획 수립에 이르는 전 과정을 포괄하는 'PrIME-LLM' 종합 평가 지수를 도입했다. 모델별 평가 점수는 64%에서 78% 사이였으며, 이는 AI가 불완전한 데이터로 열린 논리적 추론을 수행하는 것보다 완전한 정보를 바탕으로 '정답을 제시하는' 데 더 능숙함을 보여준다.
최신 모델들은 이전 모델들에 비해 복잡한 데이터 처리 능력에서 현저한 개선을 보였지만, 연구팀은 현재 대규모 언어 모델을 보조 도구로 간주해야 한다고 강조했다. 전문가의 감독 없이 임상 현장에서 이를 사용하는 것은 여전히 위험을 수반한다. 본 연구는 의료 분야에서 AI의 미래를 위한 합리적인 기준을 제시한다. 단순한 '정답 일치'에서 복잡한 '논리적 추론'으로의 전환이 의료용 대규모 모델이 전문가 수준의 적용을 달성하기 위한 결정적인 관문이 될 것이다.
관련 기사
새로운 ETSI AI 보안 표준 이해하기
ETSI EN 304 223는 조직이 거버넌스 구조에 반영해야 할 인공지능에 대한 기초적인 보안 요구 사항을 규정하고 있습니다.기업들이 머신러닝을 핵심 워크플로우에 통합함에 따라, 이 유럽 표준은 AI 모델과 시스템을 보호하기 위한 구체적인 조항을 제공합니다. 이는 국가 표준 기구(NSO)의 공식 승인을 받은 세계 최초로 전 세계적으로 적용 가능한 AI 사
Gmail, 맞춤형 AI 수신함, 검색 내 AI 개요 기능 등 출시
구글은 사용자의 할 일 목록을 맞춤형으로 한눈에 보여주고 주요 업데이트를 놓치지 않도록 도와주는 새로운 AI 기반 Gmail 수신함을 선보였습니다. 이와 함께 Gmail은 검색 기능에 ‘AI 개요’를 도입하고, Grammarly와 유사한 교정 도구를 출시하고 있습니다. 이전에는 유료 구독자만 이용할 수 있었던 여러 AI 기능이 이제 모든 사용자에게 제공됩니
산둥성 최초의 바이두 AI 만화 드라마 제작 기지가 지보에서 문을 열었다
4월 27일, 산둥성은 지보사범대학에 첫 번째 ‘바이두 AI 만화 드라마 창작 기지’를 공식 출범시키며 디지털 문화 창작 분야에서 중요한 이정표를 세웠다. 이 기지는 산학 협력의 새로운 장을 열었으며, AI 기술과 문화 창작 교육의 심도 있는 융합을 통해 디지털 문화 창작 인재를 양성하기 위한 혁신적인 모델을 모색하는 것을 목표로 한다.개소식에서 학교 측은
관련 특별 주제 추천
의견 (0)
0/500

매사추세츠 종합병원(Massachusetts General Hospital)의 MESH 인큐베이터 팀이 최근 수행한 연구에서 생성형 AI의 임상 추론 능력을 평가했다. AI가 의학 분야에 크게 진출하고 있지만, 이 연구는 시뮬레이션된 실제 임상 진단 과정에서 논리적 연결 고리에 지속적인 한계가 있음을 드러냈다. 권위 있는 학술지 ‘JAMA Network Open’에 게재된 이 연구 결과는 현재의 주류 모델들이 아직 독립적인 임상 진단 작업을 수행할 준비가 되어 있지 않음을 분명히 보여준다.
이 연구는 ChatGPT, DeepSeek, Claude, Gemini, Grok 등 21개의 대규모 언어 모델을 대상으로 29개의 확립된 임상 사례를 활용해 테스트를 진행했다. 실험은 환자의 증상, 검사 데이터, 영상 결과를 점진적으로 공개함으로써 의사의 역동적인 진단 과정을 모방했다. 데이터에 따르면, 완전한 정보를 제공받았을 때 모든 모델은 올바른 최종 진단을 내리는 데 90% 이상의 정확도를 보였다. 그러나 임상 추론의 핵심 영역인 감별 진단에서는 80% 이상의 모델이 저조한 성과를 보였으며, 여러 잠재적 질환을 체계적으로 분석하고 우선순위를 매기지 못했다.
이러한 격차를 정량화하기 위해 연구진은 초기 평가와 검사 선택부터 치료 계획 수립에 이르는 전 과정을 포괄하는 'PrIME-LLM' 종합 평가 지수를 도입했다. 모델별 평가 점수는 64%에서 78% 사이였으며, 이는 AI가 불완전한 데이터로 열린 논리적 추론을 수행하는 것보다 완전한 정보를 바탕으로 '정답을 제시하는' 데 더 능숙함을 보여준다.
최신 모델들은 이전 모델들에 비해 복잡한 데이터 처리 능력에서 현저한 개선을 보였지만, 연구팀은 현재 대규모 언어 모델을 보조 도구로 간주해야 한다고 강조했다. 전문가의 감독 없이 임상 현장에서 이를 사용하는 것은 여전히 위험을 수반한다. 본 연구는 의료 분야에서 AI의 미래를 위한 합리적인 기준을 제시한다. 단순한 '정답 일치'에서 복잡한 '논리적 추론'으로의 전환이 의료용 대규모 모델이 전문가 수준의 적용을 달성하기 위한 결정적인 관문이 될 것이다.
새로운 ETSI AI 보안 표준 이해하기
ETSI EN 304 223는 조직이 거버넌스 구조에 반영해야 할 인공지능에 대한 기초적인 보안 요구 사항을 규정하고 있습니다.기업들이 머신러닝을 핵심 워크플로우에 통합함에 따라, 이 유럽 표준은 AI 모델과 시스템을 보호하기 위한 구체적인 조항을 제공합니다. 이는 국가 표준 기구(NSO)의 공식 승인을 받은 세계 최초로 전 세계적으로 적용 가능한 AI 사
Gmail, 맞춤형 AI 수신함, 검색 내 AI 개요 기능 등 출시
구글은 사용자의 할 일 목록을 맞춤형으로 한눈에 보여주고 주요 업데이트를 놓치지 않도록 도와주는 새로운 AI 기반 Gmail 수신함을 선보였습니다. 이와 함께 Gmail은 검색 기능에 ‘AI 개요’를 도입하고, Grammarly와 유사한 교정 도구를 출시하고 있습니다. 이전에는 유료 구독자만 이용할 수 있었던 여러 AI 기능이 이제 모든 사용자에게 제공됩니
산둥성 최초의 바이두 AI 만화 드라마 제작 기지가 지보에서 문을 열었다
4월 27일, 산둥성은 지보사범대학에 첫 번째 ‘바이두 AI 만화 드라마 창작 기지’를 공식 출범시키며 디지털 문화 창작 분야에서 중요한 이정표를 세웠다. 이 기지는 산학 협력의 새로운 장을 열었으며, AI 기술과 문화 창작 교육의 심도 있는 융합을 통해 디지털 문화 창작 인재를 양성하기 위한 혁신적인 모델을 모색하는 것을 목표로 한다.개소식에서 학교 측은





집






