AI 醫學面臨的深層挑戰:生成式模型仍缺乏獨立的臨床推理能力

麻省總醫院 MESH Incubator 團隊最近的一項研究,評估了生成式人工智慧的臨床推理能力。儘管人工智慧正在醫學領域取得重大進展,但這項研究揭示了在模擬真實世界臨床診斷的邏輯鏈中仍存在持續性的缺口。這項發表於權威期刊《JAMA Network Open》的研究結果清楚表明,當前的主流模型尚不具備執行獨立臨床診斷任務的能力。
該研究選取29個已確立的臨床案例,對包括ChatGPT、DeepSeek、Claude、Gemini及Grok在內的21個大型語言模型進行測試。實驗透過逐步揭示患者症狀、實驗室數據及影像檢查結果,模擬了醫師動態的診斷過程。 數據顯示,當獲得完整資訊時,所有模型在提供正確最終診斷方面的準確度均超過90%。然而,在臨床推理的核心領域——鑑別診斷——超過80%的模型表現不佳,未能系統性地分析並優先排序多種潛在病症。
為量化此差距,研究人員引入了 PrIME-LLM 綜合評估指標,涵蓋從初步評估、檢查選擇到治療規劃的完整流程。各模型的評估分數介於 64% 至 78% 之間,凸顯出人工智慧在擁有完整資訊時更擅長「揭示答案」,而非在資料不完整的情況下進行開放式的邏輯推理。
儘管新版模型在處理複雜數據方面較前代有顯著進步,研究團隊仍強調,當前應將大型語言模型視為輔助工具。若在臨床實踐中未經專業監督便使用,仍存在風險。本研究為人工智慧在醫療保健領域的未來發展提供了理性基準:從簡單的「答案匹配」過渡到複雜的「邏輯推理」,將是醫療大型模型實現專業級應用的關鍵門檻。
相關文章
OpenAI與美國國防部合作,ChatGPT的解除安裝數量激增了295%
公眾憤怒:OpenAI的軍事合作引發“解除安裝潮”近日,人工智慧領域的領頭羊OpenAI宣佈與美國國防部建立了深度合作關係,將其人工智慧模型整合到高度機密的軍事網路中。這一訊息在美國引發了廣泛的使用者抗議,“抵制ChatGPT”運動勢頭日益強勁。根據市場分析機構Sensor Tower的資料,2026年2月28日——OpenAI正式宣佈這一合作的當天——美國市場上ChatGPT移動應用的解除安裝率比前一天激增了295%,而此前該應用的平均每日解除安裝率約為9%。使用者們對人工智慧被用於軍事目的表示強烈擔憂,
OpenAI 推出「Sites」功能,以文字驅動的網站標誌著「無程式碼」時代的終結
OpenAI 推出了「Sites」,這是其軟體工程人工智慧平台 Codex 的一項新功能。目前該功能處於預覽階段,僅限付費的「Business」和「Enterprise」訂閱用戶使用,旨在消除網頁與應用程式開發中的傳統障礙。從核心功能來看,Sites 是一個能將抽象概念轉化為實用工具的平台。使用者可輸入概念、數據分析或專案計畫,Codex 便會自動將這些靜態內容重組為儀表板、排程規劃器、審查工作區
OpenAI 收購人工智慧個人理財新創公司 Hiro
OpenAI 已收購個人理財新創公司 Hiro Finance,創辦人伊森·布洛克(Ethan Bloch)於週一宣布此消息,OpenAI 也向 TechCrunch 證實了這筆交易。這家新創公司曾獲得頂尖金融科技創投公司 Ribbit,以及 General Catalyst 和 Restive 的投資。收購條款未予披露,且 Hiro 從未透露其募資金額。鑑於 Hiro 已宣布將於 4 月 20
相關專題推薦
評論 (0)
0/500

麻省總醫院 MESH Incubator 團隊最近的一項研究,評估了生成式人工智慧的臨床推理能力。儘管人工智慧正在醫學領域取得重大進展,但這項研究揭示了在模擬真實世界臨床診斷的邏輯鏈中仍存在持續性的缺口。這項發表於權威期刊《JAMA Network Open》的研究結果清楚表明,當前的主流模型尚不具備執行獨立臨床診斷任務的能力。
該研究選取29個已確立的臨床案例,對包括ChatGPT、DeepSeek、Claude、Gemini及Grok在內的21個大型語言模型進行測試。實驗透過逐步揭示患者症狀、實驗室數據及影像檢查結果,模擬了醫師動態的診斷過程。 數據顯示,當獲得完整資訊時,所有模型在提供正確最終診斷方面的準確度均超過90%。然而,在臨床推理的核心領域——鑑別診斷——超過80%的模型表現不佳,未能系統性地分析並優先排序多種潛在病症。
為量化此差距,研究人員引入了 PrIME-LLM 綜合評估指標,涵蓋從初步評估、檢查選擇到治療規劃的完整流程。各模型的評估分數介於 64% 至 78% 之間,凸顯出人工智慧在擁有完整資訊時更擅長「揭示答案」,而非在資料不完整的情況下進行開放式的邏輯推理。
儘管新版模型在處理複雜數據方面較前代有顯著進步,研究團隊仍強調,當前應將大型語言模型視為輔助工具。若在臨床實踐中未經專業監督便使用,仍存在風險。本研究為人工智慧在醫療保健領域的未來發展提供了理性基準:從簡單的「答案匹配」過渡到複雜的「邏輯推理」,將是醫療大型模型實現專業級應用的關鍵門檻。
OpenAI與美國國防部合作,ChatGPT的解除安裝數量激增了295%
公眾憤怒:OpenAI的軍事合作引發“解除安裝潮”近日,人工智慧領域的領頭羊OpenAI宣佈與美國國防部建立了深度合作關係,將其人工智慧模型整合到高度機密的軍事網路中。這一訊息在美國引發了廣泛的使用者抗議,“抵制ChatGPT”運動勢頭日益強勁。根據市場分析機構Sensor Tower的資料,2026年2月28日——OpenAI正式宣佈這一合作的當天——美國市場上ChatGPT移動應用的解除安裝率比前一天激增了295%,而此前該應用的平均每日解除安裝率約為9%。使用者們對人工智慧被用於軍事目的表示強烈擔憂,
OpenAI 推出「Sites」功能,以文字驅動的網站標誌著「無程式碼」時代的終結
OpenAI 推出了「Sites」,這是其軟體工程人工智慧平台 Codex 的一項新功能。目前該功能處於預覽階段,僅限付費的「Business」和「Enterprise」訂閱用戶使用,旨在消除網頁與應用程式開發中的傳統障礙。從核心功能來看,Sites 是一個能將抽象概念轉化為實用工具的平台。使用者可輸入概念、數據分析或專案計畫,Codex 便會自動將這些靜態內容重組為儀表板、排程規劃器、審查工作區
OpenAI 收購人工智慧個人理財新創公司 Hiro
OpenAI 已收購個人理財新創公司 Hiro Finance,創辦人伊森·布洛克(Ethan Bloch)於週一宣布此消息,OpenAI 也向 TechCrunch 證實了這筆交易。這家新創公司曾獲得頂尖金融科技創投公司 Ribbit,以及 General Catalyst 和 Restive 的投資。收購條款未予披露,且 Hiro 從未透露其募資金額。鑑於 Hiro 已宣布將於 4 月 20





首頁






