AI医学面临的重大挑战:生成式模型仍缺乏独立的临床推理能力

麻省总医院MESH孵化器团队最近的一项研究评估了生成式人工智能的临床推理能力。尽管人工智能正在医学领域取得重大进展,但该研究揭示了在模拟真实世界临床诊断的逻辑链中仍存在显著缺陷。这项发表在权威期刊《JAMA Network Open》上的研究成果明确表明,当前的主流模型尚不具备执行独立临床诊断任务的能力。
该研究利用29个已确立的临床病例,对包括ChatGPT、DeepSeek、Claude、Gemini和Grok在内的21个大型语言模型进行了测试。实验通过逐步披露患者症状、实验室数据和影像结果,模拟了医生的动态诊断过程。 数据表明,在获得完整信息的情况下,所有模型在给出正确最终诊断时的准确率均超过90%。然而,在临床推理的核心领域——鉴别诊断中,超过80%的模型表现不佳,未能系统地分析和优先排序多种潜在病症。
为量化这一差距,研究人员引入了PrIME-LLM综合评估指标,涵盖从初始评估、检查选择到治疗方案制定全过程。各模型的评估得分介于64%至78%之间,这凸显出AI在拥有完整信息时更擅长“揭示答案”,而非在数据不完整的情况下进行开放式逻辑推理。
尽管新模型在处理复杂数据方面较其前代有了显著改进,但研究团队强调,当前应将大型语言模型视为辅助工具。在临床实践中若缺乏专业监督而使用它们,仍存在风险。本研究为人工智能在医疗保健领域的未来发展提供了理性基准:从简单的“答案匹配”向复杂的“逻辑推理”的转变,将是医疗大型模型实现专业级应用的关键门槛。
相关文章
埃隆·马斯克在针对山姆·奥尔特曼和OpenAI的诉讼中败诉
埃隆·马斯克声称OpenAI的联合创始人亏待了他,但这一说法在九名加州陪审员一致裁定他的诉讼提起得太晚之后被推翻了。 马斯克指控萨姆·奥尔特曼、格雷格·布罗克曼、OpenAI以及微软通过成立这个高级人工智能实验室的盈利机构“窃取了一笔慈善资金”。然而,陪审员们认定,马斯克可能遭受的任何损失都发生在他提起诉讼的法律截止日期之前。 尽管这场审判深入探讨了OpenAI的发展历程,并有硅谷知名人物的证词,但最终它还是围绕一些相对具体的法律问题展开的。诉讼的核心在于奥尔特曼和其他被告是否以及何时向
请提供文章标题,以便将其改写为问题。
在当今的数字环境中,人工智能正在全面重塑各行各业,博客领域也不例外。博主们一直在寻找方法来优化工作流程、提升内容质量并加强搜索引擎优化(SEO)。 幸运的是,各类人工智能工具都能助您实现这些目标。本文将介绍2025年每位博主工具箱中都应配备的五大AI工具——这些并非泛泛之选,而是我个人运营博客时所依赖的得力助手。它们彻底改变了我处理内容创作、SEO以及受众互动的方式。重点摘要ChatGPT:非常适
蚂蚁集团发布开源模型Ling-2.6-flash,这是宝灵模型家族的新成员
蚂蚁集团的宝灵大模型系列今日迎来重大更新,Ling-2.6-flash现已正式面向全球开发者开放。为适应不同的硬件环境并降低部署门槛,该模型还推出了包括 BF16、FP8 和 INT4 在内的多种精度版本,为开发者提供了更灵活的推理选项。作为一款拥有1040亿总参数和74亿激活参数的Instruct模型,Ling-2.6-flash此前曾在OpenRouter平台上以“Elephant Alpha
相关专题推荐
评论 (0)
0/500

麻省总医院MESH孵化器团队最近的一项研究评估了生成式人工智能的临床推理能力。尽管人工智能正在医学领域取得重大进展,但该研究揭示了在模拟真实世界临床诊断的逻辑链中仍存在显著缺陷。这项发表在权威期刊《JAMA Network Open》上的研究成果明确表明,当前的主流模型尚不具备执行独立临床诊断任务的能力。
该研究利用29个已确立的临床病例,对包括ChatGPT、DeepSeek、Claude、Gemini和Grok在内的21个大型语言模型进行了测试。实验通过逐步披露患者症状、实验室数据和影像结果,模拟了医生的动态诊断过程。 数据表明,在获得完整信息的情况下,所有模型在给出正确最终诊断时的准确率均超过90%。然而,在临床推理的核心领域——鉴别诊断中,超过80%的模型表现不佳,未能系统地分析和优先排序多种潜在病症。
为量化这一差距,研究人员引入了PrIME-LLM综合评估指标,涵盖从初始评估、检查选择到治疗方案制定全过程。各模型的评估得分介于64%至78%之间,这凸显出AI在拥有完整信息时更擅长“揭示答案”,而非在数据不完整的情况下进行开放式逻辑推理。
尽管新模型在处理复杂数据方面较其前代有了显著改进,但研究团队强调,当前应将大型语言模型视为辅助工具。在临床实践中若缺乏专业监督而使用它们,仍存在风险。本研究为人工智能在医疗保健领域的未来发展提供了理性基准:从简单的“答案匹配”向复杂的“逻辑推理”的转变,将是医疗大型模型实现专业级应用的关键门槛。
埃隆·马斯克在针对山姆·奥尔特曼和OpenAI的诉讼中败诉
埃隆·马斯克声称OpenAI的联合创始人亏待了他,但这一说法在九名加州陪审员一致裁定他的诉讼提起得太晚之后被推翻了。 马斯克指控萨姆·奥尔特曼、格雷格·布罗克曼、OpenAI以及微软通过成立这个高级人工智能实验室的盈利机构“窃取了一笔慈善资金”。然而,陪审员们认定,马斯克可能遭受的任何损失都发生在他提起诉讼的法律截止日期之前。 尽管这场审判深入探讨了OpenAI的发展历程,并有硅谷知名人物的证词,但最终它还是围绕一些相对具体的法律问题展开的。诉讼的核心在于奥尔特曼和其他被告是否以及何时向
请提供文章标题,以便将其改写为问题。
在当今的数字环境中,人工智能正在全面重塑各行各业,博客领域也不例外。博主们一直在寻找方法来优化工作流程、提升内容质量并加强搜索引擎优化(SEO)。 幸运的是,各类人工智能工具都能助您实现这些目标。本文将介绍2025年每位博主工具箱中都应配备的五大AI工具——这些并非泛泛之选,而是我个人运营博客时所依赖的得力助手。它们彻底改变了我处理内容创作、SEO以及受众互动的方式。重点摘要ChatGPT:非常适
蚂蚁集团发布开源模型Ling-2.6-flash,这是宝灵模型家族的新成员
蚂蚁集团的宝灵大模型系列今日迎来重大更新,Ling-2.6-flash现已正式面向全球开发者开放。为适应不同的硬件环境并降低部署门槛,该模型还推出了包括 BF16、FP8 和 INT4 在内的多种精度版本,为开发者提供了更灵活的推理选项。作为一款拥有1040亿总参数和74亿激活参数的Instruct模型,Ling-2.6-flash此前曾在OpenRouter平台上以“Elephant Alpha





首页






