随着OpenAI、谷歌和Anthropic相继推出新产品,人工智能健康科技领域的竞争日趋白热化
本月,OpenAI、谷歌和Anthropic在短短几天内相继公布了各自的医疗人工智能专项功能。这一系列公告的密集发布,表明这并非单纯的巧合,而是竞争压力的体现。然而,尽管宣传语中强调将改变医疗保健行业,但这些产品均未获得医疗器械认证,也未获准用于临床,更无法直接用于患者诊断。
1月7日,OpenAI推出了ChatGPT Health,通过与b.well、Apple Health、Function和MyFitnessPal的合作,允许美国用户接入医疗记录。1月13日,谷歌发布了MedGemma 1.5,将其开源医疗AI模型的功能扩展至解读3D CT和MRI扫描图像以及全切片病理学图像。
Anthropic紧随其后,于1月11日推出Claude for Healthcare,提供符合HIPAA标准的连接器,可对接CMS保险覆盖数据库、ICD-10编码系统以及国家医疗服务提供者识别码注册库。
这三家公司均瞄准了相同的行政痛点——预授权审核、理赔处理和临床文档记录——采用相似的技术方法,但市场推广策略各不相同。
开发者平台,而非诊断产品
其架构上的相似性令人瞩目。每个系统都采用了基于医学文献和临床数据集微调的多模态大型语言模型。每个系统都强调隐私保护和监管免责声明。每个系统都将自身定位为辅助而非取代临床判断。

差异在于部署和访问模式。OpenAI的ChatGPT Health作为面向消费者的服务运行,针对欧洲经济区(EEA)、瑞士和英国以外地区的ChatGPT Free、Plus及Pro订阅用户设有候补名单。谷歌的MedGemma 1.5通过其“健康AI开发者基础计划”作为开放模型发布,用户可通过Hugging Face下载,或通过Google Cloud的Vertex AI进行部署。
Anthropic的Claude for Healthcare通过Claude for Enterprise集成到现有企业工作流程中,目标客户是机构买家而非个人消费者。这三者都持一致的监管立场。
OpenAI明确声明Health“不适用于诊断或治疗”。谷歌将MedGemma定位为“开发者评估并适应其医疗用例的起点”。Anthropic强调,其输出结果“不旨在直接用于临床诊断、患者管理决策、治疗建议或任何其他直接临床实践应用”。

基准性能与临床验证
尽管这三款产品的医疗AI基准测试成绩均有显著提升,但测试表现与实际临床部署之间的差距依然巨大。谷歌报告称,MedGemma 1.5在斯坦福大学的MedAgentBench(医疗代理完成度基准测试)上实现了92.3%的准确率,而此前Sonnet 3.5基准模型的准确率仅为69.6%。
在内部测试中,该模型在MRI疾病分类任务上提升了14个百分点,在CT影像诊断任务上提升了3个百分点。Anthropic公司的Claude Opus 4.5在启用Python代码执行功能的MedCalc医学计算准确率测试中获得61.3%的成绩,在MedAgentBench测试中则达到92.3%。
该公司还声称在针对事实性幻觉的“诚实度评估”方面有所改进,但未公布具体指标。
OpenAI 尚未发布针对 ChatGPT Health 的具体基准对比,而是根据对现有使用情况的去标识化分析指出,“全球每周有超过 2.3 亿人通过 ChatGPT 提出健康与保健相关的问题”。
这些基准测试衡量的是在精选测试数据集上的表现,而非临床结果。鉴于医疗错误可能导致危及生命的后果,将基准准确率转化为实际临床效用,其复杂程度远高于其他AI领域。
监管路径仍不明朗
针对此类医疗AI工具的监管环境依然模糊。在美国,FDA的监管取决于预期用途。任何“为医疗专业人员提供预防、诊断或治疗方面的支持或建议”的软件,可能需要作为医疗器械接受上市前审查。目前已公布的工具均未获得FDA批准。
责任归属问题同样悬而未决。当班纳健康(Banner Health)首席技术官迈克·雷金(Mike Reagin)表示该系统“看重Anthropic对AI安全性的关注”时,这仅涉及技术选择,而非法律责任框架。
若临床医生依赖Claude的预授权分析,而患者因治疗延误遭受伤害,现有判例法对责任归属几乎没有提供指导。
各地区的监管方法存在显著差异。尽管美国食品药品监督管理局(FDA)和欧洲《医疗器械法规》为作为医疗器械的软件提供了成熟的框架,但许多亚太地区监管机构尚未就生成式AI诊断工具发布具体指导意见。
这种模糊性影响了医疗基础设施不足的市场中的采用时间表——这些市场本可因基础设施缺口而加速实施,从而在临床需求与监管审慎之间造成矛盾。
行政工作流程,而非临床决策
实际部署范围仍较为有限。诺和诺德内容数字化总监 Louise Lind Skov 描述了将 Claude 用于“制药研发中的文档和内容自动化”,重点在于监管申报而非患者诊断。
台湾国民健康保险署应用MedGemma从3万份病理报告中提取数据用于政策分析,而非治疗决策。
这一趋势表明,机构采用AI的重点集中在错误风险较低的行政工作流程上——例如计费、文档处理和方案起草——而非AI能对患者预后产生最显著影响的直接临床决策支持领域。
医疗AI能力的发展速度,已超过机构应对监管、责任及工作流程整合等复杂问题的能力。技术已然就位。只需支付月费,即可使用先进的医疗推理工具。
这能否转化为医疗服务的根本性变革,取决于这些协调发布的公告尚未解决的关键问题。
另请参阅:阿斯利康押注内部AI以加速肿瘤学研究
想从行业领军者那里了解更多关于人工智能和大数据的信息吗?欢迎参加在阿姆斯特丹、加利福尼亚和伦敦举办的“人工智能与大数据博览会”。这一综合性活动隶属于TechEx,并将与其他领先的技术活动同期举办。点击此处获取更多信息。
AI News 由 TechForge Media 提供支持。点击此处探索其他即将举办的企业技术活动和网络研讨会。
相关文章
Github Copilot的基于令牌的计费方式引发了开发者的强烈不满
微软GitHub Copilot的黄金时代可能即将结束,尤其是对个人用户而言。该公司正从统一的订阅费模式转向基于代币的计费方式,这可能会大幅增加使用成本。虽然大型企业或许还能承受这种变化,但小型企业和自由职业者可能会发现新的收费机制让他们的月预算难以承受。这些变更将于6月1日正式生效,届时用户将按照工作中消耗的代币数量来支付费用,而不再是按每次请求收取固定费用。一些开发者受到这一财务变动的影响,在Reddit和X平台上表达了他们对这种看似过高的成本增加的担忧。一位Redditor最近写道:“
SpaceX的IPO申请文件重点体现了其在卫星互联网和人工智能领域的发展雄心
在为即将进行的IPO提交的S-1注册文件中,SpaceX公布了一系列令人瞩目的业务数据,这些数据凸显了其在航空航天通信和人工智能领域的强大实力:Starlink用户数突破1000万:截至2026年第一季度,全球付费Starlink用户数量已达到1030万,这一数字在过去一年内翻了一番。这一增长充分证明了作为全球最大的近地轨道卫星星座,Starlink在宽带和移动通信领域的领先地位。目前该卫星网络由大约9600颗卫星组成,这些卫星占在轨所有活跃卫星总数的65%。Grok与X人工智能生态体系:通
阿里巴巴Tuhao M890上市,凭借三重性能优势开启芯片-云-模型-推理的全栈代理时代
2026年5月20日,在阿里云峰会上,阿里云宣布完成了专为“智能体时代”设计的全栈技术系统升级。这一变革重塑了整个技术体系——从底层芯片和云平台到模型与推理方案。此次升级使阿里云成为一家能够让大量智能体实现24/7连续运行的“AI工厂”,从而超越了单纯为人类用户提供服务的范畴。1. 核心基础:腾迅振武M890芯片与超级节点服务器此次升级的核心是腾迅推出的新一代AI芯片——振武M890,该芯片集训练与推理功能于一体。性能提升:M890拥有144GB的内存,其性能是前代产品振武810E的三倍。
相关专题推荐
评论 (1)
0/500
Wow, this AI health race is getting intense! Just saw the news about OpenAI, Google, and Anthropic all dropping medical AI tools almost at the same time. It's clearly a strategic move, not a coincidence. Makes you wonder who's really leading the pack and what it means for our future healthcare. Exciting but also a bit scary, right? 🤔
本月,OpenAI、谷歌和Anthropic在短短几天内相继公布了各自的医疗人工智能专项功能。这一系列公告的密集发布,表明这并非单纯的巧合,而是竞争压力的体现。然而,尽管宣传语中强调将改变医疗保健行业,但这些产品均未获得医疗器械认证,也未获准用于临床,更无法直接用于患者诊断。
1月7日,OpenAI推出了ChatGPT Health,通过与b.well、Apple Health、Function和MyFitnessPal的合作,允许美国用户接入医疗记录。1月13日,谷歌发布了MedGemma 1.5,将其开源医疗AI模型的功能扩展至解读3D CT和MRI扫描图像以及全切片病理学图像。
Anthropic紧随其后,于1月11日推出Claude for Healthcare,提供符合HIPAA标准的连接器,可对接CMS保险覆盖数据库、ICD-10编码系统以及国家医疗服务提供者识别码注册库。
这三家公司均瞄准了相同的行政痛点——预授权审核、理赔处理和临床文档记录——采用相似的技术方法,但市场推广策略各不相同。
开发者平台,而非诊断产品
其架构上的相似性令人瞩目。每个系统都采用了基于医学文献和临床数据集微调的多模态大型语言模型。每个系统都强调隐私保护和监管免责声明。每个系统都将自身定位为辅助而非取代临床判断。

差异在于部署和访问模式。OpenAI的ChatGPT Health作为面向消费者的服务运行,针对欧洲经济区(EEA)、瑞士和英国以外地区的ChatGPT Free、Plus及Pro订阅用户设有候补名单。谷歌的MedGemma 1.5通过其“健康AI开发者基础计划”作为开放模型发布,用户可通过Hugging Face下载,或通过Google Cloud的Vertex AI进行部署。
Anthropic的Claude for Healthcare通过Claude for Enterprise集成到现有企业工作流程中,目标客户是机构买家而非个人消费者。这三者都持一致的监管立场。
OpenAI明确声明Health“不适用于诊断或治疗”。谷歌将MedGemma定位为“开发者评估并适应其医疗用例的起点”。Anthropic强调,其输出结果“不旨在直接用于临床诊断、患者管理决策、治疗建议或任何其他直接临床实践应用”。

基准性能与临床验证
尽管这三款产品的医疗AI基准测试成绩均有显著提升,但测试表现与实际临床部署之间的差距依然巨大。谷歌报告称,MedGemma 1.5在斯坦福大学的MedAgentBench(医疗代理完成度基准测试)上实现了92.3%的准确率,而此前Sonnet 3.5基准模型的准确率仅为69.6%。
在内部测试中,该模型在MRI疾病分类任务上提升了14个百分点,在CT影像诊断任务上提升了3个百分点。Anthropic公司的Claude Opus 4.5在启用Python代码执行功能的MedCalc医学计算准确率测试中获得61.3%的成绩,在MedAgentBench测试中则达到92.3%。
该公司还声称在针对事实性幻觉的“诚实度评估”方面有所改进,但未公布具体指标。
OpenAI 尚未发布针对 ChatGPT Health 的具体基准对比,而是根据对现有使用情况的去标识化分析指出,“全球每周有超过 2.3 亿人通过 ChatGPT 提出健康与保健相关的问题”。
这些基准测试衡量的是在精选测试数据集上的表现,而非临床结果。鉴于医疗错误可能导致危及生命的后果,将基准准确率转化为实际临床效用,其复杂程度远高于其他AI领域。
监管路径仍不明朗
针对此类医疗AI工具的监管环境依然模糊。在美国,FDA的监管取决于预期用途。任何“为医疗专业人员提供预防、诊断或治疗方面的支持或建议”的软件,可能需要作为医疗器械接受上市前审查。目前已公布的工具均未获得FDA批准。
责任归属问题同样悬而未决。当班纳健康(Banner Health)首席技术官迈克·雷金(Mike Reagin)表示该系统“看重Anthropic对AI安全性的关注”时,这仅涉及技术选择,而非法律责任框架。
若临床医生依赖Claude的预授权分析,而患者因治疗延误遭受伤害,现有判例法对责任归属几乎没有提供指导。
各地区的监管方法存在显著差异。尽管美国食品药品监督管理局(FDA)和欧洲《医疗器械法规》为作为医疗器械的软件提供了成熟的框架,但许多亚太地区监管机构尚未就生成式AI诊断工具发布具体指导意见。
这种模糊性影响了医疗基础设施不足的市场中的采用时间表——这些市场本可因基础设施缺口而加速实施,从而在临床需求与监管审慎之间造成矛盾。
行政工作流程,而非临床决策
实际部署范围仍较为有限。诺和诺德内容数字化总监 Louise Lind Skov 描述了将 Claude 用于“制药研发中的文档和内容自动化”,重点在于监管申报而非患者诊断。
台湾国民健康保险署应用MedGemma从3万份病理报告中提取数据用于政策分析,而非治疗决策。
这一趋势表明,机构采用AI的重点集中在错误风险较低的行政工作流程上——例如计费、文档处理和方案起草——而非AI能对患者预后产生最显著影响的直接临床决策支持领域。
医疗AI能力的发展速度,已超过机构应对监管、责任及工作流程整合等复杂问题的能力。技术已然就位。只需支付月费,即可使用先进的医疗推理工具。
这能否转化为医疗服务的根本性变革,取决于这些协调发布的公告尚未解决的关键问题。
另请参阅:阿斯利康押注内部AI以加速肿瘤学研究
想从行业领军者那里了解更多关于人工智能和大数据的信息吗?欢迎参加在阿姆斯特丹、加利福尼亚和伦敦举办的“人工智能与大数据博览会”。这一综合性活动隶属于TechEx,并将与其他领先的技术活动同期举办。点击此处获取更多信息。
AI News 由 TechForge Media 提供支持。点击此处探索其他即将举办的企业技术活动和网络研讨会。
Github Copilot的基于令牌的计费方式引发了开发者的强烈不满
微软GitHub Copilot的黄金时代可能即将结束,尤其是对个人用户而言。该公司正从统一的订阅费模式转向基于代币的计费方式,这可能会大幅增加使用成本。虽然大型企业或许还能承受这种变化,但小型企业和自由职业者可能会发现新的收费机制让他们的月预算难以承受。这些变更将于6月1日正式生效,届时用户将按照工作中消耗的代币数量来支付费用,而不再是按每次请求收取固定费用。一些开发者受到这一财务变动的影响,在Reddit和X平台上表达了他们对这种看似过高的成本增加的担忧。一位Redditor最近写道:“
SpaceX的IPO申请文件重点体现了其在卫星互联网和人工智能领域的发展雄心
在为即将进行的IPO提交的S-1注册文件中,SpaceX公布了一系列令人瞩目的业务数据,这些数据凸显了其在航空航天通信和人工智能领域的强大实力:Starlink用户数突破1000万:截至2026年第一季度,全球付费Starlink用户数量已达到1030万,这一数字在过去一年内翻了一番。这一增长充分证明了作为全球最大的近地轨道卫星星座,Starlink在宽带和移动通信领域的领先地位。目前该卫星网络由大约9600颗卫星组成,这些卫星占在轨所有活跃卫星总数的65%。Grok与X人工智能生态体系:通
阿里巴巴Tuhao M890上市,凭借三重性能优势开启芯片-云-模型-推理的全栈代理时代
2026年5月20日,在阿里云峰会上,阿里云宣布完成了专为“智能体时代”设计的全栈技术系统升级。这一变革重塑了整个技术体系——从底层芯片和云平台到模型与推理方案。此次升级使阿里云成为一家能够让大量智能体实现24/7连续运行的“AI工厂”,从而超越了单纯为人类用户提供服务的范畴。1. 核心基础:腾迅振武M890芯片与超级节点服务器此次升级的核心是腾迅推出的新一代AI芯片——振武M890,该芯片集训练与推理功能于一体。性能提升:M890拥有144GB的内存,其性能是前代产品振武810E的三倍。
Wow, this AI health race is getting intense! Just saw the news about OpenAI, Google, and Anthropic all dropping medical AI tools almost at the same time. It's clearly a strategic move, not a coincidence. Makes you wonder who's really leading the pack and what it means for our future healthcare. Exciting but also a bit scary, right? 🤔





首页






