研究揭示从聊天机器人获取可靠健康建议的挑战

随着医疗保健系统苦苦挣扎于漫长的等待时间和不断攀升的成本,越来越多的患者开始尝试使用 ChatGPT 等人工智能聊天机器人来获得初步的医疗建议。最近的数据显示,每月约有 17% 的美国成年人通过这些工具咨询健康信息。然而,新的研究表明,这种新兴的做法蕴含着巨大的风险,尤其是当用户未能提供足够的上下文或曲解人工智能的回复时。
这项由牛津大学主导的研究揭示了人们在如何有效使用人工智能对话进行医疗自我评估方面存在的关键局限性。研究小组与 1300 名英国参与者合作,向他们展示了由医生开发的医疗场景。参与者尝试使用人工智能助手或互联网搜索等传统方法进行诊断,结果在多个人工智能平台上都令人担忧。
"我们观察到在两个方向上都存在根本性的沟通障碍,"该研究的共同作者、牛津大学互联网研究所的亚当-马赫迪(Adam Mahdi)解释说。"人工智能用户所表现出的决策能力并不比那些采用传统方法的用户强,在某些情况下甚至更差。"
这项研究测试了三种领先的人工智能模型:OpenAI 的 GPT-4o(支持 ChatGPT)、Cohere 的 Command R+ 和 Meta 的 Llama 3。研究结果发现了两种令人担忧的模式:
- 使用人工智能工具的参与者在识别相关健康状况方面不太成功
- 人工智能交互导致低估病情严重程度的危险性
马赫迪指出,输入质量和输出解释存在重大问题:"用户在提出询问时经常遗漏关键的医疗细节,而人工智能的回复则经常将准确的建议与有问题的建议混为一谈"。这种组合造成了特别危险的情况,用户可能会做出不恰当的医疗决定。
行业推动与医疗现实
这些发现是在各大科技公司积极开发以健康为重点的人工智能应用时出现的:
- 据报道,苹果公司正在创建一个健康顾问,为用户提供运动和睡眠指导
- 亚马逊正在分析医疗记录中的社会健康指标
- 微软正在开发人工智能系统,以优先考虑与患者的沟通
然而,医学界对在临床环境中部署这些技术仍持谨慎态度。美国医学协会明确告诫医生不要使用消费者聊天机器人提供决策支持,人工智能开发者也发出了同样的警告。开放人工智能的使用政策明确禁止将其模型用于诊断目的。
"马赫迪强调说:"我们强烈建议人们在做出医疗决策时咨询经过验证的医疗来源,而不是聊天机器人的输出结果。"在广泛部署之前,这些系统需要进行与制药试验类似的严格的真实世界测试。"
结论
虽然人工智能聊天机器人为提高医疗保健的可及性提供了引人入胜的可能性,但这项研究也凸显了当前实施过程中存在的巨大风险。随着技术的发展,开发人员必须解决可靠性方面的关键差距,而用户则应该以适当的怀疑态度对待人工智能医疗建议。
相关文章
AI数据中心到2030年可能耗资2000亿美元,压力电网
AI训练和运营数据中心可能很快容纳数百万芯片,耗资数千亿美元,若趋势持续,电力需求相当于一个主要城市的电网。乔治城大学、Epoch AI和兰德研究人员的一项新研究分析了2019年至2025年间全球500多个AI数据中心项目。数据显示,计算性能每年翻倍,同时电力需求和资本成本飙升。这些发现凸显了未来十年支持AI进步的基础设施建设挑战。OpenAI,全球10%人口使用ChatGPT,已与软银等合作,为
研究显示简洁AI回答可能增加幻觉
研究表明,指示AI聊天机器人提供简短回答可能导致更频繁的幻觉。巴黎AI评估公司Giskard的最新研究探讨了提示语措辞如何影响AI准确性。Giskard研究人员在博客中指出,要求简洁回答,特别是在模糊话题上,常常降低模型的事实可靠性。“我们的发现显示,提示语的微小调整会显著影响模型生成不准确内容的倾向,”研究人员表示。“这对优先考虑短回答以节省数据、提高速度或降低成本的应用至关重要。”幻觉仍是AI
AI驱动的解决方案可显著减少全球碳排放
伦敦经济学院与Systemiq的最新研究显示,人工智能可在不牺牲现代便利的情况下大幅降低全球碳排放,使AI成为应对气候变化的重要盟友。研究指出,仅在三个领域应用智能AI,到2035年每年可减少32亿至54亿吨温室气体排放。与普遍担忧相反,这些减排量将远超AI运行产生的碳足迹。题为《绿色与智能:AI在气候转型中的作用》的报告将AI视为构建可持续且包容性经济的变革力量,而非仅是渐进式改进的工具。净零排
评论 (0)
0/200
随着医疗保健系统苦苦挣扎于漫长的等待时间和不断攀升的成本,越来越多的患者开始尝试使用 ChatGPT 等人工智能聊天机器人来获得初步的医疗建议。最近的数据显示,每月约有 17% 的美国成年人通过这些工具咨询健康信息。然而,新的研究表明,这种新兴的做法蕴含着巨大的风险,尤其是当用户未能提供足够的上下文或曲解人工智能的回复时。
这项由牛津大学主导的研究揭示了人们在如何有效使用人工智能对话进行医疗自我评估方面存在的关键局限性。研究小组与 1300 名英国参与者合作,向他们展示了由医生开发的医疗场景。参与者尝试使用人工智能助手或互联网搜索等传统方法进行诊断,结果在多个人工智能平台上都令人担忧。
"我们观察到在两个方向上都存在根本性的沟通障碍,"该研究的共同作者、牛津大学互联网研究所的亚当-马赫迪(Adam Mahdi)解释说。"人工智能用户所表现出的决策能力并不比那些采用传统方法的用户强,在某些情况下甚至更差。"
这项研究测试了三种领先的人工智能模型:OpenAI 的 GPT-4o(支持 ChatGPT)、Cohere 的 Command R+ 和 Meta 的 Llama 3。研究结果发现了两种令人担忧的模式:
- 使用人工智能工具的参与者在识别相关健康状况方面不太成功
- 人工智能交互导致低估病情严重程度的危险性
马赫迪指出,输入质量和输出解释存在重大问题:"用户在提出询问时经常遗漏关键的医疗细节,而人工智能的回复则经常将准确的建议与有问题的建议混为一谈"。这种组合造成了特别危险的情况,用户可能会做出不恰当的医疗决定。
行业推动与医疗现实
这些发现是在各大科技公司积极开发以健康为重点的人工智能应用时出现的:
- 据报道,苹果公司正在创建一个健康顾问,为用户提供运动和睡眠指导
- 亚马逊正在分析医疗记录中的社会健康指标
- 微软正在开发人工智能系统,以优先考虑与患者的沟通
然而,医学界对在临床环境中部署这些技术仍持谨慎态度。美国医学协会明确告诫医生不要使用消费者聊天机器人提供决策支持,人工智能开发者也发出了同样的警告。开放人工智能的使用政策明确禁止将其模型用于诊断目的。
"马赫迪强调说:"我们强烈建议人们在做出医疗决策时咨询经过验证的医疗来源,而不是聊天机器人的输出结果。"在广泛部署之前,这些系统需要进行与制药试验类似的严格的真实世界测试。"
结论
虽然人工智能聊天机器人为提高医疗保健的可及性提供了引人入胜的可能性,但这项研究也凸显了当前实施过程中存在的巨大风险。随着技术的发展,开发人员必须解决可靠性方面的关键差距,而用户则应该以适当的怀疑态度对待人工智能医疗建议。











