研究顯示從聊天機器人取得可靠健康建議的挑戰

當醫療保健系統因等待時間延長及成本上升而掙扎時,越來越多的病患開始試用 ChatGPT 等人工智能聊天機器人來尋求初步的醫療建議。最近的數據顯示,每月約有 17% 的美國成年人會透過這些工具諮詢健康資訊。然而,新的研究表明,這種新興的做法存在重大風險,特別是當用戶未能提供足夠的上下文或誤解 AI 的回應時。
這項由牛津大學領導的研究揭露了人們如何有效使用會話式人工智能進行醫療自我評估的關鍵限制。研究團隊與 1,300 位英國參與者合作,向他們展示醫師開發的醫療情境。參與者嘗試使用 AI 助手或傳統方法(如網路搜尋)進行診斷,在多個 AI 平台上的結果都令人擔憂。
"我們觀察到雙向溝通的基本斷層,」研究共同作者、牛津網際網路研究所的 Adam Mahdi 解釋說。「AI使用者所表現出的決策能力並不比採用傳統方法的使用者優勝,在某些情況下甚至更差」。
該研究測試了三種領先的人工智能模型:OpenAI 的 GPT-4o(為 ChatGPT 提供動力)、Cohere 的 Command R+ 以及 Meta 的 Llama 3。研究結果揭示了兩種令人不安的模式:
- 使用 AI 工具的參與者在識別相關健康狀況的成功率較低
- AI 互動會導致低估病情嚴重性的危險。
Mahdi 注意到輸入品質和輸出詮釋的重大問題:"使用者在提出查詢時經常遺漏重要的醫療細節,而 AI 的回應則經常將準確的建議與有問題的建議混為一談。這種組合造成了特別危險的情況,使用者可能會做出不當的醫療決策。
產業推動與醫療現實
這些發現是在各大科技公司積極開發以健康為重點的 AI 應用程式時出現的:
- 據報導,蘋果公司正在創造一個健康顧問,提供運動和睡眠指導。
- 亞馬遜正在分析社會健康指標的醫療記錄
- 微軟正在開發 AI 系統,以優先處理與病患的溝通
然而,醫學界對於在臨床環境中部署這些技術仍持謹慎態度。美國醫學協會明確警告醫師不要使用消費者聊天機器人來提供決策支援,而 AI 開發人員本身也有同感。Open AI 的使用政策明確禁止將其模型用於診斷目的。
"Mahdi 強調:「我們強烈建議人們在做醫療決定時諮詢經驗證的醫療來源,而非聊天機器人的輸出結果。「在廣泛部署之前,這些系統需要嚴格的真實世界測試,就像藥品試驗一樣。」
結論
雖然人工智慧聊天機器人提供了令人好奇的可能性,讓醫療照護更容易獲得,但這項研究也突顯了目前實作中的重大風險。隨著技術的演進,開發人員必須解決可靠性方面的重要缺口,而使用者則應該以適當的懷疑態度來看待 AI 醫療建議。
相關文章
AI資料中心到2030年可能耗資2000億美元,壓力電網
AI訓練與運營資料中心可能很快容納數百萬晶片,耗資數千億美元,若趨勢持續,其電力需求將相當於一個主要城市的電網。來自喬治城大學、Epoch AI及Rand研究人員的新研究,分析了2019年至2025年間全球超過500個AI資料中心項目。數據顯示,運算性能每年翻倍,同時電力需求與資本成本也在飆升。這些發現突顯了未來十年內建設支持AI進展基礎設施的挑戰。OpenAI,擁有全球10%人口使用ChatGP
研究顯示簡潔AI回應可能增加幻覺
一項新研究表明,指示AI聊天機器人提供簡短回答可能導致更頻繁的幻覺。巴黎的AI評估公司Giskard近期進行了一項研究,探討提示語措辭如何影響AI的準確性。Giskard研究人員在一篇博客文章中指出,要求簡潔回應的提示,特別是在模糊主題上,常常降低模型的事實可靠性。“我們的發現顯示,對提示的微小調整會顯著影響模型生成不準確內容的傾向,”研究人員表示。“這對於優先考慮短回應以節省數據、提升速度或降低
AI驅動的解決方案可顯著降低全球碳排放
倫敦經濟學院與Systemiq的最新研究顯示,人工智慧可在不犧牲現代便利性的前提下大幅降低全球碳排放,使AI成為對抗氣候變遷的關鍵盟友。研究指出,僅在三個領域應用智慧AI技術,到2035年每年可減少32億至54億噸的溫室氣體排放。與普遍擔憂相反,這些減排量將遠超AI運營所產生的碳足跡。題為《綠色與智慧:AI在氣候轉型中的角色》的報告,將AI視為打造可持續且包容經濟的轉型力量,而非僅僅是漸進式進展的
評論 (0)
0/200
當醫療保健系統因等待時間延長及成本上升而掙扎時,越來越多的病患開始試用 ChatGPT 等人工智能聊天機器人來尋求初步的醫療建議。最近的數據顯示,每月約有 17% 的美國成年人會透過這些工具諮詢健康資訊。然而,新的研究表明,這種新興的做法存在重大風險,特別是當用戶未能提供足夠的上下文或誤解 AI 的回應時。
這項由牛津大學領導的研究揭露了人們如何有效使用會話式人工智能進行醫療自我評估的關鍵限制。研究團隊與 1,300 位英國參與者合作,向他們展示醫師開發的醫療情境。參與者嘗試使用 AI 助手或傳統方法(如網路搜尋)進行診斷,在多個 AI 平台上的結果都令人擔憂。
"我們觀察到雙向溝通的基本斷層,」研究共同作者、牛津網際網路研究所的 Adam Mahdi 解釋說。「AI使用者所表現出的決策能力並不比採用傳統方法的使用者優勝,在某些情況下甚至更差」。
該研究測試了三種領先的人工智能模型:OpenAI 的 GPT-4o(為 ChatGPT 提供動力)、Cohere 的 Command R+ 以及 Meta 的 Llama 3。研究結果揭示了兩種令人不安的模式:
- 使用 AI 工具的參與者在識別相關健康狀況的成功率較低
- AI 互動會導致低估病情嚴重性的危險。
Mahdi 注意到輸入品質和輸出詮釋的重大問題:"使用者在提出查詢時經常遺漏重要的醫療細節,而 AI 的回應則經常將準確的建議與有問題的建議混為一談。這種組合造成了特別危險的情況,使用者可能會做出不當的醫療決策。
產業推動與醫療現實
這些發現是在各大科技公司積極開發以健康為重點的 AI 應用程式時出現的:
- 據報導,蘋果公司正在創造一個健康顧問,提供運動和睡眠指導。
- 亞馬遜正在分析社會健康指標的醫療記錄
- 微軟正在開發 AI 系統,以優先處理與病患的溝通
然而,醫學界對於在臨床環境中部署這些技術仍持謹慎態度。美國醫學協會明確警告醫師不要使用消費者聊天機器人來提供決策支援,而 AI 開發人員本身也有同感。Open AI 的使用政策明確禁止將其模型用於診斷目的。
"Mahdi 強調:「我們強烈建議人們在做醫療決定時諮詢經驗證的醫療來源,而非聊天機器人的輸出結果。「在廣泛部署之前,這些系統需要嚴格的真實世界測試,就像藥品試驗一樣。」
結論
雖然人工智慧聊天機器人提供了令人好奇的可能性,讓醫療照護更容易獲得,但這項研究也突顯了目前實作中的重大風險。隨著技術的演進,開發人員必須解決可靠性方面的重要缺口,而使用者則應該以適當的懷疑態度來看待 AI 醫療建議。











