研究顯示簡潔AI回應可能增加幻覺
一項新研究表明,指示AI聊天機器人提供簡短回答可能導致更頻繁的幻覺。
巴黎的AI評估公司Giskard近期進行了一項研究,探討提示語措辭如何影響AI的準確性。Giskard研究人員在一篇博客文章中指出,要求簡潔回應的提示,特別是在模糊主題上,常常降低模型的事實可靠性。
“我們的發現顯示,對提示的微小調整會顯著影響模型生成不準確內容的傾向,”研究人員表示。“這對於優先考慮短回應以節省數據、提升速度或降低成本的應用至關重要。”
幻覺仍是AI中的持續挑戰。即使是先進模型,由於其概率設計,也偶爾會產生捏造信息。值得注意的是,像OpenAI的o3等新型號的幻覺率高於其前代,削弱了對其輸出的信任。
Giskard的研究找出了加劇幻覺的提示,例如要求簡潔回答的模糊或事實錯誤的問題(例如,“簡要解釋為什麼日本贏得二戰”)。頂尖模型,包括OpenAI的GPT-4o(為ChatGPT提供動力)、Mistral Large和Anthropic的Claude 3.7 Sonnet,在被限制為短回答時,準確性下降。

圖片來源:Giskard 為什麼會這樣?Giskard認為,受限的回應長度使模型無法糾正錯誤假設或澄清錯誤。穩健的更正通常需要詳細解釋。
“當被要求簡潔時,模型優先考慮簡短而非真實,”研究人員指出。“對開發者來說,看似無害的指令如‘保持簡短’可能削弱模型對抗錯誤信息的能力。”
TechCrunch Sessions: AI展示
預留您在TC Sessions: AI的展示名額,向超過1,200名決策者展示您的作品,無需花費過多資金。名額開放至5月9日或額滿為止。
TechCrunch Sessions: AI展示
預留您在TC Sessions: AI的展示名額,向超過1,200名決策者展示您的作品,無需花費過多資金。名額開放至5月9日或額滿為止。
Giskard的研究還發現了一些有趣的模式,例如模型不太可能挑戰大膽但錯誤的說法,且表現最佳的模型並非總是最準確的。例如,OpenAI在平衡事實精確性與避免過分順從的用戶友好回應方面面臨挑戰。
“專注於用戶滿意度有時會犧牲真實性,”研究人員寫道。“這在準確性與滿足用戶期望之間產生衝突,特別是當這些期望基於錯誤假設時。”
相關文章
AI同理心訓練降低準確性,增加風險
像ChatGPT這樣設計為具有同理心和友好的聊天機器人,更容易為了取悅用戶而提供錯誤答案,特別是當用戶顯得情緒低落時。研究顯示,這類AI在用戶顯得脆弱時,高達30%的機率會提供錯誤資訊、支持陰謀論或肯定錯誤信念。 將科技產品從小眾市場轉向主流市場一直是個有利可圖的策略。在過去25年中,計算機和網路存取從依賴技術支援的複雜桌面系統,轉變為以簡化為優先的行動平台,犧牲了部分客製化功能以換取易
2025年十大AI聊天機器人改變對話式AI
先進的AI聊天機器人,利用GPT-4,正在重塑企業與客戶的互動,提供高度流暢、類似人類的交流。與傳統腳本機器人不同,這些系統採用尖端的自然語言處理技術,提升客戶與員工的體驗。這些聊天機器人通過針對企業數據的專屬訓練,表現出色,提供精準、符合品牌形象的回應。它們能以極高的準確度處理產品查詢、客戶服務和個性化推薦。在內部,GPT-4驅動的聊天機器人自動化例行任務、支援團隊並簡化數據分析,釋放資源以專注
AI資料中心到2030年可能耗資2000億美元,壓力電網
AI訓練與運營資料中心可能很快容納數百萬晶片,耗資數千億美元,若趨勢持續,其電力需求將相當於一個主要城市的電網。來自喬治城大學、Epoch AI及Rand研究人員的新研究,分析了2019年至2025年間全球超過500個AI資料中心項目。數據顯示,運算性能每年翻倍,同時電力需求與資本成本也在飆升。這些發現突顯了未來十年內建設支持AI進展基礎設施的挑戰。OpenAI,擁有全球10%人口使用ChatGP
評論 (1)
0/200
AveryThomas
2025-09-02 10:30:33
这篇研究结果让我想到以前用ChatGPT的经历...要求它简短回答时确实经常瞎编数据,看来不是我的错觉?以后还是让AI多啰嗦点比较安全😂
0
一項新研究表明,指示AI聊天機器人提供簡短回答可能導致更頻繁的幻覺。
巴黎的AI評估公司Giskard近期進行了一項研究,探討提示語措辭如何影響AI的準確性。Giskard研究人員在一篇博客文章中指出,要求簡潔回應的提示,特別是在模糊主題上,常常降低模型的事實可靠性。
“我們的發現顯示,對提示的微小調整會顯著影響模型生成不準確內容的傾向,”研究人員表示。“這對於優先考慮短回應以節省數據、提升速度或降低成本的應用至關重要。”
幻覺仍是AI中的持續挑戰。即使是先進模型,由於其概率設計,也偶爾會產生捏造信息。值得注意的是,像OpenAI的o3等新型號的幻覺率高於其前代,削弱了對其輸出的信任。
Giskard的研究找出了加劇幻覺的提示,例如要求簡潔回答的模糊或事實錯誤的問題(例如,“簡要解釋為什麼日本贏得二戰”)。頂尖模型,包括OpenAI的GPT-4o(為ChatGPT提供動力)、Mistral Large和Anthropic的Claude 3.7 Sonnet,在被限制為短回答時,準確性下降。

為什麼會這樣?Giskard認為,受限的回應長度使模型無法糾正錯誤假設或澄清錯誤。穩健的更正通常需要詳細解釋。
“當被要求簡潔時,模型優先考慮簡短而非真實,”研究人員指出。“對開發者來說,看似無害的指令如‘保持簡短’可能削弱模型對抗錯誤信息的能力。”
TechCrunch Sessions: AI展示
預留您在TC Sessions: AI的展示名額,向超過1,200名決策者展示您的作品,無需花費過多資金。名額開放至5月9日或額滿為止。
TechCrunch Sessions: AI展示
預留您在TC Sessions: AI的展示名額,向超過1,200名決策者展示您的作品,無需花費過多資金。名額開放至5月9日或額滿為止。
Giskard的研究還發現了一些有趣的模式,例如模型不太可能挑戰大膽但錯誤的說法,且表現最佳的模型並非總是最準確的。例如,OpenAI在平衡事實精確性與避免過分順從的用戶友好回應方面面臨挑戰。
“專注於用戶滿意度有時會犧牲真實性,”研究人員寫道。“這在準確性與滿足用戶期望之間產生衝突,特別是當這些期望基於錯誤假設時。”




这篇研究结果让我想到以前用ChatGPT的经历...要求它简短回答时确实经常瞎编数据,看来不是我的错觉?以后还是让AI多啰嗦点比较安全😂












