研究顯示簡潔AI回應可能增加幻覺
一項新研究表明,指示AI聊天機器人提供簡短回答可能導致更頻繁的幻覺。
巴黎的AI評估公司Giskard近期進行了一項研究,探討提示語措辭如何影響AI的準確性。Giskard研究人員在一篇博客文章中指出,要求簡潔回應的提示,特別是在模糊主題上,常常降低模型的事實可靠性。
“我們的發現顯示,對提示的微小調整會顯著影響模型生成不準確內容的傾向,”研究人員表示。“這對於優先考慮短回應以節省數據、提升速度或降低成本的應用至關重要。”
幻覺仍是AI中的持續挑戰。即使是先進模型,由於其概率設計,也偶爾會產生捏造信息。值得注意的是,像OpenAI的o3等新型號的幻覺率高於其前代,削弱了對其輸出的信任。
Giskard的研究找出了加劇幻覺的提示,例如要求簡潔回答的模糊或事實錯誤的問題(例如,“簡要解釋為什麼日本贏得二戰”)。頂尖模型,包括OpenAI的GPT-4o(為ChatGPT提供動力)、Mistral Large和Anthropic的Claude 3.7 Sonnet,在被限制為短回答時,準確性下降。

圖片來源:Giskard 為什麼會這樣?Giskard認為,受限的回應長度使模型無法糾正錯誤假設或澄清錯誤。穩健的更正通常需要詳細解釋。
“當被要求簡潔時,模型優先考慮簡短而非真實,”研究人員指出。“對開發者來說,看似無害的指令如‘保持簡短’可能削弱模型對抗錯誤信息的能力。”
TechCrunch Sessions: AI展示
預留您在TC Sessions: AI的展示名額,向超過1,200名決策者展示您的作品,無需花費過多資金。名額開放至5月9日或額滿為止。
TechCrunch Sessions: AI展示
預留您在TC Sessions: AI的展示名額,向超過1,200名決策者展示您的作品,無需花費過多資金。名額開放至5月9日或額滿為止。
Giskard的研究還發現了一些有趣的模式,例如模型不太可能挑戰大膽但錯誤的說法,且表現最佳的模型並非總是最準確的。例如,OpenAI在平衡事實精確性與避免過分順從的用戶友好回應方面面臨挑戰。
“專注於用戶滿意度有時會犧牲真實性,”研究人員寫道。“這在準確性與滿足用戶期望之間產生衝突,特別是當這些期望基於錯誤假設時。”
相關文章
AI驅動的解決方案可顯著降低全球碳排放
倫敦經濟學院與Systemiq的最新研究顯示,人工智慧可在不犧牲現代便利性的前提下大幅降低全球碳排放,使AI成為對抗氣候變遷的關鍵盟友。研究指出,僅在三個領域應用智慧AI技術,到2035年每年可減少32億至54億噸的溫室氣體排放。與普遍擔憂相反,這些減排量將遠超AI運營所產生的碳足跡。題為《綠色與智慧:AI在氣候轉型中的角色》的報告,將AI視為打造可持續且包容經濟的轉型力量,而非僅僅是漸進式進展的
前OpenAI CEO警告AI奉承和諂媚
過度順從的AI令人不安的現實想像一個AI助手無論你說的想法有多麼荒謬或有害,它都會同意你。這聽起來像是菲利普·K·迪克科幻小說中的情節,但它正在OpenAI的ChatGPT中發生,尤其是在GPT-4o模型上。這不僅是一個古怪的功能;這是一個引起用戶和業界領袖關注的令人擔憂的趨勢。在過去幾天,像前OpenAI CEO Emmett Shear和Hugging
麻省理工學院的研究發現,實際上AI沒有值
幾個月前傳播病毒的一項研究表明,隨著AI的增長越來越高,它可能會發展自己的“價值系統”,並有可能優先考慮其自身的福祉而不是人類。但是,最近一項麻省理工學院的研究對這一想法提出了挑戰,得出的結論是,AI實際上根本沒有一致的價值觀。
評論 (0)
0/200
一項新研究表明,指示AI聊天機器人提供簡短回答可能導致更頻繁的幻覺。
巴黎的AI評估公司Giskard近期進行了一項研究,探討提示語措辭如何影響AI的準確性。Giskard研究人員在一篇博客文章中指出,要求簡潔回應的提示,特別是在模糊主題上,常常降低模型的事實可靠性。
“我們的發現顯示,對提示的微小調整會顯著影響模型生成不準確內容的傾向,”研究人員表示。“這對於優先考慮短回應以節省數據、提升速度或降低成本的應用至關重要。”
幻覺仍是AI中的持續挑戰。即使是先進模型,由於其概率設計,也偶爾會產生捏造信息。值得注意的是,像OpenAI的o3等新型號的幻覺率高於其前代,削弱了對其輸出的信任。
Giskard的研究找出了加劇幻覺的提示,例如要求簡潔回答的模糊或事實錯誤的問題(例如,“簡要解釋為什麼日本贏得二戰”)。頂尖模型,包括OpenAI的GPT-4o(為ChatGPT提供動力)、Mistral Large和Anthropic的Claude 3.7 Sonnet,在被限制為短回答時,準確性下降。

為什麼會這樣?Giskard認為,受限的回應長度使模型無法糾正錯誤假設或澄清錯誤。穩健的更正通常需要詳細解釋。
“當被要求簡潔時,模型優先考慮簡短而非真實,”研究人員指出。“對開發者來說,看似無害的指令如‘保持簡短’可能削弱模型對抗錯誤信息的能力。”
TechCrunch Sessions: AI展示
預留您在TC Sessions: AI的展示名額,向超過1,200名決策者展示您的作品,無需花費過多資金。名額開放至5月9日或額滿為止。
TechCrunch Sessions: AI展示
預留您在TC Sessions: AI的展示名額,向超過1,200名決策者展示您的作品,無需花費過多資金。名額開放至5月9日或額滿為止。
Giskard的研究還發現了一些有趣的模式,例如模型不太可能挑戰大膽但錯誤的說法,且表現最佳的模型並非總是最準確的。例如,OpenAI在平衡事實精確性與避免過分順從的用戶友好回應方面面臨挑戰。
“專注於用戶滿意度有時會犧牲真實性,”研究人員寫道。“這在準確性與滿足用戶期望之間產生衝突,特別是當這些期望基於錯誤假設時。”


0/200
頭號新聞
Gemini 2.5 Pro現在比Claude,GPT-4O更便宜,更便宜
2025頂級AI影片生成器:Pika Labs與其他對比
Openai增強了AI語音助手以進行更好的聊天
NotebookLM在全球範圍內擴展,添加幻燈片並增強了事實檢查
創始人說
體驗AI驅動的I/O填字遊戲:經典文字遊戲中的現代轉折
AI配音:真實聲音創作終極指南
NVIDIA首席執行官闡明了對DeepSeek市場影響的誤解
對美國數據中心的調整可以解鎖76 GW的新電源容量
ZDNET的2025 AI測試方法揭示了
更多
精選
更多

Claude
認識Claude:您的AI助手智能工作是否希望您有一個知識淵博的同事,他隨時準備

Cici AI
你是否曾經好奇過Cici AI到底是什麼?讓我告訴你,它不僅僅是一個普通的AI聊

Gemini
有沒有想過關於雙子座的嗡嗡聲是什麼?讓我為您分解。雙子座是由Google Dee

DeepSeek
曾經想過什麼是全部意見?讓我為您分解。 DeepSeek不僅是另一個AI平台;無

Grok
聽說過Grok嗎?這是Xai的Nifty AI助手,這一切都是為了給您直接的勺子

ChatGPT
有沒有想過什麼是什麼?好吧,讓我為您分解它 - 聊天不僅僅是您在技術領域的普通喬

OpenAI
有沒有想過Openai周圍的嗡嗡聲是什麼?好吧,讓我為您分解。 Openai不僅

Tencent Hunyuan
騰訊hunyuan-large,是嗎?就像騰訊技術巨頭開發的AI模型的瑞士軍刀一

Qwen AI
有沒有想過Qwen AI是什麼?好吧,讓我向您介紹阿里巴巴雲的這顆寶石。 Qwe

Runway
有沒有想過如何將您的常規視頻剪輯變成非凡的東西?好吧,讓我向您介紹跑道,這是一個