選項
首頁
新聞
AI“推理”模型已通過NPR週日拼圖問題測試

AI“推理”模型已通過NPR週日拼圖問題測試

2025-04-10
132

每週日,NPR的Will Shortz,這位《紐約時報》填字遊戲的策劃者,透過他的「週日謎題」節目吸引了數千名聽眾。這些謎題設計上只需一般知識即可解答,但即使對資深的謎題愛好者來說,也具有相當的挑戰性。

這種複雜性使得一些專家認為,週日謎題可用於測試AI問題解決能力的極限,成為一個有價值的工具。

在一項近期研究中,來自Wellesley College、Oberlin College、德克薩斯大學奧斯汀分校、東北大學、查爾斯大學以及新創公司Cursor的研究人員,利用週日謎題中的謎語開發了一個AI基準。他們的發現揭示了推理模型的一些有趣行為,包括OpenAI的o1模型,有時會「放棄」並故意給出錯誤答案。

東北大學計算機科學教授、該研究的共同作者Arjun Guha向TechCrunch解釋,目標是創建一個任何具備一般知識的人都能理解的基準。他表示:「我們希望開發一個只需一般知識就能理解問題的基準。」

當前AI行業在基準測試方面面臨挑戰,因為許多測試聚焦於博士級別的數學和科學等高級技能,這些對大多數用戶來說並不相關。此外,即使是最近發布的基準也已接近飽和。

根據Guha的說法,週日謎題的獨特優勢在於它不依賴專業知識,且其格式能防止AI模型僅僅重複記憶的答案。他進一步說明:「我認為這些問題的難度在於,在解決問題之前很難取得實質進展——一旦解決,一切就會瞬間豁然開朗。這需要洞察力和排除法的結合。」

然而,週日謎題也有其局限性。它以美國文化為中心,且僅使用英語,且存在模型若事先見過這些問題可能「作弊」的風險。Guha安慰說,他尚未發現這方面的證據。他補充道:「每週都會發布新問題,我們可以期待最新的問題是真正未被見過的。我們打算保持基準的新鮮度,並追蹤模型性能隨時間的變化。」

研究人員的基準包含大約600個週日謎題的謎語,顯示像o1和DeepSeek的R1這樣的推理模型顯著優於其他模型。這些模型會仔細檢查自己的事實,這有助於它們避免常見錯誤。然而,這種徹底性意味著它們需要更長時間才能得出解決方案——通常多花幾秒到幾分鐘。

有趣的是,DeepSeek的R1有時會承認失敗,說「我放棄了」,然後給出一個隨機的錯誤答案——這是許多人類都能感同身受的反應。其他觀察到的奇特行為包括模型給出錯誤答案後撤回,嘗試另一個猜測後再次失敗。一些模型陷入無休止的「思考」循環,提供荒誕的解釋,或在正確回答問題後仍不必要地探索其他答案。

Guha評論R1的行為時說:「在困難問題上,R1甚至會說它感到『沮喪』。看到模型模仿人類可能說的話真是有趣。推理中的『沮喪』如何影響模型結果的質量仍有待觀察。」

NPR基準

R1在週日謎題挑戰集中的一個問題上感到「沮喪」。圖片來源:Guha等人

當前基準的頂尖表現者是o1,得分59%,其次是最近發布的o3-mini在高「推理努力」設置下得47%。R1得分35%。研究人員計劃擴展對更多推理模型的測試,希望找出改進的領域。

NPR基準

團隊在基準測試中測試的模型得分。圖片來源:Guha等人

Guha強調了可訪問基準的重要性,說道:「你不需要博士學位就能擅長推理,因此應該可以設計出不需要博士級知識的推理基準。更廣泛的基準讓更多研究人員能夠理解和分析結果,這可能會在未來帶來更好的解決方案。此外,隨著最先進的模型越來越多地應用於影響每個人的場景,我們相信每個人都應該能夠直觀理解這些模型的能力與局限。」

相關文章
Salesforce 揭曉 Slack 中 AI 數位隊友以對抗 Microsoft Copilot Salesforce 揭曉 Slack 中 AI 數位隊友以對抗 Microsoft Copilot Salesforce 推出全新工作場所 AI 策略,於週一宣布在 Slack 對話中引入專屬的「數位隊友」。全新工具 Agentforce in Slack 讓企業能夠創建並部署針對特定任務的 AI 代理,這些代理可搜尋工作場所聊天記錄、存取公司資料,並在員工日常工作的訊息平台內執行操作。「正如專業員工協作解決問題,我們的客戶需要 AI 代理共同合作,為客戶和員工解決問題,」Salesforce
甲骨文40億美元Nvidia晶片投資推動德州AI數據中心 甲骨文40億美元Nvidia晶片投資推動德州AI數據中心 據《金融時報》報導,甲骨文計劃投資約40億美元於Nvidia晶片,為OpenAI在德州開發的大型新數據中心提供動力。這筆交易是迄今為止最大的晶片收購之一,凸顯了對AI運算資源的激增需求。該設施位於德州阿比林,是美國首個「星門」數據中心。由OpenAI和軟銀支持,屬於建設大規模AI基礎設施的更廣泛計劃的一部分。該德州中心預計明年完工,將提供1.2吉瓦的運算能力,位列全球最大之列。甲骨文計劃採購約40
Meta AI應用程式將推出高級訂閱與廣告 Meta AI應用程式將推出高級訂閱與廣告 Meta的AI應用程式即將推出付費訂閱服務,類似於OpenAI、Google和Microsoft等競爭對手的產品。在2025年第一季財報電話會議中,Meta首席執行官馬克·祖克柏格概述了高級服務的計劃,讓用戶能夠使用更強大的運算能力或Meta AI的額外功能。為了與ChatGPT競爭,Meta本週推出了一款獨立的AI應用程式,允許用戶直接與聊天機器人互動並進行圖像生成。該聊天機器人目前擁有近10億
評論 (11)
0/200
StephenRamirez
StephenRamirez 2025-07-22 14:33:07

NPR's Sunday Puzzle with AI? Sounds like a brain teaser showdown! I wonder if these models can outsmart Will Shortz’s tricky wordplay. 🤔

PaulTaylor
PaulTaylor 2025-04-20 05:13:34

¡Esta herramienta de IA que resuelve los rompecabezas de los domingos de NPR es genial! Es como tener un amigo listo que ama los rompecabezas tanto como yo. A veces se equivoca, pero ¿quién no? ¡Sigue así, IA! 😄

StephenScott
StephenScott 2025-04-19 18:57:20

This AI tool tackling NPR's Sunday Puzzles is super cool! It's like having a brainy friend who loves puzzles as much as I do. Sometimes it gets the answers wrong, but hey, who doesn't? Keep up the good work, AI! 🤓

CharlesThomas
CharlesThomas 2025-04-19 10:09:55

NPRのサンデーパズルに挑戦するこのAIツール、めっちゃ面白い!パズル好きの友達がいるみたいで嬉しい。たまに答えを間違えるけど、誰でもそうなるよね。頑張ってね、AI!😊

JackMartin
JackMartin 2025-04-13 18:51:16

NPRのサンデーパズルをAIで解くのは驚きです!これらのトリッキーな質問をモデルがどれだけうまく処理するかを見るのはクールです。時々間違えることもありますが、それでも印象的です。アルゴリズムを調整し続けてくださいね!🤓

RichardRoberts
RichardRoberts 2025-04-13 16:54:45

Sử dụng AI để giải các câu đố Chủ Nhật của NPR thật là đáng kinh ngạc! Thật tuyệt khi thấy các mô hình xử lý tốt những câu hỏi khó khăn này. Đôi khi chúng sai, nhưng vẫn rất ấn tượng. Cứ tiếp tục điều chỉnh các thuật toán đó, các bạn! 🤓

回到頂部
OR