AI“推理”模型已通过NPR周日拼图问题测试
每周日,NPR的威尔·肖茨,《纽约时报》填字游戏的策划者,通过他的“周日谜题”节目吸引了数千名听众。这些谜题设计为仅需一般知识即可解答,但即便对经验丰富的解谜者也构成了重大挑战。
这种复杂性使得一些专家认为,周日谜题可以作为测试AI问题解决能力界限的宝贵工具。
在一项近期研究中,来自威尔斯利学院、奥伯林学院、德克萨斯大学奥斯汀分校、东北大学、查尔斯大学以及初创公司Cursor的研究人员,利用周日谜题中的谜语开发了一个AI基准测试。他们的发现揭示了推理模型的一些有趣行为,包括OpenAI的o1模型,它偶尔会“放弃”并故意给出错误答案。
东北大学的计算机科学教授、该研究的共同作者阿琼·古哈向TechCrunch解释,目标是创建一个任何具备一般知识的人都能理解的基准测试。他表示:“我们希望开发一个仅需一般知识就能理解问题的基准测试。”
AI行业目前在基准测试方面面临挑战,因为许多测试聚焦于博士级别的数学和科学等高级技能,这些对大多数用户并不相关。此外,即使是最近发布的基准测试也已接近饱和。
据古哈介绍,周日谜题的独特优势在于它不依赖专业知识,其格式能防止AI模型简单地复述记忆中的答案。他进一步解释:“我认为这些问题之所以难,是因为在解决之前很难取得实质性进展——只有当一切豁然开朗时,问题才会迎刃而解。这需要洞察力和排除法的结合。”
然而,周日谜题也有其局限性。它以美国文化为中心,仅使用英语,且存在模型可能因提前见过问题而“作弊”的风险。不过,古哈安慰道,他尚未发现这方面的证据。他补充说:“每周都会发布新问题,我们可以预期最新问题是真正未见过的。我们打算保持基准测试的新鲜度,并追踪模型性能随时间的变化。”
研究人员的基准测试包含约600个周日谜题的谜语,显示出像o1和DeepSeek的R1这样的推理模型明显优于其他模型。这些模型会仔细核查事实,帮助它们避免常见错误。然而,这种彻底性意味着它们需要更长时间得出答案——通常多几秒到几分钟。
有趣的是,DeepSeek的R1有时会承认失败,说“我放弃了”,然后给出一个随机的错误答案——这种反应让许多人感同身受。其他奇特行为包括模型给出一个错误答案后撤回,再次尝试猜测但仍失败。一些模型陷入无休止的“思考”循环,提供荒诞的解释,或在正确回答问题后仍不必要地探索其他答案。
古哈评论R1的行为时说:“在难题上,R1明确表示它感到‘沮丧’。看到模型模仿人类的说法很有趣。推理中的‘沮丧’如何影响模型结果的质量仍有待观察。”

R1在周日谜题挑战集的一个问题上感到“沮丧”。图片来源:古哈等人 当前基准测试的最高得分者是o1,得分为59%,其次是最近发布的o3-mini在高“推理努力”设置下得分47%。R1得分为35%。研究人员计划扩展测试到更多推理模型,希望找出改进的领域。

团队测试的模型在基准测试中的得分。图片来源:古哈等人 古哈强调了可访问基准测试的重要性,他说:“你不需要博士学位就能擅长推理,因此应该可以设计出不要求博士级知识的推理基准测试。具有更广泛访问性的基准测试能让更多研究人员理解和分析结果,这可能会在未来带来更好的解决方案。此外,随着最先进的模型越来越多地部署在影响每个人的场景中,我们认为每个人都应该能够直观了解这些模型的能力和局限性。”
相关文章
Salesforce发布Slack AI数字队友对抗Microsoft Copilot
Salesforce推出全新职场AI策略,在Slack对话中引入专业“数字队友”,公司于周一公布。新工具Agentforce in Slack使企业能够创建和部署任务特定AI代理,搜索职场聊天,访问公司数据,并在员工日常使用的消息平台内执行操作。“正如专业员工协作解决问题,我们的客户需要AI代理协同工作,为客户和员工解决问题,”Salesforce Slack首席产品官Rob Seaman在Ven
甲骨文400亿美元英伟达芯片投资助推德克萨斯AI数据中心
据《金融时报》报道,甲骨文计划投资约400亿美元购买英伟达芯片,为OpenAI在德克萨斯州开发的大型新数据中心提供动力。这是迄今为止最大的芯片收购交易之一,凸显了对AI计算资源激增的需求。该设施位于德克萨斯州阿比林,是美国首个“星门”数据中心。由OpenAI和软银支持,这是构建大规模AI基础设施的更广泛计划的一部分。该德克萨斯中心计划于明年完工,将提供1.2吉瓦的计算能力,使其跻身全球最大数据中心
Meta AI应用将引入高级订阅和广告
Meta的AI应用可能很快推出付费订阅服务,效仿OpenAI、Google和Microsoft等竞争对手的做法。在2025年第一季度财报电话会议上,Meta首席执行官马克·扎克伯格概述了高级服务的计划,使用户能够访问增强的计算能力或Meta AI的额外功能。为了与ChatGPT竞争,Meta本周推出了一款独立AI应用,允许用户直接与聊天机器人互动并进行图像生成。该聊天机器人目前拥有近10亿用户,此
评论 (11)
0/200
StephenRamirez
2025-07-22 14:33:07
NPR's Sunday Puzzle with AI? Sounds like a brain teaser showdown! I wonder if these models can outsmart Will Shortz’s tricky wordplay. 🤔
0
PaulTaylor
2025-04-20 05:13:34
¡Esta herramienta de IA que resuelve los rompecabezas de los domingos de NPR es genial! Es como tener un amigo listo que ama los rompecabezas tanto como yo. A veces se equivoca, pero ¿quién no? ¡Sigue así, IA! 😄
0
StephenScott
2025-04-19 18:57:20
This AI tool tackling NPR's Sunday Puzzles is super cool! It's like having a brainy friend who loves puzzles as much as I do. Sometimes it gets the answers wrong, but hey, who doesn't? Keep up the good work, AI! 🤓
0
CharlesThomas
2025-04-19 10:09:55
NPRのサンデーパズルに挑戦するこのAIツール、めっちゃ面白い!パズル好きの友達がいるみたいで嬉しい。たまに答えを間違えるけど、誰でもそうなるよね。頑張ってね、AI!😊
0
JackMartin
2025-04-13 18:51:16
NPRのサンデーパズルをAIで解くのは驚きです!これらのトリッキーな質問をモデルがどれだけうまく処理するかを見るのはクールです。時々間違えることもありますが、それでも印象的です。アルゴリズムを調整し続けてくださいね!🤓
0
RichardRoberts
2025-04-13 16:54:45
Sử dụng AI để giải các câu đố Chủ Nhật của NPR thật là đáng kinh ngạc! Thật tuyệt khi thấy các mô hình xử lý tốt những câu hỏi khó khăn này. Đôi khi chúng sai, nhưng vẫn rất ấn tượng. Cứ tiếp tục điều chỉnh các thuật toán đó, các bạn! 🤓
0
每周日,NPR的威尔·肖茨,《纽约时报》填字游戏的策划者,通过他的“周日谜题”节目吸引了数千名听众。这些谜题设计为仅需一般知识即可解答,但即便对经验丰富的解谜者也构成了重大挑战。
这种复杂性使得一些专家认为,周日谜题可以作为测试AI问题解决能力界限的宝贵工具。
在一项近期研究中,来自威尔斯利学院、奥伯林学院、德克萨斯大学奥斯汀分校、东北大学、查尔斯大学以及初创公司Cursor的研究人员,利用周日谜题中的谜语开发了一个AI基准测试。他们的发现揭示了推理模型的一些有趣行为,包括OpenAI的o1模型,它偶尔会“放弃”并故意给出错误答案。
东北大学的计算机科学教授、该研究的共同作者阿琼·古哈向TechCrunch解释,目标是创建一个任何具备一般知识的人都能理解的基准测试。他表示:“我们希望开发一个仅需一般知识就能理解问题的基准测试。”
AI行业目前在基准测试方面面临挑战,因为许多测试聚焦于博士级别的数学和科学等高级技能,这些对大多数用户并不相关。此外,即使是最近发布的基准测试也已接近饱和。
据古哈介绍,周日谜题的独特优势在于它不依赖专业知识,其格式能防止AI模型简单地复述记忆中的答案。他进一步解释:“我认为这些问题之所以难,是因为在解决之前很难取得实质性进展——只有当一切豁然开朗时,问题才会迎刃而解。这需要洞察力和排除法的结合。”
然而,周日谜题也有其局限性。它以美国文化为中心,仅使用英语,且存在模型可能因提前见过问题而“作弊”的风险。不过,古哈安慰道,他尚未发现这方面的证据。他补充说:“每周都会发布新问题,我们可以预期最新问题是真正未见过的。我们打算保持基准测试的新鲜度,并追踪模型性能随时间的变化。”
研究人员的基准测试包含约600个周日谜题的谜语,显示出像o1和DeepSeek的R1这样的推理模型明显优于其他模型。这些模型会仔细核查事实,帮助它们避免常见错误。然而,这种彻底性意味着它们需要更长时间得出答案——通常多几秒到几分钟。
有趣的是,DeepSeek的R1有时会承认失败,说“我放弃了”,然后给出一个随机的错误答案——这种反应让许多人感同身受。其他奇特行为包括模型给出一个错误答案后撤回,再次尝试猜测但仍失败。一些模型陷入无休止的“思考”循环,提供荒诞的解释,或在正确回答问题后仍不必要地探索其他答案。
古哈评论R1的行为时说:“在难题上,R1明确表示它感到‘沮丧’。看到模型模仿人类的说法很有趣。推理中的‘沮丧’如何影响模型结果的质量仍有待观察。”
当前基准测试的最高得分者是o1,得分为59%,其次是最近发布的o3-mini在高“推理努力”设置下得分47%。R1得分为35%。研究人员计划扩展测试到更多推理模型,希望找出改进的领域。
古哈强调了可访问基准测试的重要性,他说:“你不需要博士学位就能擅长推理,因此应该可以设计出不要求博士级知识的推理基准测试。具有更广泛访问性的基准测试能让更多研究人员理解和分析结果,这可能会在未来带来更好的解决方案。此外,随着最先进的模型越来越多地部署在影响每个人的场景中,我们认为每个人都应该能够直观了解这些模型的能力和局限性。”



NPR's Sunday Puzzle with AI? Sounds like a brain teaser showdown! I wonder if these models can outsmart Will Shortz’s tricky wordplay. 🤔




¡Esta herramienta de IA que resuelve los rompecabezas de los domingos de NPR es genial! Es como tener un amigo listo que ama los rompecabezas tanto como yo. A veces se equivoca, pero ¿quién no? ¡Sigue así, IA! 😄




This AI tool tackling NPR's Sunday Puzzles is super cool! It's like having a brainy friend who loves puzzles as much as I do. Sometimes it gets the answers wrong, but hey, who doesn't? Keep up the good work, AI! 🤓




NPRのサンデーパズルに挑戦するこのAIツール、めっちゃ面白い!パズル好きの友達がいるみたいで嬉しい。たまに答えを間違えるけど、誰でもそうなるよね。頑張ってね、AI!😊




NPRのサンデーパズルをAIで解くのは驚きです!これらのトリッキーな質問をモデルがどれだけうまく処理するかを見るのはクールです。時々間違えることもありますが、それでも印象的です。アルゴリズムを調整し続けてくださいね!🤓




Sử dụng AI để giải các câu đố Chủ Nhật của NPR thật là đáng kinh ngạc! Thật tuyệt khi thấy các mô hình xử lý tốt những câu hỏi khó khăn này. Đôi khi chúng sai, nhưng vẫn rất ấn tượng. Cứ tiếp tục điều chỉnh các thuật toán đó, các bạn! 🤓












