选项
首页
新闻
AI“推理”模型已通过NPR周日拼图问题测试

AI“推理”模型已通过NPR周日拼图问题测试

2025-04-10
132

每周日,NPR的威尔·肖茨,《纽约时报》填字游戏的策划者,通过他的“周日谜题”节目吸引了数千名听众。这些谜题设计为仅需一般知识即可解答,但即便对经验丰富的解谜者也构成了重大挑战。

这种复杂性使得一些专家认为,周日谜题可以作为测试AI问题解决能力界限的宝贵工具。

在一项近期研究中,来自威尔斯利学院、奥伯林学院、德克萨斯大学奥斯汀分校、东北大学、查尔斯大学以及初创公司Cursor的研究人员,利用周日谜题中的谜语开发了一个AI基准测试。他们的发现揭示了推理模型的一些有趣行为,包括OpenAI的o1模型,它偶尔会“放弃”并故意给出错误答案。

东北大学的计算机科学教授、该研究的共同作者阿琼·古哈向TechCrunch解释,目标是创建一个任何具备一般知识的人都能理解的基准测试。他表示:“我们希望开发一个仅需一般知识就能理解问题的基准测试。”

AI行业目前在基准测试方面面临挑战,因为许多测试聚焦于博士级别的数学和科学等高级技能,这些对大多数用户并不相关。此外,即使是最近发布的基准测试也已接近饱和。

据古哈介绍,周日谜题的独特优势在于它不依赖专业知识,其格式能防止AI模型简单地复述记忆中的答案。他进一步解释:“我认为这些问题之所以难,是因为在解决之前很难取得实质性进展——只有当一切豁然开朗时,问题才会迎刃而解。这需要洞察力和排除法的结合。”

然而,周日谜题也有其局限性。它以美国文化为中心,仅使用英语,且存在模型可能因提前见过问题而“作弊”的风险。不过,古哈安慰道,他尚未发现这方面的证据。他补充说:“每周都会发布新问题,我们可以预期最新问题是真正未见过的。我们打算保持基准测试的新鲜度,并追踪模型性能随时间的变化。”

研究人员的基准测试包含约600个周日谜题的谜语,显示出像o1和DeepSeek的R1这样的推理模型明显优于其他模型。这些模型会仔细核查事实,帮助它们避免常见错误。然而,这种彻底性意味着它们需要更长时间得出答案——通常多几秒到几分钟。

有趣的是,DeepSeek的R1有时会承认失败,说“我放弃了”,然后给出一个随机的错误答案——这种反应让许多人感同身受。其他奇特行为包括模型给出一个错误答案后撤回,再次尝试猜测但仍失败。一些模型陷入无休止的“思考”循环,提供荒诞的解释,或在正确回答问题后仍不必要地探索其他答案。

古哈评论R1的行为时说:“在难题上,R1明确表示它感到‘沮丧’。看到模型模仿人类的说法很有趣。推理中的‘沮丧’如何影响模型结果的质量仍有待观察。”

NPR基准测试

R1在周日谜题挑战集的一个问题上感到“沮丧”。图片来源:古哈等人

当前基准测试的最高得分者是o1,得分为59%,其次是最近发布的o3-mini在高“推理努力”设置下得分47%。R1得分为35%。研究人员计划扩展测试到更多推理模型,希望找出改进的领域。

NPR基准测试

团队测试的模型在基准测试中的得分。图片来源:古哈等人

古哈强调了可访问基准测试的重要性,他说:“你不需要博士学位就能擅长推理,因此应该可以设计出不要求博士级知识的推理基准测试。具有更广泛访问性的基准测试能让更多研究人员理解和分析结果,这可能会在未来带来更好的解决方案。此外,随着最先进的模型越来越多地部署在影响每个人的场景中,我们认为每个人都应该能够直观了解这些模型的能力和局限性。”

相关文章
"Dot AI伴侣应用程序宣布关闭,停止个性化服务 Dot 是一款人工智能伴侣应用程序,旨在充当个人朋友和知己,根据其开发者周五发布的公告,Dot 将停止运营。Dot背后的初创公司New Computer在其网站上表示,该服务将持续到10月5日,以便用户有时间导出个人数据。今年早些时候,联合创始人山姆-惠特莫尔(Sam Whitmore)和前苹果设计专家杰森-袁(Jason Yuan)合作推出了这款应用程序。Dot 进入了日益受到关注的情感人工智能
Anthropic 解决了人工智能生成盗版图书的法律案件 Anthropic 解决了人工智能生成盗版图书的法律案件 Anthropic公司与美国作家达成了一项重要的版权纠纷解决方案,同意拟议的集体诉讼和解,避免了可能代价高昂的审判。本周二在法庭文件中提交的这份协议源于对这家人工智能公司使用盗版文学作品训练克劳德模型的指控。尽管此案源于作家安德烈娅-巴茨(Andrea Bartz)、查尔斯-格雷伯(Charles Graeber)和柯克-华莱士-约翰逊(Kirk Wallace Johnson)的指控,但和解细节
Figma 向所有用户发布人工智能驱动的应用程序生成工具 Figma 向所有用户发布人工智能驱动的应用程序生成工具 Figma Make 是今年早些时候推出的创新型提示到应用开发平台,现已正式退出测试版,并向所有用户推出。这一开创性的工具加入了人工智能编码助手的行列,如谷歌的 Gemini Code Assist 和微软的 GitHub Copilot,使创作者能够将自然语言描述转化为功能原型和应用程序,而无需传统的编程专业知识。Figma Make 最初在测试阶段只对高级 "全席 "用户开放,现在对所有账户类
评论 (11)
0/200
StephenRamirez
StephenRamirez 2025-07-22 14:33:07

NPR's Sunday Puzzle with AI? Sounds like a brain teaser showdown! I wonder if these models can outsmart Will Shortz’s tricky wordplay. 🤔

PaulTaylor
PaulTaylor 2025-04-20 05:13:34

¡Esta herramienta de IA que resuelve los rompecabezas de los domingos de NPR es genial! Es como tener un amigo listo que ama los rompecabezas tanto como yo. A veces se equivoca, pero ¿quién no? ¡Sigue así, IA! 😄

StephenScott
StephenScott 2025-04-19 18:57:20

This AI tool tackling NPR's Sunday Puzzles is super cool! It's like having a brainy friend who loves puzzles as much as I do. Sometimes it gets the answers wrong, but hey, who doesn't? Keep up the good work, AI! 🤓

CharlesThomas
CharlesThomas 2025-04-19 10:09:55

NPRのサンデーパズルに挑戦するこのAIツール、めっちゃ面白い!パズル好きの友達がいるみたいで嬉しい。たまに答えを間違えるけど、誰でもそうなるよね。頑張ってね、AI!😊

JackMartin
JackMartin 2025-04-13 18:51:16

NPRのサンデーパズルをAIで解くのは驚きです!これらのトリッキーな質問をモデルがどれだけうまく処理するかを見るのはクールです。時々間違えることもありますが、それでも印象的です。アルゴリズムを調整し続けてくださいね!🤓

RichardRoberts
RichardRoberts 2025-04-13 16:54:45

Sử dụng AI để giải các câu đố Chủ Nhật của NPR thật là đáng kinh ngạc! Thật tuyệt khi thấy các mô hình xử lý tốt những câu hỏi khó khăn này. Đôi khi chúng sai, nhưng vẫn rất ấn tượng. Cứ tiếp tục điều chỉnh các thuật toán đó, các bạn! 🤓

返回顶部
OR