AI“推理”模型已通过NPR周日拼图问题测试
每周日,NPR的威尔·肖茨,《纽约时报》填字游戏的策划者,通过他的“周日谜题”节目吸引了数千名听众。这些谜题设计为仅需一般知识即可解答,但即便对经验丰富的解谜者也构成了重大挑战。
这种复杂性使得一些专家认为,周日谜题可以作为测试AI问题解决能力界限的宝贵工具。
在一项近期研究中,来自威尔斯利学院、奥伯林学院、德克萨斯大学奥斯汀分校、东北大学、查尔斯大学以及初创公司Cursor的研究人员,利用周日谜题中的谜语开发了一个AI基准测试。他们的发现揭示了推理模型的一些有趣行为,包括OpenAI的o1模型,它偶尔会“放弃”并故意给出错误答案。
东北大学的计算机科学教授、该研究的共同作者阿琼·古哈向TechCrunch解释,目标是创建一个任何具备一般知识的人都能理解的基准测试。他表示:“我们希望开发一个仅需一般知识就能理解问题的基准测试。”
AI行业目前在基准测试方面面临挑战,因为许多测试聚焦于博士级别的数学和科学等高级技能,这些对大多数用户并不相关。此外,即使是最近发布的基准测试也已接近饱和。
据古哈介绍,周日谜题的独特优势在于它不依赖专业知识,其格式能防止AI模型简单地复述记忆中的答案。他进一步解释:“我认为这些问题之所以难,是因为在解决之前很难取得实质性进展——只有当一切豁然开朗时,问题才会迎刃而解。这需要洞察力和排除法的结合。”
然而,周日谜题也有其局限性。它以美国文化为中心,仅使用英语,且存在模型可能因提前见过问题而“作弊”的风险。不过,古哈安慰道,他尚未发现这方面的证据。他补充说:“每周都会发布新问题,我们可以预期最新问题是真正未见过的。我们打算保持基准测试的新鲜度,并追踪模型性能随时间的变化。”
研究人员的基准测试包含约600个周日谜题的谜语,显示出像o1和DeepSeek的R1这样的推理模型明显优于其他模型。这些模型会仔细核查事实,帮助它们避免常见错误。然而,这种彻底性意味着它们需要更长时间得出答案——通常多几秒到几分钟。
有趣的是,DeepSeek的R1有时会承认失败,说“我放弃了”,然后给出一个随机的错误答案——这种反应让许多人感同身受。其他奇特行为包括模型给出一个错误答案后撤回,再次尝试猜测但仍失败。一些模型陷入无休止的“思考”循环,提供荒诞的解释,或在正确回答问题后仍不必要地探索其他答案。
古哈评论R1的行为时说:“在难题上,R1明确表示它感到‘沮丧’。看到模型模仿人类的说法很有趣。推理中的‘沮丧’如何影响模型结果的质量仍有待观察。”

R1在周日谜题挑战集的一个问题上感到“沮丧”。图片来源:古哈等人 当前基准测试的最高得分者是o1,得分为59%,其次是最近发布的o3-mini在高“推理努力”设置下得分47%。R1得分为35%。研究人员计划扩展测试到更多推理模型,希望找出改进的领域。

团队测试的模型在基准测试中的得分。图片来源:古哈等人 古哈强调了可访问基准测试的重要性,他说:“你不需要博士学位就能擅长推理,因此应该可以设计出不要求博士级知识的推理基准测试。具有更广泛访问性的基准测试能让更多研究人员理解和分析结果,这可能会在未来带来更好的解决方案。此外,随着最先进的模型越来越多地部署在影响每个人的场景中,我们认为每个人都应该能够直观了解这些模型的能力和局限性。”
相关文章
Notion 将其工作区转变为人工智能代理的枢纽
生产力软件公司 Notion 正迈入智能代理时代。在周三的一场直播产品发布会上,以协作式笔记应用而闻名的 Notion 推出了一款全新的开发者平台。该平台不仅扩展了其定制 AI 代理的功能,还能与外部代理连接,并允许团队构建能够从任何数据库提取数据的自动化多步骤工作流。通过构建一个编排层——即一个能在多个工具和数据源之间协调AI工作的系统——Notion将自身定位为不仅仅是一款具备AI功能的笔记应
ElevenLabs宣布黑石集团、杰米·福克斯和伊娃·朗格利亚成为新投资者
语音人工智能公司ElevenLabs披露了其5亿美元D轮融资的更多投资者名单,该轮融资最初于2月宣布。 其中包括贝莱德(BlackRock)、威灵顿(Wellington)、D.E. Shaw和施罗德(Schroders)等机构投资者;英伟达(NVIDIA)、Salesforce、桑坦德银行(Santander)、KPN和德国电信(Deutsche Telekom)等企业;以及杰米·福克斯(Jam
WordPress.com 现已支持 AI 助手撰写和发布文章,还有更多功能
广受欢迎的网站托管和发布平台 WordPress.com 现已开始引入人工智能助手——这一举措或将重塑网络的呈现方式。该公司于周五宣布,将允许人工智能助手在用户网站上起草、编辑和发布内容,同时还能管理评论、更新和修正元数据,并通过标签和分类对内容进行整理。所有这些操作均通过一个界面进行控制,网站所有者只需使用自然语言命令说明其需求即可。凭借这些新功能,网站几乎可以完全由人工指导的AI代理来创建和运
相关专题推荐
评论 (12)
0/500
Die Vorstellung, dass KI solche Puzzles löst, ist faszinierend. Aber wie weit kann diese 'Argumentationsfähigkeit' wirklich gehen? Ich frage mich, ob das mehr ist als nur komplexe Mustererkennung. Die ethischen Implikationen, wenn diese Systeme 'echtes' Denken simulieren könnten, sind beängstigend. 🤔
NPR's Sunday Puzzle with AI? Sounds like a brain teaser showdown! I wonder if these models can outsmart Will Shortz’s tricky wordplay. 🤔
¡Esta herramienta de IA que resuelve los rompecabezas de los domingos de NPR es genial! Es como tener un amigo listo que ama los rompecabezas tanto como yo. A veces se equivoca, pero ¿quién no? ¡Sigue así, IA! 😄
This AI tool tackling NPR's Sunday Puzzles is super cool! It's like having a brainy friend who loves puzzles as much as I do. Sometimes it gets the answers wrong, but hey, who doesn't? Keep up the good work, AI! 🤓
每周日,NPR的威尔·肖茨,《纽约时报》填字游戏的策划者,通过他的“周日谜题”节目吸引了数千名听众。这些谜题设计为仅需一般知识即可解答,但即便对经验丰富的解谜者也构成了重大挑战。
这种复杂性使得一些专家认为,周日谜题可以作为测试AI问题解决能力界限的宝贵工具。
在一项近期研究中,来自威尔斯利学院、奥伯林学院、德克萨斯大学奥斯汀分校、东北大学、查尔斯大学以及初创公司Cursor的研究人员,利用周日谜题中的谜语开发了一个AI基准测试。他们的发现揭示了推理模型的一些有趣行为,包括OpenAI的o1模型,它偶尔会“放弃”并故意给出错误答案。
东北大学的计算机科学教授、该研究的共同作者阿琼·古哈向TechCrunch解释,目标是创建一个任何具备一般知识的人都能理解的基准测试。他表示:“我们希望开发一个仅需一般知识就能理解问题的基准测试。”
AI行业目前在基准测试方面面临挑战,因为许多测试聚焦于博士级别的数学和科学等高级技能,这些对大多数用户并不相关。此外,即使是最近发布的基准测试也已接近饱和。
据古哈介绍,周日谜题的独特优势在于它不依赖专业知识,其格式能防止AI模型简单地复述记忆中的答案。他进一步解释:“我认为这些问题之所以难,是因为在解决之前很难取得实质性进展——只有当一切豁然开朗时,问题才会迎刃而解。这需要洞察力和排除法的结合。”
然而,周日谜题也有其局限性。它以美国文化为中心,仅使用英语,且存在模型可能因提前见过问题而“作弊”的风险。不过,古哈安慰道,他尚未发现这方面的证据。他补充说:“每周都会发布新问题,我们可以预期最新问题是真正未见过的。我们打算保持基准测试的新鲜度,并追踪模型性能随时间的变化。”
研究人员的基准测试包含约600个周日谜题的谜语,显示出像o1和DeepSeek的R1这样的推理模型明显优于其他模型。这些模型会仔细核查事实,帮助它们避免常见错误。然而,这种彻底性意味着它们需要更长时间得出答案——通常多几秒到几分钟。
有趣的是,DeepSeek的R1有时会承认失败,说“我放弃了”,然后给出一个随机的错误答案——这种反应让许多人感同身受。其他奇特行为包括模型给出一个错误答案后撤回,再次尝试猜测但仍失败。一些模型陷入无休止的“思考”循环,提供荒诞的解释,或在正确回答问题后仍不必要地探索其他答案。
古哈评论R1的行为时说:“在难题上,R1明确表示它感到‘沮丧’。看到模型模仿人类的说法很有趣。推理中的‘沮丧’如何影响模型结果的质量仍有待观察。”

当前基准测试的最高得分者是o1,得分为59%,其次是最近发布的o3-mini在高“推理努力”设置下得分47%。R1得分为35%。研究人员计划扩展测试到更多推理模型,希望找出改进的领域。

古哈强调了可访问基准测试的重要性,他说:“你不需要博士学位就能擅长推理,因此应该可以设计出不要求博士级知识的推理基准测试。具有更广泛访问性的基准测试能让更多研究人员理解和分析结果,这可能会在未来带来更好的解决方案。此外,随着最先进的模型越来越多地部署在影响每个人的场景中,我们认为每个人都应该能够直观了解这些模型的能力和局限性。”
Notion 将其工作区转变为人工智能代理的枢纽
生产力软件公司 Notion 正迈入智能代理时代。在周三的一场直播产品发布会上,以协作式笔记应用而闻名的 Notion 推出了一款全新的开发者平台。该平台不仅扩展了其定制 AI 代理的功能,还能与外部代理连接,并允许团队构建能够从任何数据库提取数据的自动化多步骤工作流。通过构建一个编排层——即一个能在多个工具和数据源之间协调AI工作的系统——Notion将自身定位为不仅仅是一款具备AI功能的笔记应
ElevenLabs宣布黑石集团、杰米·福克斯和伊娃·朗格利亚成为新投资者
语音人工智能公司ElevenLabs披露了其5亿美元D轮融资的更多投资者名单,该轮融资最初于2月宣布。 其中包括贝莱德(BlackRock)、威灵顿(Wellington)、D.E. Shaw和施罗德(Schroders)等机构投资者;英伟达(NVIDIA)、Salesforce、桑坦德银行(Santander)、KPN和德国电信(Deutsche Telekom)等企业;以及杰米·福克斯(Jam
WordPress.com 现已支持 AI 助手撰写和发布文章,还有更多功能
广受欢迎的网站托管和发布平台 WordPress.com 现已开始引入人工智能助手——这一举措或将重塑网络的呈现方式。该公司于周五宣布,将允许人工智能助手在用户网站上起草、编辑和发布内容,同时还能管理评论、更新和修正元数据,并通过标签和分类对内容进行整理。所有这些操作均通过一个界面进行控制,网站所有者只需使用自然语言命令说明其需求即可。凭借这些新功能,网站几乎可以完全由人工指导的AI代理来创建和运
Die Vorstellung, dass KI solche Puzzles löst, ist faszinierend. Aber wie weit kann diese 'Argumentationsfähigkeit' wirklich gehen? Ich frage mich, ob das mehr ist als nur komplexe Mustererkennung. Die ethischen Implikationen, wenn diese Systeme 'echtes' Denken simulieren könnten, sind beängstigend. 🤔
NPR's Sunday Puzzle with AI? Sounds like a brain teaser showdown! I wonder if these models can outsmart Will Shortz’s tricky wordplay. 🤔
¡Esta herramienta de IA que resuelve los rompecabezas de los domingos de NPR es genial! Es como tener un amigo listo que ama los rompecabezas tanto como yo. A veces se equivoca, pero ¿quién no? ¡Sigue así, IA! 😄
This AI tool tackling NPR's Sunday Puzzles is super cool! It's like having a brainy friend who loves puzzles as much as I do. Sometimes it gets the answers wrong, but hey, who doesn't? Keep up the good work, AI! 🤓





首页






