选项
首页
新闻
人工智能读钟失败,人类在时间识别测试中表现出色

人工智能读钟失败,人类在时间识别测试中表现出色

2025-10-16
96

一项具有里程碑意义的评估将 11 种尖端人工智能系统与人类读取模拟时钟的表现进行了比较,结果显示,当前的机器学习架构存在重大漏洞。虽然人类参与者在计时方面表现出了 89.1% 的出色准确率,但即使是谷歌表现最出色的人工智能模型,在相同的测试条件下也只取得了 13.3% 的成功率。

由研究员阿列克-萨法尔(Alek Safar)带头进行的 ClockBench 调查强调了儿童通常掌握的基本视觉推理任务如何继续挑战最复杂的人工智能算法。这项严格的评估使用 180 个特别制作的模拟时钟设计,对谷歌、OpenAI 和 Anthropic 等行业领先企业的平台进行了检查。

这些发现指出了神经网络如何处理和解释视觉数据的深层结构问题。"萨法尔在发表的研究报告中解释说:"准确读取模拟时钟需要在视觉环境中进行复杂的空间推理。这个多步骤的认知过程包括手部识别、位置分析和数字转换--这些操作揭示了人工智能的关键缺陷。

事实证明,错误模式的对比尤其具有启发性。人类的错误通常会导致大约三分钟的轻微偏差,而人工智能系统则会产生平均 1-3 小时的严重不准确估计,这实际上相当于在标准钟面上的随机猜测。

关键性能限制

人工智能平台在以下方面表现出明显的困难

  • 罗马数字钟面(准确率仅为 3.2)
  • 反向或镜像时钟方向
  • 视觉上复杂的背景和艺术设计
  • 秒针位置的精确测量

我们发现了一个很有说服力的现象:当人工智能系统能够正确解读初始时钟读数时,它们随后在基于时间的计算(如转换和算术)方面表现出色。这表明主要障碍在于视觉理解能力而非数学处理能力。

行业比较分析

谷歌的 Gemini 2.5 Pro 以 13.3% 的准确率领跑商用产品,紧随其后的是 Gemini 2.5 Flash,准确率为 10.5%。OpenAI 的 GPT-5 的正确回答率为 8.4%,而 Anthropic 的 Claude 模型表现不佳,Claude 4 Sonnet 仅为 4.2%,Claude 4.1 Opus 为 5.6%。

xAI 的 Grok 4 得出的结果尤其令人担忧,准确率仅为 0.7%,这主要是由于它错误地将 63% 的有效时钟显示识别为显示不可能的时间--尽管实际上只有 20.6% 的时钟配置不正确。

对人工智能发展的根本影响

这项研究扩展了 ARC-AGI 和 SimpleBench 等计划所体现的 "人类-简单,人工智能-复杂 "基准范式。虽然人工智能已经在众多基于知识的评估和专业考试中取得了超人的成绩,但原始的视觉推理仍面临着持续的挑战。

Safar 的分析表明,当前的模型规模和训练数据扩展方法可能无法有效解决这些视觉处理方面的局限性。两个假设的因素包括:模拟时钟在训练语料库中的代表性不足,以及图形时钟组件和文本表述之间的空间关系转换存在固有困难。

ClockBench 加入了不断扩大的诊断工具套件,旨在发现非显而易见的人工智能能力差距。为了保持评估的完整性,整个数据集仍然受到限制,以防止未来的模型训练受到污染,只有受控样本子集可用于验证。

这些发现提出了一些关键问题,即现有架构的渐进式改进能否弥补这些推理缺陷,或者是否需要从根本上采用新方法--这与其他人工智能领域的创新(如测试时间计算)所带来的历史性突破如出一辙。

在可预见的未来,机械模拟时钟将成为人类智能的一个出乎意料的强大基准--我们可以毫不费力地解读这项技术,但它却一直困惑着我们最先进的计算创造物。

相关文章
Kakao Mobility 概述了面向物理人工智能的 L4 级自动驾驶路线图 Kakao Mobility 概述了面向物理人工智能的 L4 级自动驾驶路线图 Kakao Mobility 计划内部自主研发 L4 级自动驾驶技术,作为其物理人工智能战略的一部分。在首尔COEX举行的2026世界IT展上,Kakao Mobility副总裁兼物理AI部门负责人金镇奎(Kim Jin-kyu)介绍了该路线图。他的演讲聚焦于物理AI时代基于出行平台构建的自动驾驶服务。据韩联社报道,这场题为“超越构想,付诸行动:AI驱动现实”的活动汇聚了来自17个国家的460
巴里·迪勒:随着通用人工智能的临近,对萨姆·阿尔特曼的信任已无关紧要 巴里·迪勒:随着通用人工智能的临近,对萨姆·阿尔特曼的信任已无关紧要 尽管近期有报道暗示相反的情况,但亿万富翁、媒体大亨巴里·迪勒并不认为OpenAI首席执行官山姆·阿尔特曼不可信。本周,迪勒在《华尔街日报》举办的“万物未来”峰会上发表演讲时,为阿尔特曼进行了辩护。此前,阿尔特曼曾遭到一些前同事和董事会成员的指责,称其有时会采取操纵和欺骗手段。作为阿尔特曼的朋友,迪勒是在回答一个关于人们是否应该信任阿尔特曼以确保人工智能造福人类的问题时作出上述表态的。具体而言,提问
YouTube将AI深度伪造检测功能扩展至政界人士、政府官员和记者 YouTube将AI深度伪造检测功能扩展至政界人士、政府官员和记者 周二,YouTube宣布将把其深度伪造(deepfake)检测技术推广至部分政府官员、政治候选人和记者。该工具可识别由人工智能生成的肖像,并允许试点参与者申请删除其认为违反YouTube政策的未经授权内容。该检测系统在经过前期测试阶段后,于去年首次向约400万名YouTube合作伙伴计划的创作者推出。与YouTube现有的用于保护版权内容的Content ID系统类似,该肖像检测功能可识别AI模拟
相关专题推荐
生产率 AI个人健康与专注力教练:缓解倦怠,提升精神能量
AI个人健康与专注力教练:缓解倦怠,提升精神能量

立即访问 XIX.AI,探索 2026 年最优秀的 AI 个人健康与专注力教练。我们的精选排行榜汇集了广受好评、具有颠覆性意义的工具,助您缓解倦怠、提升精神能量。通过真实案例分析,对比免费与付费选项。立即开启通往巅峰生产力和身心健康的道路。

10 个工具
xix.ai
聊天机器人 备受好评的AI浪漫聊天机器人:凭借稳定的个性建立长期关系
备受好评的AI浪漫聊天机器人:凭借稳定的个性建立长期关系

探索2026年最新、评价最高的人工智能浪漫聊天机器人,助您建立真实而长久的联系。我们的精选清单涵盖了功能强大且性格鲜明的聊天机器人,并提供了免费与付费版本的对比分析以及实际测试结果。在XIX.AI上找到您的完美伴侣,立即开始建立联系吧。

10 个工具
xix.ai
教育与学习 最佳AI数据科学导师:精通SQL、Pandas及机器学习工作流程
最佳AI数据科学导师:精通SQL、Pandas及机器学习工作流程

探索2026年最优秀的人工智能数据科学导师,帮助他们掌握SQL、Pandas以及机器学习工作流程。在XIX.AI上查看我们精心挑选的顶级导师名单,获得强大而具有变革性的指导。通过对比免费和付费选项,并结合实际应用案例进行了解,今天就开启你的数据科学精通之路吧。

10 个工具
xix.ai
聊天机器人 最佳AI调情与对话训练工具:实时提升社交魅力与自信
最佳AI调情与对话训练工具:实时提升社交魅力与自信

在 XIX.AI 上探索 2026 年最优秀的 AI 调情与对话训练工具。我们精心挑选的高评分工具助您实时提升社交魅力与自信。探索这些必试的、颠覆性的工具,查看免费版与付费版的对比,并了解每周更新的排行榜。立即开启您的社交优势。

10 个工具
xix.ai
代码 最适合自动化单元测试的最佳AI工具:一键生成Jest、PyTest和JUnit测试用例
最适合自动化单元测试的最佳AI工具:一键生成Jest、PyTest和JUnit测试用例

探索2026年最新评选出的顶级AI工具,这些工具专为自动化单元测试而设计。我们精心挑选了那些功能强大、能够改变开发流程的工具,它们能够帮助您快速生成Jest、PyTest和JUnit测试用例。在XIX.AI平台上,您可以免费查看各种选项,并通过实际测试结果以及每周更新的排名来了解它们的优劣。立即利用这些AI工具,提升您的开发效率吧!

10 个工具
xix.ai
数据分析 最佳 AI 数据可视化工具:从原始文件自动生成交互式 BI 仪表盘
最佳 AI 数据可视化工具:从原始文件自动生成交互式 BI 仪表盘

在 XIX.AI 探索 2026 年最佳 AI 数据可视化工具。我们精心挑选的顶级工具助您即时从原始文件中自动生成功能强大且交互式的商业智能仪表盘。通过实际测试和每周更新的排行榜,对比免费与付费选项。立即释放您数据的潜力。

10 个工具
xix.ai
评论 (1)
0/500
JonathanMiller
JonathanMiller 2026-04-21 12:00:45

Interessant, dass selbst moderne KI bei so simplen Aufgaben wie Uhrenlesen scheitert. Das zeigt, wie spezifisch menschliche Wahrnehmung und Alltagserfahrung sind. Vielleicht sollten wir weniger auf 'Allgemeine' Intelligenz hoffen und mehr auf spezialisierte Tools setzen, die mit Menschen zusammenarbeiten. 🤔

OR