选项
首页
新闻
人工智能读钟失败,人类在时间识别测试中表现出色

人工智能读钟失败,人类在时间识别测试中表现出色

2025-10-16
96

一项具有里程碑意义的评估将 11 种尖端人工智能系统与人类读取模拟时钟的表现进行了比较,结果显示,当前的机器学习架构存在重大漏洞。虽然人类参与者在计时方面表现出了 89.1% 的出色准确率,但即使是谷歌表现最出色的人工智能模型,在相同的测试条件下也只取得了 13.3% 的成功率。

由研究员阿列克-萨法尔(Alek Safar)带头进行的 ClockBench 调查强调了儿童通常掌握的基本视觉推理任务如何继续挑战最复杂的人工智能算法。这项严格的评估使用 180 个特别制作的模拟时钟设计,对谷歌、OpenAI 和 Anthropic 等行业领先企业的平台进行了检查。

这些发现指出了神经网络如何处理和解释视觉数据的深层结构问题。"萨法尔在发表的研究报告中解释说:"准确读取模拟时钟需要在视觉环境中进行复杂的空间推理。这个多步骤的认知过程包括手部识别、位置分析和数字转换--这些操作揭示了人工智能的关键缺陷。

事实证明,错误模式的对比尤其具有启发性。人类的错误通常会导致大约三分钟的轻微偏差,而人工智能系统则会产生平均 1-3 小时的严重不准确估计,这实际上相当于在标准钟面上的随机猜测。

关键性能限制

人工智能平台在以下方面表现出明显的困难

  • 罗马数字钟面(准确率仅为 3.2)
  • 反向或镜像时钟方向
  • 视觉上复杂的背景和艺术设计
  • 秒针位置的精确测量

我们发现了一个很有说服力的现象:当人工智能系统能够正确解读初始时钟读数时,它们随后在基于时间的计算(如转换和算术)方面表现出色。这表明主要障碍在于视觉理解能力而非数学处理能力。

行业比较分析

谷歌的 Gemini 2.5 Pro 以 13.3% 的准确率领跑商用产品,紧随其后的是 Gemini 2.5 Flash,准确率为 10.5%。OpenAI 的 GPT-5 的正确回答率为 8.4%,而 Anthropic 的 Claude 模型表现不佳,Claude 4 Sonnet 仅为 4.2%,Claude 4.1 Opus 为 5.6%。

xAI 的 Grok 4 得出的结果尤其令人担忧,准确率仅为 0.7%,这主要是由于它错误地将 63% 的有效时钟显示识别为显示不可能的时间--尽管实际上只有 20.6% 的时钟配置不正确。

对人工智能发展的根本影响

这项研究扩展了 ARC-AGI 和 SimpleBench 等计划所体现的 "人类-简单,人工智能-复杂 "基准范式。虽然人工智能已经在众多基于知识的评估和专业考试中取得了超人的成绩,但原始的视觉推理仍面临着持续的挑战。

Safar 的分析表明,当前的模型规模和训练数据扩展方法可能无法有效解决这些视觉处理方面的局限性。两个假设的因素包括:模拟时钟在训练语料库中的代表性不足,以及图形时钟组件和文本表述之间的空间关系转换存在固有困难。

ClockBench 加入了不断扩大的诊断工具套件,旨在发现非显而易见的人工智能能力差距。为了保持评估的完整性,整个数据集仍然受到限制,以防止未来的模型训练受到污染,只有受控样本子集可用于验证。

这些发现提出了一些关键问题,即现有架构的渐进式改进能否弥补这些推理缺陷,或者是否需要从根本上采用新方法--这与其他人工智能领域的创新(如测试时间计算)所带来的历史性突破如出一辙。

在可预见的未来,机械模拟时钟将成为人类智能的一个出乎意料的强大基准--我们可以毫不费力地解读这项技术,但它却一直困惑着我们最先进的计算创造物。

相关文章
WordPress.com 现已支持 AI 助手撰写和发布文章,还有更多功能 WordPress.com 现已支持 AI 助手撰写和发布文章,还有更多功能 广受欢迎的网站托管和发布平台 WordPress.com 现已开始引入人工智能助手——这一举措或将重塑网络的呈现方式。该公司于周五宣布,将允许人工智能助手在用户网站上起草、编辑和发布内容,同时还能管理评论、更新和修正元数据,并通过标签和分类对内容进行整理。所有这些操作均通过一个界面进行控制,网站所有者只需使用自然语言命令说明其需求即可。凭借这些新功能,网站几乎可以完全由人工指导的AI代理来创建和运
Kakao Mobility 概述了面向物理人工智能的 L4 级自动驾驶路线图 Kakao Mobility 概述了面向物理人工智能的 L4 级自动驾驶路线图 Kakao Mobility 计划内部自主研发 L4 级自动驾驶技术,作为其物理人工智能战略的一部分。在首尔COEX举行的2026世界IT展上,Kakao Mobility副总裁兼物理AI部门负责人金镇奎(Kim Jin-kyu)介绍了该路线图。他的演讲聚焦于物理AI时代基于出行平台构建的自动驾驶服务。据韩联社报道,这场题为“超越构想,付诸行动:AI驱动现实”的活动汇聚了来自17个国家的460
巴里·迪勒:随着通用人工智能的临近,对萨姆·阿尔特曼的信任已无关紧要 巴里·迪勒:随着通用人工智能的临近,对萨姆·阿尔特曼的信任已无关紧要 尽管近期有报道暗示相反的情况,但亿万富翁、媒体大亨巴里·迪勒并不认为OpenAI首席执行官山姆·阿尔特曼不可信。本周,迪勒在《华尔街日报》举办的“万物未来”峰会上发表演讲时,为阿尔特曼进行了辩护。此前,阿尔特曼曾遭到一些前同事和董事会成员的指责,称其有时会采取操纵和欺骗手段。作为阿尔特曼的朋友,迪勒是在回答一个关于人们是否应该信任阿尔特曼以确保人工智能造福人类的问题时作出上述表态的。具体而言,提问
相关专题推荐
商业 最佳 AI 费用追踪工具:扫描收据并自动分类企业开支
最佳 AI 费用追踪工具:扫描收据并自动分类企业开支

2026年最新最佳AI报销管理工具:广受好评的解决方案,可自动扫描收据并分类企业支出。探索这些功能强大、颠覆传统的解决方案,助您轻松管理报销、精准追踪财务并简化合规流程。我们精心整理并每周更新的免费与付费选项对比指南,助您找到最适合的工具。通过XIX.AI的专家精选,释放您的AI优势。

10 个工具
xix.ai
商业 最佳人工智能招聘工具:筛选简历并自动安排候选人面试
最佳人工智能招聘工具:筛选简历并自动安排候选人面试

在 XIX.AI 上探索 2026 年最新、评价最高的人工智能招聘工具。我们精心筛选的清单汇集了功能强大、颠覆传统的解决方案,可帮助您筛选简历并自动安排候选人面试。通过实际测试和每周更新的排名,对比免费与付费选项。立即找到最适合您的招聘助手,优化您的招聘流程!

10 个工具
xix.ai
生产率 AI个人健康与专注力教练:缓解倦怠,提升精神能量
AI个人健康与专注力教练:缓解倦怠,提升精神能量

立即访问 XIX.AI,探索 2026 年最优秀的 AI 个人健康与专注力教练。我们的精选排行榜汇集了广受好评、具有颠覆性意义的工具,助您缓解倦怠、提升精神能量。通过真实案例分析,对比免费与付费选项。立即开启通往巅峰生产力和身心健康的道路。

10 个工具
xix.ai
聊天机器人 备受好评的AI浪漫聊天机器人:凭借稳定的个性建立长期关系
备受好评的AI浪漫聊天机器人:凭借稳定的个性建立长期关系

探索2026年最新、评价最高的人工智能浪漫聊天机器人,助您建立真实而长久的联系。我们的精选清单涵盖了功能强大且性格鲜明的聊天机器人,并提供了免费与付费版本的对比分析以及实际测试结果。在XIX.AI上找到您的完美伴侣,立即开始建立联系吧。

10 个工具
xix.ai
教育与学习 最佳AI数据科学导师:精通SQL、Pandas及机器学习工作流程
最佳AI数据科学导师:精通SQL、Pandas及机器学习工作流程

探索2026年最优秀的人工智能数据科学导师,帮助他们掌握SQL、Pandas以及机器学习工作流程。在XIX.AI上查看我们精心挑选的顶级导师名单,获得强大而具有变革性的指导。通过对比免费和付费选项,并结合实际应用案例进行了解,今天就开启你的数据科学精通之路吧。

10 个工具
xix.ai
聊天机器人 最佳AI调情与对话训练工具:实时提升社交魅力与自信
最佳AI调情与对话训练工具:实时提升社交魅力与自信

在 XIX.AI 上探索 2026 年最优秀的 AI 调情与对话训练工具。我们精心挑选的高评分工具助您实时提升社交魅力与自信。探索这些必试的、颠覆性的工具,查看免费版与付费版的对比,并了解每周更新的排行榜。立即开启您的社交优势。

10 个工具
xix.ai
评论 (1)
0/500
JonathanMiller
JonathanMiller 2026-04-21 12:00:45

Interessant, dass selbst moderne KI bei so simplen Aufgaben wie Uhrenlesen scheitert. Das zeigt, wie spezifisch menschliche Wahrnehmung und Alltagserfahrung sind. Vielleicht sollten wir weniger auf 'Allgemeine' Intelligenz hoffen und mehr auf spezialisierte Tools setzen, die mit Menschen zusammenarbeiten. 🤔

OR