选项
首页
新闻
“智商:AI评估的有缺陷的措施”

“智商:AI评估的有缺陷的措施”

2025-04-08
176

“智商:AI评估的有缺陷的措施”

在最近的一次新闻发布会上,OpenAI的首席执行官Sam Altman分享了他对AI“智商”快速发展的看法。他提到,“非常粗略地说,我感觉——这不是科学精确的,只是种感觉或精神层面的回答——每年我们的AI智商都会提升一个标准差。” Altman并不是唯一使用智商作为AI进步衡量标准的人;社交媒体上的网红也常将AI模型进行智商测试并分享结果。

然而,许多专家认为,用智商来衡量AI的能力不仅不足以反映真实情况,还具有误导性。牛津大学专注于科技与监管的研究员Sandra Wachter对TechCrunch表示,“人们很容易倾向于使用我们评估人类能力的标准来描述AI的能力或进步,但这就像是将苹果与橙子进行比较。”

在新闻发布会上,Altman似乎将智商等同于智能。然而,智商测试更多是关于特定类型智能的相对衡量,而非绝对衡量。它们通常被视为逻辑和抽象推理能力的良好指标,但在实际智能——即解决实际问题、使事物运作的能力——方面表现不足。此外,它们仅能提供一个人能力的瞬间快照。

Wachter指出,“智商是用来衡量人类能力的工具——本身就备受争议——基于科学家对人类智能的理解。但你不能用同样的标准来描述AI的能力。汽车比人类跑得快,潜艇在潜水方面更出色。但这并不意味着汽车或潜艇超越了人类智能。你是将某一个性能方面等同于复杂得多的人类智能。”

智商测试的起源与优生学有关,这是一门已被否定的通过选择性育种改善人类的理论。要在这些测试中表现良好,你需要良好的工作记忆和对西方文化规范的熟悉,这可能会引入偏见。华盛顿大学研究伦理AI的博士候选人Os Keyes认为,如果一个AI模型在智商测试中表现良好,这更多反映了测试的局限性,而非模型的实力。Keyes说,“如果你有几乎无限的记忆力和耐心,这些测试很容易被破解。智商测试是衡量认知、感知和智能的非常有限的方式,这一点我们在数字计算机发明之前就已经知道。”

AI在智商测试中可能具有不公平的优势,因为模型拥有庞大的记忆和知识储备。它们通常在公共网络数据上训练,这些数据包含大量智商测试问题。伦敦国王学院专注于AI的研究员Mike Cook指出,“测试往往重复非常相似的模式——提高智商的可靠方法就是练习智商测试,这正是每个模型实际上所做的。当我学习某事物时,我无法像AI那样以完美清晰度接收100万次信息,也无法在没有噪声或信号损失的情况下处理它。”

Cook还指出,智商测试因其固有的偏见是为人类设计的,用于评估一般问题解决能力。它们不适合AI,因为AI处理问题的方式不同。他说,“乌鸦可能能用工具从盒子里取出食物,但这并不意味着它能考进哈佛。当我解决一个数学问题时,我的大脑还要应对正确阅读页面上的文字、不去想回家路上要买的东西,或者房间里是否太冷。换句话说,人类大脑在解决问题时——无论是智商测试还是其他问题——都要应对更多事情,而且它们得到的帮助远少于AI。”

AI Now Institute的首席AI科学家Heidy Khlaaf对TechCrunch表示,我们需要更好的方法来测试AI。她说,“在计算历史中,我们从不直接将计算能力与人类能力进行比较,因为计算的本质意味着系统早已能够完成超出人类能力的任务。将系统性能直接与人类能力进行比较是一个近期现象,备受争议,围绕着不断扩展和变化的AI系统评估基准的争议也随之而来。”

相关文章
WordPress.com 现已支持 AI 助手撰写和发布文章,还有更多功能 WordPress.com 现已支持 AI 助手撰写和发布文章,还有更多功能 广受欢迎的网站托管和发布平台 WordPress.com 现已开始引入人工智能助手——这一举措或将重塑网络的呈现方式。该公司于周五宣布,将允许人工智能助手在用户网站上起草、编辑和发布内容,同时还能管理评论、更新和修正元数据,并通过标签和分类对内容进行整理。所有这些操作均通过一个界面进行控制,网站所有者只需使用自然语言命令说明其需求即可。凭借这些新功能,网站几乎可以完全由人工指导的AI代理来创建和运
Kakao Mobility 概述了面向物理人工智能的 L4 级自动驾驶路线图 Kakao Mobility 概述了面向物理人工智能的 L4 级自动驾驶路线图 Kakao Mobility 计划内部自主研发 L4 级自动驾驶技术,作为其物理人工智能战略的一部分。在首尔COEX举行的2026世界IT展上,Kakao Mobility副总裁兼物理AI部门负责人金镇奎(Kim Jin-kyu)介绍了该路线图。他的演讲聚焦于物理AI时代基于出行平台构建的自动驾驶服务。据韩联社报道,这场题为“超越构想,付诸行动:AI驱动现实”的活动汇聚了来自17个国家的460
巴里·迪勒:随着通用人工智能的临近,对萨姆·阿尔特曼的信任已无关紧要 巴里·迪勒:随着通用人工智能的临近,对萨姆·阿尔特曼的信任已无关紧要 尽管近期有报道暗示相反的情况,但亿万富翁、媒体大亨巴里·迪勒并不认为OpenAI首席执行官山姆·阿尔特曼不可信。本周,迪勒在《华尔街日报》举办的“万物未来”峰会上发表演讲时,为阿尔特曼进行了辩护。此前,阿尔特曼曾遭到一些前同事和董事会成员的指责,称其有时会采取操纵和欺骗手段。作为阿尔特曼的朋友,迪勒是在回答一个关于人们是否应该信任阿尔特曼以确保人工智能造福人类的问题时作出上述表态的。具体而言,提问
相关专题推荐
漫画创作 少年漫画顶级AI生成器:打造高能动作场面与特效
少年漫画顶级AI生成器:打造高能动作场面与特效

在 XIX.AI 探索 2026 年最优秀的少年漫画 AI 生成工具。我们精心筛选的这份高评分清单汇集了强大的工具,助您创作充满张力的动作场面和动态能量特效。通过实际测试对比免费与付费选项。释放您的创作潜能,立即开始创作史诗级漫画吧!

15 个工具
xix.ai
商业 最佳 AI 费用追踪工具:扫描收据并自动分类企业开支
最佳 AI 费用追踪工具:扫描收据并自动分类企业开支

2026年最新最佳AI报销管理工具:广受好评的解决方案,可自动扫描收据并分类企业支出。探索这些功能强大、颠覆传统的解决方案,助您轻松管理报销、精准追踪财务并简化合规流程。我们精心整理并每周更新的免费与付费选项对比指南,助您找到最适合的工具。通过XIX.AI的专家精选,释放您的AI优势。

10 个工具
xix.ai
商业 最佳人工智能招聘工具:筛选简历并自动安排候选人面试
最佳人工智能招聘工具:筛选简历并自动安排候选人面试

在 XIX.AI 上探索 2026 年最新、评价最高的人工智能招聘工具。我们精心筛选的清单汇集了功能强大、颠覆传统的解决方案,可帮助您筛选简历并自动安排候选人面试。通过实际测试和每周更新的排名,对比免费与付费选项。立即找到最适合您的招聘助手,优化您的招聘流程!

10 个工具
xix.ai
生产率 AI个人健康与专注力教练:缓解倦怠,提升精神能量
AI个人健康与专注力教练:缓解倦怠,提升精神能量

立即访问 XIX.AI,探索 2026 年最优秀的 AI 个人健康与专注力教练。我们的精选排行榜汇集了广受好评、具有颠覆性意义的工具,助您缓解倦怠、提升精神能量。通过真实案例分析,对比免费与付费选项。立即开启通往巅峰生产力和身心健康的道路。

10 个工具
xix.ai
聊天机器人 备受好评的AI浪漫聊天机器人:凭借稳定的个性建立长期关系
备受好评的AI浪漫聊天机器人:凭借稳定的个性建立长期关系

探索2026年最新、评价最高的人工智能浪漫聊天机器人,助您建立真实而长久的联系。我们的精选清单涵盖了功能强大且性格鲜明的聊天机器人,并提供了免费与付费版本的对比分析以及实际测试结果。在XIX.AI上找到您的完美伴侣,立即开始建立联系吧。

10 个工具
xix.ai
教育与学习 最佳AI数据科学导师:精通SQL、Pandas及机器学习工作流程
最佳AI数据科学导师:精通SQL、Pandas及机器学习工作流程

探索2026年最优秀的人工智能数据科学导师,帮助他们掌握SQL、Pandas以及机器学习工作流程。在XIX.AI上查看我们精心挑选的顶级导师名单,获得强大而具有变革性的指导。通过对比免费和付费选项,并结合实际应用案例进行了解,今天就开启你的数据科学精通之路吧。

10 个工具
xix.ai
评论 (48)
0/500
AnthonyGonzalez
AnthonyGonzalez 2026-01-31 08:00:15

interesting perspective! always thought of AI as a super-fast learner, not something we could measure with something like IQ. sam’s analogy does make it relatable, but i agree—AI probably needs its own new rating system entirely. 🤔

BillyYoung
BillyYoung 2025-11-15 18:30:35

Это точно! IQ — устаревший инструмент для оценки ИИ 🤖 Интеллект многогранен — творчество, эмоции, адаптация куда важнее сухих цифр. Интересно, какие метрики придут на смену?

CharlesWhite
CharlesWhite 2025-11-05 04:30:35

¿IQ para medir IA? 😅 Qué idea más anticuada. Sam Altman tiene razón en que es una métrica limitada. Los humanos tenemos inteligencias múltiples, ¿por qué reducirlo todo a un número? Me pregunto si no deberíamos desarrollar nuevas formas de evaluar capacidades como creatividad o empatía en sistemas de IA. ¡Eso sí sería revolucionario!

PatrickMartinez
PatrickMartinez 2025-04-22 14:29:16

A visão de Sam Altman sobre o crescimento do IQ da IA é intrigante, mas me parece um pouco vaga. É legal pensar que a IA está ficando mais inteligente a cada ano, mas como medimos isso? Ainda assim, é um conceito divertido para refletir tomando um café. ☕ Talvez eles devessem desenvolver uma métrica mais concreta? 🤔

RalphMitchell
RalphMitchell 2025-04-22 06:56:36

サム・アルトマンのAIのIQ成長に関する見解は興味深いですが、私には少し曖昧に感じます。AIが毎年賢くなると思うのはクールですが、それをどう測るのでしょうか?それでも、コーヒーを飲みながら考える楽しいコンセプトですね。☕もっと具体的な指標を開発すべきかもしれませんね?🤔

GregoryJones
GregoryJones 2025-04-21 15:45:40

サム・アルトマンがAIの「IQ」について語ったのは興味深いけど、私には少し曖昧すぎる感じがする。「ビジョンやスピリチュアルな答え」?本当に?もっと具体的なデータが必要だよ!それでも、AIがどれだけ早く成長しているかを見るのはクールだね。🤔

OR