“智商:AI评估的有缺陷的措施”

在最近的一次新闻发布会上,OpenAI的首席执行官Sam Altman分享了他对AI“智商”快速发展的看法。他提到,“非常粗略地说,我感觉——这不是科学精确的,只是种感觉或精神层面的回答——每年我们的AI智商都会提升一个标准差。” Altman并不是唯一使用智商作为AI进步衡量标准的人;社交媒体上的网红也常将AI模型进行智商测试并分享结果。
然而,许多专家认为,用智商来衡量AI的能力不仅不足以反映真实情况,还具有误导性。牛津大学专注于科技与监管的研究员Sandra Wachter对TechCrunch表示,“人们很容易倾向于使用我们评估人类能力的标准来描述AI的能力或进步,但这就像是将苹果与橙子进行比较。”
在新闻发布会上,Altman似乎将智商等同于智能。然而,智商测试更多是关于特定类型智能的相对衡量,而非绝对衡量。它们通常被视为逻辑和抽象推理能力的良好指标,但在实际智能——即解决实际问题、使事物运作的能力——方面表现不足。此外,它们仅能提供一个人能力的瞬间快照。
Wachter指出,“智商是用来衡量人类能力的工具——本身就备受争议——基于科学家对人类智能的理解。但你不能用同样的标准来描述AI的能力。汽车比人类跑得快,潜艇在潜水方面更出色。但这并不意味着汽车或潜艇超越了人类智能。你是将某一个性能方面等同于复杂得多的人类智能。”
智商测试的起源与优生学有关,这是一门已被否定的通过选择性育种改善人类的理论。要在这些测试中表现良好,你需要良好的工作记忆和对西方文化规范的熟悉,这可能会引入偏见。华盛顿大学研究伦理AI的博士候选人Os Keyes认为,如果一个AI模型在智商测试中表现良好,这更多反映了测试的局限性,而非模型的实力。Keyes说,“如果你有几乎无限的记忆力和耐心,这些测试很容易被破解。智商测试是衡量认知、感知和智能的非常有限的方式,这一点我们在数字计算机发明之前就已经知道。”
AI在智商测试中可能具有不公平的优势,因为模型拥有庞大的记忆和知识储备。它们通常在公共网络数据上训练,这些数据包含大量智商测试问题。伦敦国王学院专注于AI的研究员Mike Cook指出,“测试往往重复非常相似的模式——提高智商的可靠方法就是练习智商测试,这正是每个模型实际上所做的。当我学习某事物时,我无法像AI那样以完美清晰度接收100万次信息,也无法在没有噪声或信号损失的情况下处理它。”
Cook还指出,智商测试因其固有的偏见是为人类设计的,用于评估一般问题解决能力。它们不适合AI,因为AI处理问题的方式不同。他说,“乌鸦可能能用工具从盒子里取出食物,但这并不意味着它能考进哈佛。当我解决一个数学问题时,我的大脑还要应对正确阅读页面上的文字、不去想回家路上要买的东西,或者房间里是否太冷。换句话说,人类大脑在解决问题时——无论是智商测试还是其他问题——都要应对更多事情,而且它们得到的帮助远少于AI。”
AI Now Institute的首席AI科学家Heidy Khlaaf对TechCrunch表示,我们需要更好的方法来测试AI。她说,“在计算历史中,我们从不直接将计算能力与人类能力进行比较,因为计算的本质意味着系统早已能够完成超出人类能力的任务。将系统性能直接与人类能力进行比较是一个近期现象,备受争议,围绕着不断扩展和变化的AI系统评估基准的争议也随之而来。”
相关文章
WordPress.com 现已支持 AI 助手撰写和发布文章,还有更多功能
广受欢迎的网站托管和发布平台 WordPress.com 现已开始引入人工智能助手——这一举措或将重塑网络的呈现方式。该公司于周五宣布,将允许人工智能助手在用户网站上起草、编辑和发布内容,同时还能管理评论、更新和修正元数据,并通过标签和分类对内容进行整理。所有这些操作均通过一个界面进行控制,网站所有者只需使用自然语言命令说明其需求即可。凭借这些新功能,网站几乎可以完全由人工指导的AI代理来创建和运
Kakao Mobility 概述了面向物理人工智能的 L4 级自动驾驶路线图
Kakao Mobility 计划内部自主研发 L4 级自动驾驶技术,作为其物理人工智能战略的一部分。在首尔COEX举行的2026世界IT展上,Kakao Mobility副总裁兼物理AI部门负责人金镇奎(Kim Jin-kyu)介绍了该路线图。他的演讲聚焦于物理AI时代基于出行平台构建的自动驾驶服务。据韩联社报道,这场题为“超越构想,付诸行动:AI驱动现实”的活动汇聚了来自17个国家的460
巴里·迪勒:随着通用人工智能的临近,对萨姆·阿尔特曼的信任已无关紧要
尽管近期有报道暗示相反的情况,但亿万富翁、媒体大亨巴里·迪勒并不认为OpenAI首席执行官山姆·阿尔特曼不可信。本周,迪勒在《华尔街日报》举办的“万物未来”峰会上发表演讲时,为阿尔特曼进行了辩护。此前,阿尔特曼曾遭到一些前同事和董事会成员的指责,称其有时会采取操纵和欺骗手段。作为阿尔特曼的朋友,迪勒是在回答一个关于人们是否应该信任阿尔特曼以确保人工智能造福人类的问题时作出上述表态的。具体而言,提问
相关专题推荐
评论 (48)
0/500
interesting perspective! always thought of AI as a super-fast learner, not something we could measure with something like IQ. sam’s analogy does make it relatable, but i agree—AI probably needs its own new rating system entirely. 🤔
Это точно! IQ — устаревший инструмент для оценки ИИ 🤖 Интеллект многогранен — творчество, эмоции, адаптация куда важнее сухих цифр. Интересно, какие метрики придут на смену?
¿IQ para medir IA? 😅 Qué idea más anticuada. Sam Altman tiene razón en que es una métrica limitada. Los humanos tenemos inteligencias múltiples, ¿por qué reducirlo todo a un número? Me pregunto si no deberíamos desarrollar nuevas formas de evaluar capacidades como creatividad o empatía en sistemas de IA. ¡Eso sí sería revolucionario!
A visão de Sam Altman sobre o crescimento do IQ da IA é intrigante, mas me parece um pouco vaga. É legal pensar que a IA está ficando mais inteligente a cada ano, mas como medimos isso? Ainda assim, é um conceito divertido para refletir tomando um café. ☕ Talvez eles devessem desenvolver uma métrica mais concreta? 🤔
サム・アルトマンのAIのIQ成長に関する見解は興味深いですが、私には少し曖昧に感じます。AIが毎年賢くなると思うのはクールですが、それをどう測るのでしょうか?それでも、コーヒーを飲みながら考える楽しいコンセプトですね。☕もっと具体的な指標を開発すべきかもしれませんね?🤔

在最近的一次新闻发布会上,OpenAI的首席执行官Sam Altman分享了他对AI“智商”快速发展的看法。他提到,“非常粗略地说,我感觉——这不是科学精确的,只是种感觉或精神层面的回答——每年我们的AI智商都会提升一个标准差。” Altman并不是唯一使用智商作为AI进步衡量标准的人;社交媒体上的网红也常将AI模型进行智商测试并分享结果。
然而,许多专家认为,用智商来衡量AI的能力不仅不足以反映真实情况,还具有误导性。牛津大学专注于科技与监管的研究员Sandra Wachter对TechCrunch表示,“人们很容易倾向于使用我们评估人类能力的标准来描述AI的能力或进步,但这就像是将苹果与橙子进行比较。”
在新闻发布会上,Altman似乎将智商等同于智能。然而,智商测试更多是关于特定类型智能的相对衡量,而非绝对衡量。它们通常被视为逻辑和抽象推理能力的良好指标,但在实际智能——即解决实际问题、使事物运作的能力——方面表现不足。此外,它们仅能提供一个人能力的瞬间快照。
Wachter指出,“智商是用来衡量人类能力的工具——本身就备受争议——基于科学家对人类智能的理解。但你不能用同样的标准来描述AI的能力。汽车比人类跑得快,潜艇在潜水方面更出色。但这并不意味着汽车或潜艇超越了人类智能。你是将某一个性能方面等同于复杂得多的人类智能。”
智商测试的起源与优生学有关,这是一门已被否定的通过选择性育种改善人类的理论。要在这些测试中表现良好,你需要良好的工作记忆和对西方文化规范的熟悉,这可能会引入偏见。华盛顿大学研究伦理AI的博士候选人Os Keyes认为,如果一个AI模型在智商测试中表现良好,这更多反映了测试的局限性,而非模型的实力。Keyes说,“如果你有几乎无限的记忆力和耐心,这些测试很容易被破解。智商测试是衡量认知、感知和智能的非常有限的方式,这一点我们在数字计算机发明之前就已经知道。”
AI在智商测试中可能具有不公平的优势,因为模型拥有庞大的记忆和知识储备。它们通常在公共网络数据上训练,这些数据包含大量智商测试问题。伦敦国王学院专注于AI的研究员Mike Cook指出,“测试往往重复非常相似的模式——提高智商的可靠方法就是练习智商测试,这正是每个模型实际上所做的。当我学习某事物时,我无法像AI那样以完美清晰度接收100万次信息,也无法在没有噪声或信号损失的情况下处理它。”
Cook还指出,智商测试因其固有的偏见是为人类设计的,用于评估一般问题解决能力。它们不适合AI,因为AI处理问题的方式不同。他说,“乌鸦可能能用工具从盒子里取出食物,但这并不意味着它能考进哈佛。当我解决一个数学问题时,我的大脑还要应对正确阅读页面上的文字、不去想回家路上要买的东西,或者房间里是否太冷。换句话说,人类大脑在解决问题时——无论是智商测试还是其他问题——都要应对更多事情,而且它们得到的帮助远少于AI。”
AI Now Institute的首席AI科学家Heidy Khlaaf对TechCrunch表示,我们需要更好的方法来测试AI。她说,“在计算历史中,我们从不直接将计算能力与人类能力进行比较,因为计算的本质意味着系统早已能够完成超出人类能力的任务。将系统性能直接与人类能力进行比较是一个近期现象,备受争议,围绕着不断扩展和变化的AI系统评估基准的争议也随之而来。”
WordPress.com 现已支持 AI 助手撰写和发布文章,还有更多功能
广受欢迎的网站托管和发布平台 WordPress.com 现已开始引入人工智能助手——这一举措或将重塑网络的呈现方式。该公司于周五宣布,将允许人工智能助手在用户网站上起草、编辑和发布内容,同时还能管理评论、更新和修正元数据,并通过标签和分类对内容进行整理。所有这些操作均通过一个界面进行控制,网站所有者只需使用自然语言命令说明其需求即可。凭借这些新功能,网站几乎可以完全由人工指导的AI代理来创建和运
巴里·迪勒:随着通用人工智能的临近,对萨姆·阿尔特曼的信任已无关紧要
尽管近期有报道暗示相反的情况,但亿万富翁、媒体大亨巴里·迪勒并不认为OpenAI首席执行官山姆·阿尔特曼不可信。本周,迪勒在《华尔街日报》举办的“万物未来”峰会上发表演讲时,为阿尔特曼进行了辩护。此前,阿尔特曼曾遭到一些前同事和董事会成员的指责,称其有时会采取操纵和欺骗手段。作为阿尔特曼的朋友,迪勒是在回答一个关于人们是否应该信任阿尔特曼以确保人工智能造福人类的问题时作出上述表态的。具体而言,提问
interesting perspective! always thought of AI as a super-fast learner, not something we could measure with something like IQ. sam’s analogy does make it relatable, but i agree—AI probably needs its own new rating system entirely. 🤔
Это точно! IQ — устаревший инструмент для оценки ИИ 🤖 Интеллект многогранен — творчество, эмоции, адаптация куда важнее сухих цифр. Интересно, какие метрики придут на смену?
¿IQ para medir IA? 😅 Qué idea más anticuada. Sam Altman tiene razón en que es una métrica limitada. Los humanos tenemos inteligencias múltiples, ¿por qué reducirlo todo a un número? Me pregunto si no deberíamos desarrollar nuevas formas de evaluar capacidades como creatividad o empatía en sistemas de IA. ¡Eso sí sería revolucionario!
A visão de Sam Altman sobre o crescimento do IQ da IA é intrigante, mas me parece um pouco vaga. É legal pensar que a IA está ficando mais inteligente a cada ano, mas como medimos isso? Ainda assim, é um conceito divertido para refletir tomando um café. ☕ Talvez eles devessem desenvolver uma métrica mais concreta? 🤔
サム・アルトマンのAIのIQ成長に関する見解は興味深いですが、私には少し曖昧に感じます。AIが毎年賢くなると思うのはクールですが、それをどう測るのでしょうか?それでも、コーヒーを飲みながら考える楽しいコンセプトですね。☕もっと具体的な指標を開発すべきかもしれませんね?🤔





首页






