“智商:AI评估的有缺陷的措施”

在最近的一次新闻发布会上,OpenAI的首席执行官Sam Altman分享了他对AI“智商”快速发展的看法。他提到,“非常粗略地说,我感觉——这不是科学精确的,只是种感觉或精神层面的回答——每年我们的AI智商都会提升一个标准差。” Altman并不是唯一使用智商作为AI进步衡量标准的人;社交媒体上的网红也常将AI模型进行智商测试并分享结果。
然而,许多专家认为,用智商来衡量AI的能力不仅不足以反映真实情况,还具有误导性。牛津大学专注于科技与监管的研究员Sandra Wachter对TechCrunch表示,“人们很容易倾向于使用我们评估人类能力的标准来描述AI的能力或进步,但这就像是将苹果与橙子进行比较。”
在新闻发布会上,Altman似乎将智商等同于智能。然而,智商测试更多是关于特定类型智能的相对衡量,而非绝对衡量。它们通常被视为逻辑和抽象推理能力的良好指标,但在实际智能——即解决实际问题、使事物运作的能力——方面表现不足。此外,它们仅能提供一个人能力的瞬间快照。
Wachter指出,“智商是用来衡量人类能力的工具——本身就备受争议——基于科学家对人类智能的理解。但你不能用同样的标准来描述AI的能力。汽车比人类跑得快,潜艇在潜水方面更出色。但这并不意味着汽车或潜艇超越了人类智能。你是将某一个性能方面等同于复杂得多的人类智能。”
智商测试的起源与优生学有关,这是一门已被否定的通过选择性育种改善人类的理论。要在这些测试中表现良好,你需要良好的工作记忆和对西方文化规范的熟悉,这可能会引入偏见。华盛顿大学研究伦理AI的博士候选人Os Keyes认为,如果一个AI模型在智商测试中表现良好,这更多反映了测试的局限性,而非模型的实力。Keyes说,“如果你有几乎无限的记忆力和耐心,这些测试很容易被破解。智商测试是衡量认知、感知和智能的非常有限的方式,这一点我们在数字计算机发明之前就已经知道。”
AI在智商测试中可能具有不公平的优势,因为模型拥有庞大的记忆和知识储备。它们通常在公共网络数据上训练,这些数据包含大量智商测试问题。伦敦国王学院专注于AI的研究员Mike Cook指出,“测试往往重复非常相似的模式——提高智商的可靠方法就是练习智商测试,这正是每个模型实际上所做的。当我学习某事物时,我无法像AI那样以完美清晰度接收100万次信息,也无法在没有噪声或信号损失的情况下处理它。”
Cook还指出,智商测试因其固有的偏见是为人类设计的,用于评估一般问题解决能力。它们不适合AI,因为AI处理问题的方式不同。他说,“乌鸦可能能用工具从盒子里取出食物,但这并不意味着它能考进哈佛。当我解决一个数学问题时,我的大脑还要应对正确阅读页面上的文字、不去想回家路上要买的东西,或者房间里是否太冷。换句话说,人类大脑在解决问题时——无论是智商测试还是其他问题——都要应对更多事情,而且它们得到的帮助远少于AI。”
AI Now Institute的首席AI科学家Heidy Khlaaf对TechCrunch表示,我们需要更好的方法来测试AI。她说,“在计算历史中,我们从不直接将计算能力与人类能力进行比较,因为计算的本质意味着系统早已能够完成超出人类能力的任务。将系统性能直接与人类能力进行比较是一个近期现象,备受争议,围绕着不断扩展和变化的AI系统评估基准的争议也随之而来。”
相关文章
Salesforce发布Slack AI数字队友对抗Microsoft Copilot
Salesforce推出全新职场AI策略,在Slack对话中引入专业“数字队友”,公司于周一公布。新工具Agentforce in Slack使企业能够创建和部署任务特定AI代理,搜索职场聊天,访问公司数据,并在员工日常使用的消息平台内执行操作。“正如专业员工协作解决问题,我们的客户需要AI代理协同工作,为客户和员工解决问题,”Salesforce Slack首席产品官Rob Seaman在Ven
甲骨文400亿美元英伟达芯片投资助推德克萨斯AI数据中心
据《金融时报》报道,甲骨文计划投资约400亿美元购买英伟达芯片,为OpenAI在德克萨斯州开发的大型新数据中心提供动力。这是迄今为止最大的芯片收购交易之一,凸显了对AI计算资源激增的需求。该设施位于德克萨斯州阿比林,是美国首个“星门”数据中心。由OpenAI和软银支持,这是构建大规模AI基础设施的更广泛计划的一部分。该德克萨斯中心计划于明年完工,将提供1.2吉瓦的计算能力,使其跻身全球最大数据中心
Meta AI应用将引入高级订阅和广告
Meta的AI应用可能很快推出付费订阅服务,效仿OpenAI、Google和Microsoft等竞争对手的做法。在2025年第一季度财报电话会议上,Meta首席执行官马克·扎克伯格概述了高级服务的计划,使用户能够访问增强的计算能力或Meta AI的额外功能。为了与ChatGPT竞争,Meta本周推出了一款独立AI应用,允许用户直接与聊天机器人互动并进行图像生成。该聊天机器人目前拥有近10亿用户,此
评论 (45)
0/200
PatrickMartinez
2025-04-22 14:29:16
A visão de Sam Altman sobre o crescimento do IQ da IA é intrigante, mas me parece um pouco vaga. É legal pensar que a IA está ficando mais inteligente a cada ano, mas como medimos isso? Ainda assim, é um conceito divertido para refletir tomando um café. ☕ Talvez eles devessem desenvolver uma métrica mais concreta? 🤔
0
RalphMitchell
2025-04-22 06:56:36
サム・アルトマンのAIのIQ成長に関する見解は興味深いですが、私には少し曖昧に感じます。AIが毎年賢くなると思うのはクールですが、それをどう測るのでしょうか?それでも、コーヒーを飲みながら考える楽しいコンセプトですね。☕もっと具体的な指標を開発すべきかもしれませんね?🤔
0
GregoryJones
2025-04-21 15:45:40
サム・アルトマンがAIの「IQ」について語ったのは興味深いけど、私には少し曖昧すぎる感じがする。「ビジョンやスピリチュアルな答え」?本当に?もっと具体的なデータが必要だよ!それでも、AIがどれだけ早く成長しているかを見るのはクールだね。🤔
0
JonathanKing
2025-04-17 01:41:37
La perspectiva de Sam Altman sobre el 'IQ' de la IA es interesante, pero me parece un poco demasiado vaga. ¿'Vibe o respuesta espiritual'? Vamos, necesitamos datos más concretos. Aún así, es genial ver lo rápido que está creciendo la IA. 🤔
0
ArthurThomas
2025-04-15 14:03:27
Sam Altman's take on AI's 'IQ' growth is pretty wild! Every year a standard deviation? That's like AI is leveling up faster than my favorite RPG character! But honestly, using IQ to measure AI feels off. It's like judging a fish by its ability to climb a tree. Still, it's a cool vibe to think about! 🤔🚀
0
TimothyHernández
2025-04-15 10:02:54
Sam Altman's take on AI's 'IQ' is interesting, but it feels a bit too vague for me. 'Vibe or spiritual answer'? Come on, we need more concrete data! Still, it's cool to see how fast AI is growing. 🤔
0
在最近的一次新闻发布会上,OpenAI的首席执行官Sam Altman分享了他对AI“智商”快速发展的看法。他提到,“非常粗略地说,我感觉——这不是科学精确的,只是种感觉或精神层面的回答——每年我们的AI智商都会提升一个标准差。” Altman并不是唯一使用智商作为AI进步衡量标准的人;社交媒体上的网红也常将AI模型进行智商测试并分享结果。
然而,许多专家认为,用智商来衡量AI的能力不仅不足以反映真实情况,还具有误导性。牛津大学专注于科技与监管的研究员Sandra Wachter对TechCrunch表示,“人们很容易倾向于使用我们评估人类能力的标准来描述AI的能力或进步,但这就像是将苹果与橙子进行比较。”
在新闻发布会上,Altman似乎将智商等同于智能。然而,智商测试更多是关于特定类型智能的相对衡量,而非绝对衡量。它们通常被视为逻辑和抽象推理能力的良好指标,但在实际智能——即解决实际问题、使事物运作的能力——方面表现不足。此外,它们仅能提供一个人能力的瞬间快照。
Wachter指出,“智商是用来衡量人类能力的工具——本身就备受争议——基于科学家对人类智能的理解。但你不能用同样的标准来描述AI的能力。汽车比人类跑得快,潜艇在潜水方面更出色。但这并不意味着汽车或潜艇超越了人类智能。你是将某一个性能方面等同于复杂得多的人类智能。”
智商测试的起源与优生学有关,这是一门已被否定的通过选择性育种改善人类的理论。要在这些测试中表现良好,你需要良好的工作记忆和对西方文化规范的熟悉,这可能会引入偏见。华盛顿大学研究伦理AI的博士候选人Os Keyes认为,如果一个AI模型在智商测试中表现良好,这更多反映了测试的局限性,而非模型的实力。Keyes说,“如果你有几乎无限的记忆力和耐心,这些测试很容易被破解。智商测试是衡量认知、感知和智能的非常有限的方式,这一点我们在数字计算机发明之前就已经知道。”
AI在智商测试中可能具有不公平的优势,因为模型拥有庞大的记忆和知识储备。它们通常在公共网络数据上训练,这些数据包含大量智商测试问题。伦敦国王学院专注于AI的研究员Mike Cook指出,“测试往往重复非常相似的模式——提高智商的可靠方法就是练习智商测试,这正是每个模型实际上所做的。当我学习某事物时,我无法像AI那样以完美清晰度接收100万次信息,也无法在没有噪声或信号损失的情况下处理它。”
Cook还指出,智商测试因其固有的偏见是为人类设计的,用于评估一般问题解决能力。它们不适合AI,因为AI处理问题的方式不同。他说,“乌鸦可能能用工具从盒子里取出食物,但这并不意味着它能考进哈佛。当我解决一个数学问题时,我的大脑还要应对正确阅读页面上的文字、不去想回家路上要买的东西,或者房间里是否太冷。换句话说,人类大脑在解决问题时——无论是智商测试还是其他问题——都要应对更多事情,而且它们得到的帮助远少于AI。”
AI Now Institute的首席AI科学家Heidy Khlaaf对TechCrunch表示,我们需要更好的方法来测试AI。她说,“在计算历史中,我们从不直接将计算能力与人类能力进行比较,因为计算的本质意味着系统早已能够完成超出人类能力的任务。将系统性能直接与人类能力进行比较是一个近期现象,备受争议,围绕着不断扩展和变化的AI系统评估基准的争议也随之而来。”



A visão de Sam Altman sobre o crescimento do IQ da IA é intrigante, mas me parece um pouco vaga. É legal pensar que a IA está ficando mais inteligente a cada ano, mas como medimos isso? Ainda assim, é um conceito divertido para refletir tomando um café. ☕ Talvez eles devessem desenvolver uma métrica mais concreta? 🤔




サム・アルトマンのAIのIQ成長に関する見解は興味深いですが、私には少し曖昧に感じます。AIが毎年賢くなると思うのはクールですが、それをどう測るのでしょうか?それでも、コーヒーを飲みながら考える楽しいコンセプトですね。☕もっと具体的な指標を開発すべきかもしれませんね?🤔




サム・アルトマンがAIの「IQ」について語ったのは興味深いけど、私には少し曖昧すぎる感じがする。「ビジョンやスピリチュアルな答え」?本当に?もっと具体的なデータが必要だよ!それでも、AIがどれだけ早く成長しているかを見るのはクールだね。🤔




La perspectiva de Sam Altman sobre el 'IQ' de la IA es interesante, pero me parece un poco demasiado vaga. ¿'Vibe o respuesta espiritual'? Vamos, necesitamos datos más concretos. Aún así, es genial ver lo rápido que está creciendo la IA. 🤔




Sam Altman's take on AI's 'IQ' growth is pretty wild! Every year a standard deviation? That's like AI is leveling up faster than my favorite RPG character! But honestly, using IQ to measure AI feels off. It's like judging a fish by its ability to climb a tree. Still, it's a cool vibe to think about! 🤔🚀




Sam Altman's take on AI's 'IQ' is interesting, but it feels a bit too vague for me. 'Vibe or spiritual answer'? Come on, we need more concrete data! Still, it's cool to see how fast AI is growing. 🤔












