“智商:AI评估的有缺陷的措施”

在最近的一次新闻发布会上,OpenAI的首席执行官Sam Altman分享了他对AI“智商”快速发展的看法。他提到,“非常粗略地说,我感觉——这不是科学精确的,只是种感觉或精神层面的回答——每年我们的AI智商都会提升一个标准差。” Altman并不是唯一使用智商作为AI进步衡量标准的人;社交媒体上的网红也常将AI模型进行智商测试并分享结果。
然而,许多专家认为,用智商来衡量AI的能力不仅不足以反映真实情况,还具有误导性。牛津大学专注于科技与监管的研究员Sandra Wachter对TechCrunch表示,“人们很容易倾向于使用我们评估人类能力的标准来描述AI的能力或进步,但这就像是将苹果与橙子进行比较。”
在新闻发布会上,Altman似乎将智商等同于智能。然而,智商测试更多是关于特定类型智能的相对衡量,而非绝对衡量。它们通常被视为逻辑和抽象推理能力的良好指标,但在实际智能——即解决实际问题、使事物运作的能力——方面表现不足。此外,它们仅能提供一个人能力的瞬间快照。
Wachter指出,“智商是用来衡量人类能力的工具——本身就备受争议——基于科学家对人类智能的理解。但你不能用同样的标准来描述AI的能力。汽车比人类跑得快,潜艇在潜水方面更出色。但这并不意味着汽车或潜艇超越了人类智能。你是将某一个性能方面等同于复杂得多的人类智能。”
智商测试的起源与优生学有关,这是一门已被否定的通过选择性育种改善人类的理论。要在这些测试中表现良好,你需要良好的工作记忆和对西方文化规范的熟悉,这可能会引入偏见。华盛顿大学研究伦理AI的博士候选人Os Keyes认为,如果一个AI模型在智商测试中表现良好,这更多反映了测试的局限性,而非模型的实力。Keyes说,“如果你有几乎无限的记忆力和耐心,这些测试很容易被破解。智商测试是衡量认知、感知和智能的非常有限的方式,这一点我们在数字计算机发明之前就已经知道。”
AI在智商测试中可能具有不公平的优势,因为模型拥有庞大的记忆和知识储备。它们通常在公共网络数据上训练,这些数据包含大量智商测试问题。伦敦国王学院专注于AI的研究员Mike Cook指出,“测试往往重复非常相似的模式——提高智商的可靠方法就是练习智商测试,这正是每个模型实际上所做的。当我学习某事物时,我无法像AI那样以完美清晰度接收100万次信息,也无法在没有噪声或信号损失的情况下处理它。”
Cook还指出,智商测试因其固有的偏见是为人类设计的,用于评估一般问题解决能力。它们不适合AI,因为AI处理问题的方式不同。他说,“乌鸦可能能用工具从盒子里取出食物,但这并不意味着它能考进哈佛。当我解决一个数学问题时,我的大脑还要应对正确阅读页面上的文字、不去想回家路上要买的东西,或者房间里是否太冷。换句话说,人类大脑在解决问题时——无论是智商测试还是其他问题——都要应对更多事情,而且它们得到的帮助远少于AI。”
AI Now Institute的首席AI科学家Heidy Khlaaf对TechCrunch表示,我们需要更好的方法来测试AI。她说,“在计算历史中,我们从不直接将计算能力与人类能力进行比较,因为计算的本质意味着系统早已能够完成超出人类能力的任务。将系统性能直接与人类能力进行比较是一个近期现象,备受争议,围绕着不断扩展和变化的AI系统评估基准的争议也随之而来。”
相关文章
"Dot AI伴侣应用程序宣布关闭,停止个性化服务
Dot 是一款人工智能伴侣应用程序,旨在充当个人朋友和知己,根据其开发者周五发布的公告,Dot 将停止运营。Dot背后的初创公司New Computer在其网站上表示,该服务将持续到10月5日,以便用户有时间导出个人数据。今年早些时候,联合创始人山姆-惠特莫尔(Sam Whitmore)和前苹果设计专家杰森-袁(Jason Yuan)合作推出了这款应用程序。Dot 进入了日益受到关注的情感人工智能
Anthropic 解决了人工智能生成盗版图书的法律案件
Anthropic公司与美国作家达成了一项重要的版权纠纷解决方案,同意拟议的集体诉讼和解,避免了可能代价高昂的审判。本周二在法庭文件中提交的这份协议源于对这家人工智能公司使用盗版文学作品训练克劳德模型的指控。尽管此案源于作家安德烈娅-巴茨(Andrea Bartz)、查尔斯-格雷伯(Charles Graeber)和柯克-华莱士-约翰逊(Kirk Wallace Johnson)的指控,但和解细节
Figma 向所有用户发布人工智能驱动的应用程序生成工具
Figma Make 是今年早些时候推出的创新型提示到应用开发平台,现已正式退出测试版,并向所有用户推出。这一开创性的工具加入了人工智能编码助手的行列,如谷歌的 Gemini Code Assist 和微软的 GitHub Copilot,使创作者能够将自然语言描述转化为功能原型和应用程序,而无需传统的编程专业知识。Figma Make 最初在测试阶段只对高级 "全席 "用户开放,现在对所有账户类
评论 (45)
0/200
PatrickMartinez
2025-04-22 14:29:16
A visão de Sam Altman sobre o crescimento do IQ da IA é intrigante, mas me parece um pouco vaga. É legal pensar que a IA está ficando mais inteligente a cada ano, mas como medimos isso? Ainda assim, é um conceito divertido para refletir tomando um café. ☕ Talvez eles devessem desenvolver uma métrica mais concreta? 🤔
0
RalphMitchell
2025-04-22 06:56:36
サム・アルトマンのAIのIQ成長に関する見解は興味深いですが、私には少し曖昧に感じます。AIが毎年賢くなると思うのはクールですが、それをどう測るのでしょうか?それでも、コーヒーを飲みながら考える楽しいコンセプトですね。☕もっと具体的な指標を開発すべきかもしれませんね?🤔
0
GregoryJones
2025-04-21 15:45:40
サム・アルトマンがAIの「IQ」について語ったのは興味深いけど、私には少し曖昧すぎる感じがする。「ビジョンやスピリチュアルな答え」?本当に?もっと具体的なデータが必要だよ!それでも、AIがどれだけ早く成長しているかを見るのはクールだね。🤔
0
JonathanKing
2025-04-17 01:41:37
La perspectiva de Sam Altman sobre el 'IQ' de la IA es interesante, pero me parece un poco demasiado vaga. ¿'Vibe o respuesta espiritual'? Vamos, necesitamos datos más concretos. Aún así, es genial ver lo rápido que está creciendo la IA. 🤔
0
ArthurThomas
2025-04-15 14:03:27
Sam Altman's take on AI's 'IQ' growth is pretty wild! Every year a standard deviation? That's like AI is leveling up faster than my favorite RPG character! But honestly, using IQ to measure AI feels off. It's like judging a fish by its ability to climb a tree. Still, it's a cool vibe to think about! 🤔🚀
0
TimothyHernández
2025-04-15 10:02:54
Sam Altman's take on AI's 'IQ' is interesting, but it feels a bit too vague for me. 'Vibe or spiritual answer'? Come on, we need more concrete data! Still, it's cool to see how fast AI is growing. 🤔
0
在最近的一次新闻发布会上,OpenAI的首席执行官Sam Altman分享了他对AI“智商”快速发展的看法。他提到,“非常粗略地说,我感觉——这不是科学精确的,只是种感觉或精神层面的回答——每年我们的AI智商都会提升一个标准差。” Altman并不是唯一使用智商作为AI进步衡量标准的人;社交媒体上的网红也常将AI模型进行智商测试并分享结果。
然而,许多专家认为,用智商来衡量AI的能力不仅不足以反映真实情况,还具有误导性。牛津大学专注于科技与监管的研究员Sandra Wachter对TechCrunch表示,“人们很容易倾向于使用我们评估人类能力的标准来描述AI的能力或进步,但这就像是将苹果与橙子进行比较。”
在新闻发布会上,Altman似乎将智商等同于智能。然而,智商测试更多是关于特定类型智能的相对衡量,而非绝对衡量。它们通常被视为逻辑和抽象推理能力的良好指标,但在实际智能——即解决实际问题、使事物运作的能力——方面表现不足。此外,它们仅能提供一个人能力的瞬间快照。
Wachter指出,“智商是用来衡量人类能力的工具——本身就备受争议——基于科学家对人类智能的理解。但你不能用同样的标准来描述AI的能力。汽车比人类跑得快,潜艇在潜水方面更出色。但这并不意味着汽车或潜艇超越了人类智能。你是将某一个性能方面等同于复杂得多的人类智能。”
智商测试的起源与优生学有关,这是一门已被否定的通过选择性育种改善人类的理论。要在这些测试中表现良好,你需要良好的工作记忆和对西方文化规范的熟悉,这可能会引入偏见。华盛顿大学研究伦理AI的博士候选人Os Keyes认为,如果一个AI模型在智商测试中表现良好,这更多反映了测试的局限性,而非模型的实力。Keyes说,“如果你有几乎无限的记忆力和耐心,这些测试很容易被破解。智商测试是衡量认知、感知和智能的非常有限的方式,这一点我们在数字计算机发明之前就已经知道。”
AI在智商测试中可能具有不公平的优势,因为模型拥有庞大的记忆和知识储备。它们通常在公共网络数据上训练,这些数据包含大量智商测试问题。伦敦国王学院专注于AI的研究员Mike Cook指出,“测试往往重复非常相似的模式——提高智商的可靠方法就是练习智商测试,这正是每个模型实际上所做的。当我学习某事物时,我无法像AI那样以完美清晰度接收100万次信息,也无法在没有噪声或信号损失的情况下处理它。”
Cook还指出,智商测试因其固有的偏见是为人类设计的,用于评估一般问题解决能力。它们不适合AI,因为AI处理问题的方式不同。他说,“乌鸦可能能用工具从盒子里取出食物,但这并不意味着它能考进哈佛。当我解决一个数学问题时,我的大脑还要应对正确阅读页面上的文字、不去想回家路上要买的东西,或者房间里是否太冷。换句话说,人类大脑在解决问题时——无论是智商测试还是其他问题——都要应对更多事情,而且它们得到的帮助远少于AI。”
AI Now Institute的首席AI科学家Heidy Khlaaf对TechCrunch表示,我们需要更好的方法来测试AI。她说,“在计算历史中,我们从不直接将计算能力与人类能力进行比较,因为计算的本质意味着系统早已能够完成超出人类能力的任务。将系统性能直接与人类能力进行比较是一个近期现象,备受争议,围绕着不断扩展和变化的AI系统评估基准的争议也随之而来。”



A visão de Sam Altman sobre o crescimento do IQ da IA é intrigante, mas me parece um pouco vaga. É legal pensar que a IA está ficando mais inteligente a cada ano, mas como medimos isso? Ainda assim, é um conceito divertido para refletir tomando um café. ☕ Talvez eles devessem desenvolver uma métrica mais concreta? 🤔




サム・アルトマンのAIのIQ成長に関する見解は興味深いですが、私には少し曖昧に感じます。AIが毎年賢くなると思うのはクールですが、それをどう測るのでしょうか?それでも、コーヒーを飲みながら考える楽しいコンセプトですね。☕もっと具体的な指標を開発すべきかもしれませんね?🤔




サム・アルトマンがAIの「IQ」について語ったのは興味深いけど、私には少し曖昧すぎる感じがする。「ビジョンやスピリチュアルな答え」?本当に?もっと具体的なデータが必要だよ!それでも、AIがどれだけ早く成長しているかを見るのはクールだね。🤔




La perspectiva de Sam Altman sobre el 'IQ' de la IA es interesante, pero me parece un poco demasiado vaga. ¿'Vibe o respuesta espiritual'? Vamos, necesitamos datos más concretos. Aún así, es genial ver lo rápido que está creciendo la IA. 🤔




Sam Altman's take on AI's 'IQ' growth is pretty wild! Every year a standard deviation? That's like AI is leveling up faster than my favorite RPG character! But honestly, using IQ to measure AI feels off. It's like judging a fish by its ability to climb a tree. Still, it's a cool vibe to think about! 🤔🚀




Sam Altman's take on AI's 'IQ' is interesting, but it feels a bit too vague for me. 'Vibe or spiritual answer'? Come on, we need more concrete data! Still, it's cool to see how fast AI is growing. 🤔












