选项
首页 新闻 图灵测试问题被OpenAI的GPT-4.5暴露

图灵测试问题被OpenAI的GPT-4.5暴露

发布日期 发布日期 2025年05月22日
作者 作者 EricJohnson
浏览量 浏览量 0

图灵测试是传奇人物艾伦·图灵的创意,长期以来一直是人工智能领域的基准。但我们首先要澄清一个常见的误解:通过图灵测试并不意味着机器像人类一样“思考”。它更多的是让人类相信它是人类。

加州大学圣迭戈分校的最新研究聚焦于OpenAI的最新模型GPT-4.5。这款AI现在能更有效地欺骗人类,让他们相信自己正在与另一个人聊天,甚至比人类相互证明自己是人类还要有效。这在AI领域是一个相当大的突破——就像看一个你知道秘密的魔术,但它仍然让你惊叹。

加州大学圣迭戈分校

AGI的证明吗?

但关键是:即使是加州大学圣迭戈分校的研究人员也不准备宣称我们已经达到了“人工通用智能”(AGI),仅仅因为一个AI模型可以通过图灵测试。AGI将是AI的圣杯——能够像人类一样思考和处理信息的机器。

圣塔菲研究所的AI学者梅拉妮·米切尔在《科学》杂志中争辩说,图灵测试更多的是在测试人类的假设,而不是实际的智能。当然,AI可能听起来流利且有说服力,但这并不等同于普遍的智能。这就像擅长下棋——令人印象深刻,但并非全貌。

最新的讨论来自加州大学圣迭戈分校的卡梅隆·琼斯和本杰明·伯根发表在arXiv预印本服务器上的论文,标题为“大型语言模型通过图灵测试”。他们多年来一直在进行这项实验,得到加州大学圣迭戈分校本科生的帮助,这是关于计算机通过图灵测试的长期研究的一部分——已经有超过800个声明和反驳。

图灵测试的工作原理

那么,这个测试是如何工作的呢?最初,图灵设想它是一个人类“裁判”和两个“证人”之间的文本消息游戏——一个人类,一个计算机。证人的挑战是说服裁判他们是人类。裁判知道其中一个是人类,但不知道是哪一个,必须做出猜测。这是一个三方设置,涉及到感知和信念,与计算机的能力同样重要。

琼斯和伯根对这个经典设置进行了自己的改编,你甚至可以在线尝试,扮演裁判或证人。在他们的版本中,加州大学圣迭戈分校的学生使用了一个文本聊天应用程序。有些人扮演裁判,其他人扮演人类证人,而GPT-4.5则扮演计算机证人。每个裁判同时与一个人类和一个计算机聊天,忠于图灵的原始格式。

为了扮演计算机证人,他们使用了不同的大型语言模型,根据裁判的挑战向它们输入提示。GPT-4.5测试了两种不同的提示:一种是提供最少信息,另一种称为PERSONA,包含详细的指示,要求它表现得像一个年轻、内向、精通网络并使用俚语的人。

加州大学圣迭戈分校

结果

他们还测试了其他三个AI程序:OpenAI的先前模型GPT-4o;Meta Platforms的Llama 3.1 405b;以及1960年代的古老聊天机器人ELIZA。他们包括ELIZA是为了看看大型语言模型是否只是偶然欺骗人类,还是它们确实更好。

根据琼斯和伯根的说法,GPT-4.5欺骗人类裁判认为它是人类的概率为73%——他们称之为“胜率”。这比其他模型好得多,其他模型的得分在21%到56%之间,即使使用了类似的详细提示。这与去年测试的GPT-4相比是一个巨大的飞跃,后者的胜率仅为54%,刚好超过随机机会。

琼斯和伯根发现,裁判不仅被AI欺骗了,而且实际上更可能相信它是人类,而不是真正的参与者。

测试是否真正衡量了智能?

那么,人类在聊天中无法区分计算机和人,这意味着什么呢?几十年来一直争论的大问题是图灵测试是否真的在衡量智能。琼斯和伯根建议,也许机器已经变得非常擅长适应不同的场景,以至于它们可以令人信服地冒充人类。由人类创建的PERSONA提示是GPT-4.5适应并利用的。

但有一个陷阱:也许人类只是不善于识别智能。作者指出,古老的聊天机器人ELIZA欺骗了23%的裁判,不是因为它更聪明,而是因为它不符合他们对AI应有的期望。一些裁判认为它是人类,因为它“讽刺”或“粗鲁”,这是他们不期望从AI那里得到的。

这表明,裁判受到他们对人类和AI应如何表现的假设的影响,而不是仅仅选择看起来最智能的代理。有趣的是,裁判并没有特别关注知识,这是图灵认为至关重要的。相反,如果证人似乎缺乏知识,他们更可能认为证人是人类。

社交性,而非智能

所有这些都表明,人类更多的是关注社交性而不是智能。琼斯和伯根得出结论,图灵测试实际上不是智能的测试——它是人类相似性的测试。

图灵可能认为智能是看起来像人类的最大障碍,但随着机器越来越接近我们,其他差异变得更加明显。仅凭智能已经不足以令人信服地表现得像人类了。

论文中没有直接说的是,人类已经习惯了在计算机上打字,无论是给人还是机器,图灵测试不再是曾经的新颖人机交互测试。它现在更像是在测试线上人类习惯。

作者建议,由于智能是如此复杂和多方面的,可能需要扩展测试。他们提出了不同的设计,比如使用AI专家作为裁判,或者增加财务激励,让裁判更仔细地审查。这些变化可以显示态度和期望对结果的影响有多大。

他们得出结论,虽然图灵测试可能是其中的一部分,但应该与其他类型的证据一起考虑。这与AI研究中日益增长的趋势一致,即让人类“参与其中”,评估机器的表现。

人类的判断是否足够?

但长期来看,人类的判断是否足够仍然是一个问题。在电影《银翼杀手》中,人类使用一种名为“沃伊特-坎普夫”的机器来区分人类和复制人机器人。随着我们追求AGI,并努力定义它到底是什么,我们可能最终会依赖机器来评估机器的智能。

或者,至少,我们可能需要询问机器它们对人类试图用提示欺骗其他人类的“看法”。AI研究的世界真是疯狂,而且只会变得越来越有趣。

相关文章
亚马逊CEO:Alexa+订阅用户达10万 亚马逊CEO:Alexa+订阅用户达10万 亚马逊的CEO安迪·贾西在周四的财报电话会议上分享了一些令人兴奋的消息:由生成性AI驱动的升级版数字助手Alexa+,现在已经拥有超过10万用户。这是一个重要的里程碑,尽管与外界6亿Alexa设备相比,这只是沧海一粟。今年二月,当Alexa+首次亮相时,亚马逊承诺将在未来几个月内逐步推出,看来他们正在按计划进行。新改进的Alexa+旨在让对话感觉更加自然。最
苹果2027年推出曲面玻璃iPhone 苹果2027年推出曲面玻璃iPhone 今天早上,彭博社的马克·古尔曼在《Power On》通讯中激起了人们的兴奋,他预测苹果公司将在2027年进行“产品大爆发”。特别值得注意的是,他暗示了一款“几乎全玻璃、曲面设计的iPhone”,没有屏幕切口,计划在iPhone 20周年之际推出。这个引人入胜的细节引起了我的兴趣,尤其是当我桌上的iPhone 15 Pro已经是“几乎全玻璃”,只有相机周围和钛
AI驱动的需求信有助于解锁冷冻资金 AI驱动的需求信有助于解锁冷冻资金 处理来自亚马逊,贝宝(Paypal)或条纹等公司的冷冻资金可能是一个真正的头痛。解决此问题的一种有效方法是发送引人注目的需求信。在AI的帮助下,特别是Chatgpt,您可以制作一封有力的信件,可能只会收回您的钱
评论 (0)
0/200
返回顶部
OR