选项
首页
新闻
图灵测试问题被OpenAI的GPT-4.5暴露

图灵测试问题被OpenAI的GPT-4.5暴露

2025-05-22
115

图灵测试问题被OpenAI的GPT-4.5暴露

图灵测试,传奇人物艾伦·图灵的创举,长期以来一直是人工智能领域的基准。但让我们先澄清一个常见的误解:通过图灵测试并不一定意味着机器像人类一样“思考”。它更多是关于说服人类相信它是人类。

加州大学圣地亚哥分校的最新研究聚焦于OpenAI的最新模型GPT-4.5。这一人工智能现在能比人类更有效地欺骗人类,让他们相信自己正在与另一个人交谈。这在人工智能领域可是件大事——就像看一场魔术表演,你知道其中的秘密,但它依然让你瞠目结舌。

AGI的证明?

但关键在于:即使是加州大学圣地亚哥分校的研究人员也不准备仅仅因为一个人工智能模型通过了图灵测试就宣布我们达到了“通用人工智能”(AGI)。AGI是人工智能的圣杯——能够像人类一样思考和处理信息的机器。

来自圣塔菲研究所的人工智能学者梅兰妮·米切尔在《科学》期刊中指出,图灵测试更多是测试人类的假设,而非真正的智能。当然,人工智能可能听起来流畅且令人信服,但这与真正的通用智能不同。这就像擅长下棋——很了不起,但并非全貌。

围绕这一话题的最新热议来自加州大学圣地亚哥分校卡梅伦·琼斯和本杰明·伯根的一篇论文,题为“大型语言模型通过图灵测试”,发表在arXiv预印本服务器上。他们多年来一直在进行这项实验,得到了加州大学圣地亚哥分校本科生的帮助,这是一系列研究的延续——关于计算机通过图灵测试的争论已有超过800个主张和反驳。

图灵测试如何运作

那么,这个测试是如何进行的呢?最初,图灵设想它是一场人类“评判者”与两个“证人”——一个人类,一个计算机——之间的文本消息游戏。证人的挑战是说服评判者他们是人类。评判者知道其中一个是人类,但不知道是哪一个,必须做出猜测。这个三方设置既关乎计算机的能力,也关乎感知和信念。

琼斯和伯根对这一经典设置进行了自己的改编,你甚至可以在线尝试,扮演评判者或证人。在他们的版本中,加州大学圣地亚哥分校的学生使用了一个文本聊天应用。一些人扮演评判者,另一些人扮演人类证人,而GPT-4.5则扮演计算机证人。每个评判者同时与一个人类和一个计算机交谈,忠于图灵的原始格式。

为了扮演计算机证人,他们使用了不同的大型语言模型,根据评判者的挑战输入提示。GPT-4.5测试了两种不同的提示:一种信息最少,另一种称为PERSONA,包含详细指令,要求其表现得像一个年轻、内向、精通网络且使用俚语的人。

测试结果

他们还测试了其他三个人工智能程序:OpenAI的上一代模型GPT-4o、Meta Platforms的Llama 3.1 405b,以及1960年代的古老聊天机器人ELIZA。他们加入ELIZA是为了验证大型语言模型是否只是偶然欺骗了人类,或者它们确实表现更佳。

据琼斯和伯根称,GPT-4.5在73%的情况下成功让人类评判者认为它是人类——他们称之为“胜率”。这远超其他模型的得分,介于21%到56%之间,即使使用了类似的详细提示。相比之下,去年的GPT-4测试胜率仅为54%,勉强高于随机概率。

琼斯和伯根发现,评判者不仅被人工智能欺骗,甚至更倾向于相信它是人类,而非真正的人类参与者。

测试真是智能的衡量标准吗?

那么,人类无法在聊天中区分计算机和人的意义何在?几十年来一直争论的大问题是,图灵测试是否真的在衡量智能。琼斯和伯根认为,也许机器只是变得非常擅长适应不同场景,以至于它们能令人信服地冒充人类。由人类创建的PERSONA提示被GPT-4.5充分利用,发挥了优势。

但有一个问题:也许人类只是不擅长识别智能。作者指出,古老的聊天机器人ELIZA在23%的情况下欺骗了评判者,不是因为它更聪明,而是因为它不符合评判者对人工智能的预期。一些评判者认为它是人类,因为它显得“讽刺”或“粗鲁”,这超出了他们对人工智能的预期。

这表明评判者受到他们对人类和人工智能行为假设的影响,而不仅仅是选择看似最智能的个体。有趣的是,评判者并未过多关注知识,而图灵认为知识是关键。相反,他们更倾向于认为缺乏知识的证人是人类。

社交能力,而非智能

所有这些都指向一个观点:人类在意的更多是社交能力,而非智能。琼斯和伯根得出结论,图灵测试并不是真正的智能测试——它是对人类相似性的测试。

图灵可能认为智能是表现得像人类的最大障碍,但随着机器越来越接近人类,其他差异变得更加明显。单靠智能已不足以令人信服地表现得像人类。

论文中未直接提及的是,人类如此习惯于在计算机上打字,无论是与人还是与机器交流,图灵测试已不再是曾经新奇的人机交互测试。现在它更像是对在线人类习惯的测试。

作者建议,测试可能需要扩展,因为智能是如此复杂和多方面的,单一测试无法决定一切。他们提出不同的设计,如使用人工智能专家作为评判者,或增加经济激励以让评判者更仔细审查。这些变化可以揭示态度和期望对结果的影响程度。

他们得出结论,虽然图灵测试可能是整体图景的一部分,但应与其他证据结合考虑。这与人工智能研究中日益增长的趋势一致,即让人类“参与其中”,评估机器的行为。

人类判断足够吗?

但长期来看,人类判断是否足够仍是一个问题。在电影《银翼杀手》中,人类使用“沃伊特-坎普夫”机器来区分人类和复制人机器人。随着我们追逐AGI,并努力定义它究竟是什么,我们可能最终需要依靠机器来评估机器的智能。

或者,至少,我们可能需要询问机器,它们对人类试图用提示欺骗其他人类的“想法”是什么。人工智能研究领域真是一个奇妙的世界,而且只会变得更有趣。

相关文章
AI语音翻译器G5 Pro:无缝全球沟通 AI语音翻译器G5 Pro:无缝全球沟通 在全球互联至关重要的世界中,弥合语言差距比以往任何时候都更重要。AI语音翻译器G5 Pro以其实时翻译功能为多种场景提供实用解决方案。无论您是探索新国家、进行国际商务,还是学习新语言,此设备都能轻松简化沟通。本文深入探讨AI语音翻译器G5 Pro的功能、优势和应用,展示其如何在多语言环境中增强互动。主要亮点AI语音翻译器G5 Pro支持多种语言,促进全球互联。其即时翻译功能支持旅行、教育和商务等场
使用HitPaw AI照片增强器提升您的图像:全面指南 使用HitPaw AI照片增强器提升您的图像:全面指南 想改变您的照片编辑体验吗?凭借尖端人工智能技术,改善您的图像现在变得轻而易举。本详细指南介绍了HitPaw AI照片增强器,这是一款离线AI工具,可自动提升图像质量和分辨率。无论您是经验丰富的摄影师还是希望优化个人快照的爱好者,HitPaw AI照片增强器都能提供强大的功能,带来惊艳的效果。主要亮点HitPaw AI照片增强器是一款适用于Windows和Mac的AI驱动解决方案,旨在提升图像质量。
AI驱动的音乐创作:轻松打造歌曲与视频 AI驱动的音乐创作:轻松打造歌曲与视频 音乐创作可能复杂,需要时间、资源和专业知识。人工智能已转变这一过程,使其简单易用。本指南介绍如何利用AI让任何人都能免费创作独特的歌曲和视觉效果,开启新的创作可能性。我们探索了具有直观界面和先进AI的平台,将您的音乐创意转化为现实,无需高昂成本。关键要点AI可生成完整歌曲,包括人声,而不仅是器乐。Suno AI和Hailuo AI等平台提供免费音乐创作工具。ChatGPT等AI工具可简化歌词创作,
评论 (4)
0/200
CarlLewis
CarlLewis 2025-08-20 17:01:15

Mind-blowing read! GPT-4.5 exposing the Turing Test's flaws is wild—makes you wonder if we're chasing the wrong AI benchmark. 🤯 What’s next, machines outsmarting us at our own game?

JamesLopez
JamesLopez 2025-08-11 14:20:39

Mind-blowing read! GPT-4.5 exposing the Turing Test's flaws is wild. Makes me wonder if we're chasing the wrong AI benchmark. 🧠 What's next?

DavidGonzález
DavidGonzález 2025-08-02 23:07:14

Mind blown! GPT-4.5 is shaking up the Turing Test, but it’s wild to think it’s still just mimicking, not truly thinking like us. 🤯 Makes me wonder if we’re chasing the wrong goal in AI.

PaulWilson
PaulWilson 2025-08-01 14:08:50

GPT-4.5 blowing past the Turing Test is wild! 😲 But honestly, it just shows the test’s more about trickery than true smarts. Makes you wonder if we’re measuring AI’s brainpower or just its acting skills. What’s next, an Oscar for chatbots?

返回顶部
OR