圖靈測試問題被OpenAI的GPT-4.5暴露

圖靈測試,傳奇人物艾倫·圖靈的創意結晶,長期以來一直是人工智慧領域的基準。但讓我們先澄清一個常見的誤解:通過圖靈測試並不一定意味著機器能像人類一樣「思考」。它更多是關於說服人類相信它是人類。
加州大學聖地牙哥分校的最新研究將焦點投向了OpenAI的最新模型GPT-4.5。這款AI現在能比人類更有效地騙過人類,讓人相信他們在與另一個人聊天。這在AI界可是件大事——就像看一場魔術表演,你知道背後的秘密,但仍然感到震驚。
人工通用智慧的證明?
但關鍵在於:即使是加州大學聖地牙哥分校的研究人員也不願僅因AI模型通過圖靈測試就宣稱我們已實現「人工通用智慧」(AGI)。AGI是AI的聖杯——能像人類一樣思考和處理資訊的機器。
來自聖塔菲研究所的AI學者梅蘭妮·米契爾在《科學》期刊中指出,圖靈測試更多是測試人類的假設,而非真正的智慧。當然,AI可能聽起來流暢且令人信服,但這與真正的通用智慧不同。這就像擅長下棋——令人印象深刻,但並非全貌。
這股熱潮源自加州大學聖地牙哥分校的卡梅倫·瓊斯和本傑明·伯根發表在arXiv預印伺服器上的論文,標題為「大型語言模型通過圖靈測試」。他們多年來在加州大學聖地牙哥分校本科生的協助下進行這項實驗,這是超過800項關於電腦通過圖靈測試的聲明與反駁的一部分。
圖靈測試如何運作
那麼,這項測試是如何進行的?最初,圖靈設想它是一個由人類「評審」與兩個「證人」(一個是人類,一個是電腦)通過文字訊息進行的遊戲。證人的挑戰是說服評審他們是人類。評審知道其中一個是人類,但不知道是哪個,必須做出猜測。這是一個三方設置,既關乎電腦的能力,也關乎感知與信念。
瓊斯和伯根對這一經典設置進行了改進,你甚至可以在線上試玩,扮演評審或證人。在他們的版本中,加州大學聖地牙哥分校的學生使用文字聊天應用程式。有些人扮演評審,其他人扮演人類證人,而GPT-4.5則扮演電腦證人。每位評審同時與人類和電腦聊天,忠於圖靈的原始格式。
為了扮演電腦證人,他們使用了不同的大型語言模型,根據評審的挑戰提供提示。GPT-4.5接受了兩種不同的提示測試:一種提供最少資訊,另一種名為PERSONA,包含詳細指令,要求其表現得像一個年輕、內向、熟悉網路並使用俚語的人。
測試結果
他們還測試了三個其他AI程式:OpenAI的先前模型GPT-4o、Meta Platforms的Llama 3.1 405b,以及1960年代的古老聊天機器人ELIZA。他們納入ELIZA是為了檢驗大型語言模型是否只是偶然欺騙人類,或者它們確實更出色。
根據瓊斯和伯根的說法,GPT-4.5在73%的情況下成功讓人類評審相信它是人類——他們稱之為「勝率」。這比其他模型(得分在21%至56%之間,即使使用類似的詳細提示)表現好得多。與去年的GPT-4測試相比,這是一個巨大的進步,當時的勝率僅為54%,勉強高於隨機猜測。
瓊斯和伯根發現,評審不僅被AI欺騙,甚至更可能相信AI是人類,而不是真正的人類參與者。
這項測試真的是智慧的衡量標準嗎?
那麼,人類無法在聊天中分辨電腦與人的意義何在?數十年來一直爭論的大問題是,圖靈測試是否真正衡量智慧。瓊斯和伯根認為,或許機器只是變得非常擅長適應不同情境,以致能令人信服地冒充人類。由人類創建的PERSONA提示被GPT-4.5充分利用,成為其優勢。
但問題在於:也許人類只是不擅長辨識智慧。作者指出,古老的聊天機器人ELIZA在23%的情況下騙過評審,不是因為它更聰明,而是因為它不符合評審對AI的預期。有些評審認為它是人類,因為它顯得「諷刺」或「粗魯」,這是他們未預料的AI行為。
這表明評審受到對人類和AI行為的假設影響,而非僅選擇看似最聰明的對象。有趣的是,評審並未過多關注知識,而圖靈認為知識是關鍵。相反,如果證人似乎缺乏知識,他們更可能被認為是人類。
社交能力,而非智慧
這一切都指向一個觀點:人類更注重社交能力而非智慧。瓊斯和伯根得出結論,圖靈測試其實不是智慧的測試,而是人類相似度的測試。
圖靈可能認為智慧是表現得像人類的最大障礙,但隨著機器越來越接近人類,其他差異變得更顯著。僅靠智慧已不足以令人信服地像人類。
論文中未直接提到的是,人類如此習慣在電腦上打字,無論是與人還是機器互動,圖靈測試已不再是過去那種新奇的人機交互測試。它現在更像是對線上人類習慣的測試。
作者建議,鑑於智慧的複雜性和多面性,圖靈測試可能需要擴展,單一測試無法決定一切。他們提出不同的設計,例如使用AI專家作為評審,或加入經濟激勵讓評審更仔細審查。這些改變可能顯示出態度和期望對結果的影響有多大。
他們得出結論,圖靈測試可能只是整體的一部分,應與其他證據一同考慮。這與AI研究中越來越多的趨勢一致,即讓人類「參與其中」,評估機器的表現。
人類判斷足夠嗎?
但長期來看,人類判斷是否足夠仍是一個問題。在電影《銀翼殺手》中,人類使用「沃伊特-坎普夫」機器來區分人類與複製人機器人。隨著我們追求AGI,並努力定義它究竟是什麼,我們最終可能需要依靠機器來評估機器的智慧。
或者,至少,我們可能需要問機器它們對人類試圖用提示欺騙其他人類的「看法」。AI研究的世界充滿驚奇,且越來越有趣。
相關文章
Snowflake 投資逾 6 億美元開發 AWS 客製化晶片,以推動企業級人工智慧發展
雲端數據巨頭 Snowflake 宣布,計劃在未來六年內投資超過 6 億美元,用於採購由亞馬遜網路服務(AWS)開發的 Graviton 系列 CPU 及 AI 加速器。 這項重大基礎設施投資是執行長 Sridhar Ramaswamy 領導下的核心計畫,標誌著公司全面轉向「AI 優先」策略,旨在大幅提升其數據雲端平台上處理大規模 AI 工作負載的成本效益。拉馬斯瓦米強調,建構企業級AI平台需要將
中國電信投資綿比智能,為大型語言模型與數據基礎設施籌集資金至71.3萬元
在大模型領域,這支「國家隊」與清華大學的領軍人物正深化戰略合作。 根據企查查最新企業登記資料顯示,2026年3月1日,北京綿比智能科技有限公司進行了重大股權重組,正式引入電信巨頭及產業基金的投資。此舉不僅是資本注入,更預示著國內大型模型在公共數據平台及智慧硬體領域的商業化進程將大幅加速。重點摘要:電信與本土基金雙重背書此次股權變更後,面壁智能的股東陣容新增了數家重要機構:中國電信全資投資:新股東「
陶天集團加速推進 AI 原生轉型,並向實習生發放免費代幣配額
TaoTian Group 近期推出「AI 生產力計畫」,旨在透過資源配置與工具補助,加速將 AI 技術整合至電商營運及研發工作流程中。此計畫現已開放給所有實習生,讓他們在實習期間享有與正式員工相同的 AI 權限、運算配額及審批流程。自 3 月 17 日起,淘天集團員工已獲授權免費使用多款付費 AI 工具,包括「悟空」及「Qoder」系列。這些工具支援廣泛的應用場景,從基礎技術研發到一般辦公室生產
相關專題推薦
評論 (4)
0/500
Mind-blowing read! GPT-4.5 exposing the Turing Test's flaws is wild—makes you wonder if we're chasing the wrong AI benchmark. 🤯 What’s next, machines outsmarting us at our own game?
Mind-blowing read! GPT-4.5 exposing the Turing Test's flaws is wild. Makes me wonder if we're chasing the wrong AI benchmark. 🧠 What's next?
Mind blown! GPT-4.5 is shaking up the Turing Test, but it’s wild to think it’s still just mimicking, not truly thinking like us. 🤯 Makes me wonder if we’re chasing the wrong goal in AI.

圖靈測試,傳奇人物艾倫·圖靈的創意結晶,長期以來一直是人工智慧領域的基準。但讓我們先澄清一個常見的誤解:通過圖靈測試並不一定意味著機器能像人類一樣「思考」。它更多是關於說服人類相信它是人類。
加州大學聖地牙哥分校的最新研究將焦點投向了OpenAI的最新模型GPT-4.5。這款AI現在能比人類更有效地騙過人類,讓人相信他們在與另一個人聊天。這在AI界可是件大事——就像看一場魔術表演,你知道背後的秘密,但仍然感到震驚。
人工通用智慧的證明?
但關鍵在於:即使是加州大學聖地牙哥分校的研究人員也不願僅因AI模型通過圖靈測試就宣稱我們已實現「人工通用智慧」(AGI)。AGI是AI的聖杯——能像人類一樣思考和處理資訊的機器。
來自聖塔菲研究所的AI學者梅蘭妮·米契爾在《科學》期刊中指出,圖靈測試更多是測試人類的假設,而非真正的智慧。當然,AI可能聽起來流暢且令人信服,但這與真正的通用智慧不同。這就像擅長下棋——令人印象深刻,但並非全貌。
這股熱潮源自加州大學聖地牙哥分校的卡梅倫·瓊斯和本傑明·伯根發表在arXiv預印伺服器上的論文,標題為「大型語言模型通過圖靈測試」。他們多年來在加州大學聖地牙哥分校本科生的協助下進行這項實驗,這是超過800項關於電腦通過圖靈測試的聲明與反駁的一部分。
圖靈測試如何運作
那麼,這項測試是如何進行的?最初,圖靈設想它是一個由人類「評審」與兩個「證人」(一個是人類,一個是電腦)通過文字訊息進行的遊戲。證人的挑戰是說服評審他們是人類。評審知道其中一個是人類,但不知道是哪個,必須做出猜測。這是一個三方設置,既關乎電腦的能力,也關乎感知與信念。
瓊斯和伯根對這一經典設置進行了改進,你甚至可以在線上試玩,扮演評審或證人。在他們的版本中,加州大學聖地牙哥分校的學生使用文字聊天應用程式。有些人扮演評審,其他人扮演人類證人,而GPT-4.5則扮演電腦證人。每位評審同時與人類和電腦聊天,忠於圖靈的原始格式。
為了扮演電腦證人,他們使用了不同的大型語言模型,根據評審的挑戰提供提示。GPT-4.5接受了兩種不同的提示測試:一種提供最少資訊,另一種名為PERSONA,包含詳細指令,要求其表現得像一個年輕、內向、熟悉網路並使用俚語的人。
測試結果
他們還測試了三個其他AI程式:OpenAI的先前模型GPT-4o、Meta Platforms的Llama 3.1 405b,以及1960年代的古老聊天機器人ELIZA。他們納入ELIZA是為了檢驗大型語言模型是否只是偶然欺騙人類,或者它們確實更出色。
根據瓊斯和伯根的說法,GPT-4.5在73%的情況下成功讓人類評審相信它是人類——他們稱之為「勝率」。這比其他模型(得分在21%至56%之間,即使使用類似的詳細提示)表現好得多。與去年的GPT-4測試相比,這是一個巨大的進步,當時的勝率僅為54%,勉強高於隨機猜測。
瓊斯和伯根發現,評審不僅被AI欺騙,甚至更可能相信AI是人類,而不是真正的人類參與者。
這項測試真的是智慧的衡量標準嗎?
那麼,人類無法在聊天中分辨電腦與人的意義何在?數十年來一直爭論的大問題是,圖靈測試是否真正衡量智慧。瓊斯和伯根認為,或許機器只是變得非常擅長適應不同情境,以致能令人信服地冒充人類。由人類創建的PERSONA提示被GPT-4.5充分利用,成為其優勢。
但問題在於:也許人類只是不擅長辨識智慧。作者指出,古老的聊天機器人ELIZA在23%的情況下騙過評審,不是因為它更聰明,而是因為它不符合評審對AI的預期。有些評審認為它是人類,因為它顯得「諷刺」或「粗魯」,這是他們未預料的AI行為。
這表明評審受到對人類和AI行為的假設影響,而非僅選擇看似最聰明的對象。有趣的是,評審並未過多關注知識,而圖靈認為知識是關鍵。相反,如果證人似乎缺乏知識,他們更可能被認為是人類。
社交能力,而非智慧
這一切都指向一個觀點:人類更注重社交能力而非智慧。瓊斯和伯根得出結論,圖靈測試其實不是智慧的測試,而是人類相似度的測試。
圖靈可能認為智慧是表現得像人類的最大障礙,但隨著機器越來越接近人類,其他差異變得更顯著。僅靠智慧已不足以令人信服地像人類。
論文中未直接提到的是,人類如此習慣在電腦上打字,無論是與人還是機器互動,圖靈測試已不再是過去那種新奇的人機交互測試。它現在更像是對線上人類習慣的測試。
作者建議,鑑於智慧的複雜性和多面性,圖靈測試可能需要擴展,單一測試無法決定一切。他們提出不同的設計,例如使用AI專家作為評審,或加入經濟激勵讓評審更仔細審查。這些改變可能顯示出態度和期望對結果的影響有多大。
他們得出結論,圖靈測試可能只是整體的一部分,應與其他證據一同考慮。這與AI研究中越來越多的趨勢一致,即讓人類「參與其中」,評估機器的表現。
人類判斷足夠嗎?
但長期來看,人類判斷是否足夠仍是一個問題。在電影《銀翼殺手》中,人類使用「沃伊特-坎普夫」機器來區分人類與複製人機器人。隨著我們追求AGI,並努力定義它究竟是什麼,我們最終可能需要依靠機器來評估機器的智慧。
或者,至少,我們可能需要問機器它們對人類試圖用提示欺騙其他人類的「看法」。AI研究的世界充滿驚奇,且越來越有趣。
Snowflake 投資逾 6 億美元開發 AWS 客製化晶片,以推動企業級人工智慧發展
雲端數據巨頭 Snowflake 宣布,計劃在未來六年內投資超過 6 億美元,用於採購由亞馬遜網路服務(AWS)開發的 Graviton 系列 CPU 及 AI 加速器。 這項重大基礎設施投資是執行長 Sridhar Ramaswamy 領導下的核心計畫,標誌著公司全面轉向「AI 優先」策略,旨在大幅提升其數據雲端平台上處理大規模 AI 工作負載的成本效益。拉馬斯瓦米強調,建構企業級AI平台需要將
中國電信投資綿比智能,為大型語言模型與數據基礎設施籌集資金至71.3萬元
在大模型領域,這支「國家隊」與清華大學的領軍人物正深化戰略合作。 根據企查查最新企業登記資料顯示,2026年3月1日,北京綿比智能科技有限公司進行了重大股權重組,正式引入電信巨頭及產業基金的投資。此舉不僅是資本注入,更預示著國內大型模型在公共數據平台及智慧硬體領域的商業化進程將大幅加速。重點摘要:電信與本土基金雙重背書此次股權變更後,面壁智能的股東陣容新增了數家重要機構:中國電信全資投資:新股東「
陶天集團加速推進 AI 原生轉型,並向實習生發放免費代幣配額
TaoTian Group 近期推出「AI 生產力計畫」,旨在透過資源配置與工具補助,加速將 AI 技術整合至電商營運及研發工作流程中。此計畫現已開放給所有實習生,讓他們在實習期間享有與正式員工相同的 AI 權限、運算配額及審批流程。自 3 月 17 日起,淘天集團員工已獲授權免費使用多款付費 AI 工具,包括「悟空」及「Qoder」系列。這些工具支援廣泛的應用場景,從基礎技術研發到一般辦公室生產
Mind-blowing read! GPT-4.5 exposing the Turing Test's flaws is wild—makes you wonder if we're chasing the wrong AI benchmark. 🤯 What’s next, machines outsmarting us at our own game?
Mind-blowing read! GPT-4.5 exposing the Turing Test's flaws is wild. Makes me wonder if we're chasing the wrong AI benchmark. 🧠 What's next?
Mind blown! GPT-4.5 is shaking up the Turing Test, but it’s wild to think it’s still just mimicking, not truly thinking like us. 🤯 Makes me wonder if we’re chasing the wrong goal in AI.





首頁






