圖靈測試問題被OpenAI的GPT-4.5暴露
2025年05月22日
EricJohnson
0
圖靈測試是傳奇人物艾倫·圖靈的創見,長期以來一直是人工智慧領域的一個標準。但首先讓我們釐清一個常見的誤解:通過圖靈測試並不意味著機器像人類一樣「思考」。它更像是讓人類相信它是人類。
加州大學聖地亞哥分校的最新研究聚焦於OpenAI的最新模型GPT-4.5。這款AI現在能夠更有效地讓人類相信他們是在與另一個人聊天,甚至比人類彼此說服對方的能力還要強。這在AI領域是一件大事——就像看一場魔術表演,你知道秘密,但它仍然讓你驚訝。

通用人工智慧的證明?
但關鍵是:即使是加州大學聖地亞哥分校的研究人員也不準備宣稱我們已經達到「通用人工智慧」(AGI),僅僅因為一個AI模型能通過圖靈測試。AGI是AI的聖杯——能夠像人類一樣思考和處理信息的機器。
聖塔菲研究所的AI學者梅蘭妮·米切爾在《科學》雜誌中爭辯說,圖靈測試更多是測試人類的假設,而不是真正的智慧。當然,一個AI可能聽起來流利且有說服力,但那不等於普遍的智慧。這就像擅長下棋——令人印象深刻,但並不是全貌。
最新的熱議來自加州大學聖地亞哥分校的卡梅倫·瓊斯和本傑明·伯根發表在arXiv預印本服務器上的論文,標題為「大型語言模型通過圖靈測試」。他們多年來一直在進行這項實驗,得到加州大學聖地亞哥分校本科生的幫助,這是長期研究的一部分——關於電腦通過圖靈測試,已有超過800項聲明和反對意見。
圖靈測試如何運作
那麼,這個測試是如何運作的呢?最初,圖靈設想它是一個文本消息遊戲,由一個「法官」和兩個「證人」——一個人類,一台電腦——進行。證人的挑戰是說服法官他們是人類。法官知道其中一個是人類,但不知道是哪一個,必須做出猜測。這是一個三方設置,與電腦的能力一樣重要的是感知和信念。
瓊斯和伯根對這個經典設置進行了自己的改動,你甚至可以在線上試試,扮演法官或證人。在他們的版本中,加州大學聖地亞哥分校的學生使用了一個文本聊天應用程式。有些人扮演法官,其他人扮演人類證人,而GPT-4.5則扮演電腦證人。每個法官同時與一個人類和一台電腦聊天,忠於圖靈的原始格式。
為了扮演電腦證人,他們使用了不同的語言模型,根據法官的挑戰提供提示。GPT-4.5被測試了兩種不同的提示:一種是提供最少的信息,另一種被稱為PERSONA,包含詳細的指示,要求它表現得像一個年輕、內向、精通網絡且使用俚語的人。

結果
他們還測試了其他三個AI程序:OpenAI的上一個模型GPT-4o;Meta Platforms的Llama 3.1 405b;以及1960年代的古老聊天機器人ELIZA。他們加入ELIZA是為了看看大型語言模型是否只是偶然愚弄人類,還是確實表現得更好。
根據瓊斯和伯根的說法,GPT-4.5讓人類法官73%的時間以為它是人類——他們稱之為「勝率」。這遠遠超過其他模型,勝率在21%到56%之間,即使使用了類似的詳細提示。這也比去年測試的GPT-4有了巨大的飛躍,當時的勝率只有54%,僅僅高於隨機機會。
瓊斯和伯根發現,法官不僅被AI愚弄,實際上還更有可能相信它是人類,而不是真人參與者。
這測試真的是衡量智慧的工具嗎?
那麼,人類在聊天中無法區分電腦和人類,這意味著什麼呢?幾十年來一直爭論的大問題是,圖靈測試是否真的在衡量智慧。瓊斯和伯根提出,或許機器只是在適應不同的情境方面變得非常好,以至於能夠令人信服地假裝成人類。由人類創建的PERSONA提示是GPT-4.5所適應並利用的。
但有一個陷阱:或許人類只是在識別智慧方面很差。作者指出,古老的聊天機器人ELIZA愚弄了23%的法官,不是因為它更聰明,而是因為它不符合他們對AI應有的期望。有些法官認為它是人類,因為它是「諷刺」或「粗魯」的,這是他們從AI中不期望看到的。
這表明法官受到他們對人類和AI應如何表現的假設影響,而不僅僅是選擇看似最聰明的代理人。有趣的是,法官並未過多關注知識,這是圖靈認為的關鍵。相反,如果證人似乎缺乏知識,他們更有可能認為證人是人類。
社交性,而非智慧
所有這些都指向一個觀點:人類更關注的是社交性而不是智慧。瓊斯和伯根得出結論,圖靈測試並不是一個智慧的測試——它是一個類人性的測試。
圖靈可能認為智慧是看似人類的最大障礙,但隨著機器越來越接近我們,其他差異變得更加明顯。僅靠智慧已不足以看似令人信服的人類。
論文中未直接說的是,人類已經習慣在電腦上打字,無論是對人還是對機器,圖靈測試不再是過去那種新穎的人機交互測試。它現在更像是對線上人類習慣的測試。
作者建議,可能需要擴展測試,因為智慧是如此複雜多面,沒有單一測試能夠決定性。他們提出不同的設計,如使用AI專家作為法官,或增加財務激勵,讓法官更仔細審查。這些變化可能會顯示出態度和期望對結果的影響有多大。
他們得出結論,雖然圖靈測試可能是其中的一部分,但應該與其他種類的證據一起考慮。這與AI研究中越來越多的趨勢一致,即讓人類「參與其中」,評估機器的表現。
人類的判斷足夠嗎?
但長遠來看,人類的判斷是否足夠,這仍然是一個問題。在電影《銀翼殺手》中,人類使用一台機器「沃伊特-康普夫」來區分人類與複製人機器人。當我們追求AGI,並努力定義它到底是什麼時,我們可能最終會依賴機器來評估機器的智慧。
或者,至少,我們可能需要問問機器它們對人類試圖用提示欺騙其他人的看法。在AI研究中,這是一個瘋狂的世界,而且只會變得越來越有趣。
相關文章
蘋果2027年推出曲面玻璃iPhone
今早,彭博社的馬克·古爾曼在《Power On》通訊中激起了人們的興奮,他預測2027年將是蘋果的「產品狂潮」。特別的是,他暗示了一款「幾乎全玻璃、曲面設計的iPhone」,將在iPhone 20周年之際推出,沒有任何顯示屏切口。這一引人注目的細節激起了我的興趣,尤其是我桌上的iPhone 15 Pro已是「幾乎全玻璃」,只有相機周圍和鈦金屬邊框是金屬。那麼
AI驅動的需求信有助於解鎖冷凍資金
處理來自亞馬遜,貝寶(Paypal)或條紋等公司的冷凍資金可能是一個真正的頭痛。解決此問題的一種有效方法是發送引人注目的需求信。在AI的幫助下,特別是Chatgpt,您可以製作一封有力的信件,可能只會收回您的錢
Llama 3.1:Meta邁向開源AI的一步
Meta發布Llama 3.1:人工智能技術的新飛躍Meta,這家在Facebook背後的強大力量,剛剛為他們的最新開源AI模型Llama 3.1 405B鋪上了紅地毯。這不僅僅是另一個更新;這是人工智能領域的一大步向前。Llama 3.1將為Meta的AI助手注入強大的動力,使其成為他們許多面向用戶應用程序的核心功能。Meta的CEO馬克·扎克伯格通過Th
評論 (0)
0/200






圖靈測試是傳奇人物艾倫·圖靈的創見,長期以來一直是人工智慧領域的一個標準。但首先讓我們釐清一個常見的誤解:通過圖靈測試並不意味著機器像人類一樣「思考」。它更像是讓人類相信它是人類。
加州大學聖地亞哥分校的最新研究聚焦於OpenAI的最新模型GPT-4.5。這款AI現在能夠更有效地讓人類相信他們是在與另一個人聊天,甚至比人類彼此說服對方的能力還要強。這在AI領域是一件大事——就像看一場魔術表演,你知道秘密,但它仍然讓你驚訝。
通用人工智慧的證明?
但關鍵是:即使是加州大學聖地亞哥分校的研究人員也不準備宣稱我們已經達到「通用人工智慧」(AGI),僅僅因為一個AI模型能通過圖靈測試。AGI是AI的聖杯——能夠像人類一樣思考和處理信息的機器。
聖塔菲研究所的AI學者梅蘭妮·米切爾在《科學》雜誌中爭辯說,圖靈測試更多是測試人類的假設,而不是真正的智慧。當然,一個AI可能聽起來流利且有說服力,但那不等於普遍的智慧。這就像擅長下棋——令人印象深刻,但並不是全貌。
最新的熱議來自加州大學聖地亞哥分校的卡梅倫·瓊斯和本傑明·伯根發表在arXiv預印本服務器上的論文,標題為「大型語言模型通過圖靈測試」。他們多年來一直在進行這項實驗,得到加州大學聖地亞哥分校本科生的幫助,這是長期研究的一部分——關於電腦通過圖靈測試,已有超過800項聲明和反對意見。
圖靈測試如何運作
那麼,這個測試是如何運作的呢?最初,圖靈設想它是一個文本消息遊戲,由一個「法官」和兩個「證人」——一個人類,一台電腦——進行。證人的挑戰是說服法官他們是人類。法官知道其中一個是人類,但不知道是哪一個,必須做出猜測。這是一個三方設置,與電腦的能力一樣重要的是感知和信念。
瓊斯和伯根對這個經典設置進行了自己的改動,你甚至可以在線上試試,扮演法官或證人。在他們的版本中,加州大學聖地亞哥分校的學生使用了一個文本聊天應用程式。有些人扮演法官,其他人扮演人類證人,而GPT-4.5則扮演電腦證人。每個法官同時與一個人類和一台電腦聊天,忠於圖靈的原始格式。
為了扮演電腦證人,他們使用了不同的語言模型,根據法官的挑戰提供提示。GPT-4.5被測試了兩種不同的提示:一種是提供最少的信息,另一種被稱為PERSONA,包含詳細的指示,要求它表現得像一個年輕、內向、精通網絡且使用俚語的人。
結果
他們還測試了其他三個AI程序:OpenAI的上一個模型GPT-4o;Meta Platforms的Llama 3.1 405b;以及1960年代的古老聊天機器人ELIZA。他們加入ELIZA是為了看看大型語言模型是否只是偶然愚弄人類,還是確實表現得更好。
根據瓊斯和伯根的說法,GPT-4.5讓人類法官73%的時間以為它是人類——他們稱之為「勝率」。這遠遠超過其他模型,勝率在21%到56%之間,即使使用了類似的詳細提示。這也比去年測試的GPT-4有了巨大的飛躍,當時的勝率只有54%,僅僅高於隨機機會。
瓊斯和伯根發現,法官不僅被AI愚弄,實際上還更有可能相信它是人類,而不是真人參與者。
這測試真的是衡量智慧的工具嗎?
那麼,人類在聊天中無法區分電腦和人類,這意味著什麼呢?幾十年來一直爭論的大問題是,圖靈測試是否真的在衡量智慧。瓊斯和伯根提出,或許機器只是在適應不同的情境方面變得非常好,以至於能夠令人信服地假裝成人類。由人類創建的PERSONA提示是GPT-4.5所適應並利用的。
但有一個陷阱:或許人類只是在識別智慧方面很差。作者指出,古老的聊天機器人ELIZA愚弄了23%的法官,不是因為它更聰明,而是因為它不符合他們對AI應有的期望。有些法官認為它是人類,因為它是「諷刺」或「粗魯」的,這是他們從AI中不期望看到的。
這表明法官受到他們對人類和AI應如何表現的假設影響,而不僅僅是選擇看似最聰明的代理人。有趣的是,法官並未過多關注知識,這是圖靈認為的關鍵。相反,如果證人似乎缺乏知識,他們更有可能認為證人是人類。
社交性,而非智慧
所有這些都指向一個觀點:人類更關注的是社交性而不是智慧。瓊斯和伯根得出結論,圖靈測試並不是一個智慧的測試——它是一個類人性的測試。
圖靈可能認為智慧是看似人類的最大障礙,但隨著機器越來越接近我們,其他差異變得更加明顯。僅靠智慧已不足以看似令人信服的人類。
論文中未直接說的是,人類已經習慣在電腦上打字,無論是對人還是對機器,圖靈測試不再是過去那種新穎的人機交互測試。它現在更像是對線上人類習慣的測試。
作者建議,可能需要擴展測試,因為智慧是如此複雜多面,沒有單一測試能夠決定性。他們提出不同的設計,如使用AI專家作為法官,或增加財務激勵,讓法官更仔細審查。這些變化可能會顯示出態度和期望對結果的影響有多大。
他們得出結論,雖然圖靈測試可能是其中的一部分,但應該與其他種類的證據一起考慮。這與AI研究中越來越多的趨勢一致,即讓人類「參與其中」,評估機器的表現。
人類的判斷足夠嗎?
但長遠來看,人類的判斷是否足夠,這仍然是一個問題。在電影《銀翼殺手》中,人類使用一台機器「沃伊特-康普夫」來區分人類與複製人機器人。當我們追求AGI,並努力定義它到底是什麼時,我們可能最終會依賴機器來評估機器的智慧。
或者,至少,我們可能需要問問機器它們對人類試圖用提示欺騙其他人的看法。在AI研究中,這是一個瘋狂的世界,而且只會變得越來越有趣。











