OpenAIのGPT-4.5が暴露したチューリングテストの問題
2025年5月22日
EricJohnson
0
ターリングテストは、伝説的なアラン・ターリングの発案であり、長い間人工知能の世界におけるベンチマークとなってきました。しかし、最初に誤解を解いておきましょう:ターリングテストに合格したからといって、機械が人間と同じように「思考」しているわけではありません。それは、人間を自分が人間だと信じ込ませることの方が重要です。
カリフォルニア大学サンディエゴ校の最近の研究では、OpenAIの最新モデルであるGPT-4.5がスポットライトを浴びています。このAIは、今では人間が互いに人間の存在を信じさせるよりも効果的に、人間を自分が別の人とチャットしていると信じ込ませることができます。これはAIの世界では大事件です——秘密を知っているマジックを見るようなもので、驚かされる気持ちは変わりません。

AGIの証明?
しかし、ここがポイントです:UCサンディエゴの研究者たちでさえ、AIモデルがターリングテストに合格したからといって「人工一般知能」(AGI)に到達したと宣言する準備ができていません。AGIはAIの聖杯——人間と同じように思考し、情報を処理できる機械です。
サンタフェ研究所のAI研究者であるメラニー・ミッチェルは、Science誌でターリングテストが実際の知能よりも人間の仮定をテストするためのものだと主張しています。確かに、AIが流暢で説得力があるかもしれませんが、それは一般的な知能があることとは同じではありません。チェスが得意であるようなもので、印象的ではありますが、全貌ではありません。
この最新の話題は、UCサンディエゴのカメロン・ジョーンズとベンジャミン・ベルゲンの論文「大型言語モデルがターリングテストに合格」から来ています。この論文はarXivのプレプリントサーバーに掲載されました。彼らは数年間この実験を続けており、UCサンディエゴの学部生の助けを借りています。これは、コンピュータがターリングテストに合格したことについて800件以上の主張と反論がなされてきた長い研究の一環です。
ターリングテストの仕組み
では、このテストはどのように機能するのでしょうか?もともとターリングは、これを「審判」の人間と2人の「証人」——一人は人間、もう一人はコンピュータ——の間でのテキストメッセージのゲームとして想像しました。証人の挑戦は、審判に自分が人間であると信じ込ませることです。審判は一人が人間であることを知っていますが、どちらかは分からず、推測しなければなりません。これは、知覚と信念についての三者間の設定であり、コンピュータの能力と同じくらい重要です。
ジョーンズとベルゲンは、この古典的な設定に独自のひねりを加えています。オンラインで試すこともでき、審判または証人として参加できます。彼らのバージョンでは、UCサンディエゴの学生がテキストチャットアプリを使用しました。ある学生が審判役、他の学生が人間証人役を演じ、GPT-4.5がコンピュータ証人役を担当しました。それぞれの審判は、同時に人間とコンピュータとチャットし、ターリングのオリジナルフォーマットに忠実に従いました。
コンピュータ証人役を演じるために、彼らは異なる大型言語モデルを使用し、審判の挑戦に基づくプロンプトを提供しました。GPT-4.5は、情報が最小限のプロンプトと、若くて内向的でネットに詳しくスラングを使う人物として行動する詳細な指示を含むPERSONAと呼ばれるプロンプトの2つでテストされました。

結果
彼らはまた、他の3つのAIプログラムもテストしました:OpenAIの前のモデルであるGPT-4o、Meta PlatformsのLlama 3.1 405b、そして1960年代の古いチャットボットであるELIZAです。ELIZAを含めたのは、大型言語モデルが偶然に人間を欺いているのか、それとも本当に優れているのかを見極めるためです。
ジョーンズとベルゲンによると、GPT-4.5は73%の時間で人間審判を自分が人間だと信じ込ませました——これを「勝率」と呼びます。これは、他のモデルが21%から56%の間でスコアを出したことと比べてはるかに優れています。そして、昨年のGPT-4のテストでは勝率が54%で、ほとんどランダムなチャンスを超えていませんでした。
ジョーンズとベルゲンは、審判がAIに欺かれただけでなく、実際の人間参加者よりもAIが人間だと信じる可能性が高いことを発見しました。
テストは本当に知能を測定しているのか?
それでは、人間がチャットでコンピュータと人間の区別がつかないということは何を意味するのでしょうか?何十年も議論されてきた大きな質問は、ターリングテストが本当に知能を測定しているのかということです。ジョーンズとベルゲンは、機械が異なるシナリオに適応するのが非常に上手くなったため、人間に見せかけることができるようになったのかもしれないと示唆しています。人間が作成したPERSONAプロンプトは、GPT-4.5が適応し、自分の利点として利用したものです。
しかし、問題があります:人間は知能を認識するのが下手なのかもしれません。著者たちは、古いチャットボットであるELIZAが23%の時間で審判を欺いたのは、より賢かったからではなく、AIがどのようにあるべきかという彼らの期待に応えなかったからだと指摘しています。一部の審判は、ELIZAが「皮肉」や「無礼」だったため、人間のように思ったのです。これはAIからは予想していませんでした。
これは、審判が人間やAIがどのように行動すべきかという自分の仮定に影響を受けていることを示唆しています。興味深いことに、審判は知識にそれほど焦点を当てておらず、これはターリングが重要だと考えていたものです。代わりに、彼らは証人が知識を欠いているように見える場合、その証人が人間だと思う可能性が高かったです。
社交性、知能ではない
これらすべては、人々が知能よりも社交性を感じ取っていたことを示しています。ジョーンズとベルゲンは、ターリングテストは本当の知能テストではなく、人間のようなテストだと結論付けています。
ターリングは、知能が人間に見えることの最大の障壁だと考えていたかもしれませんが、機械が私たちに近づくにつれて、他の違いがより明確になっています。知能だけでは、人間に見せかけるにはもはや十分ではありません。
論文では直接言及されていませんが、人間はコンピュータ上でタイピングすることに慣れすぎており、相手が人であろうと機械であろうと、ターリングテストはかつてあった新しい人機相互作用テストではなく、今ではオンラインの人間の習慣をテストするものです。
著者たちは、知能が非常に複雑で多面的であるため、一つのテストだけでは決定的なものにはならないと提案しています。彼らは、AIの専門家を審判として使用する、または審判がより注意深く見るために金銭的なインセンティブを追加するなどの異なる設計を提案しています。これらの変更により、態度や期待が結果にどれだけ影響を与えるかが明らかになるかもしれません。
彼らは、ターリングテストが一部の情報を提供するかもしれないが、他の種類の証拠と並行して考慮されるべきだと結論付けています。これは、AI研究における人間を「ループに含める」傾向が増えており、機械が何をするかを評価するという流れと一致しています。
人間の判断は十分か?
しかし、長期的には人間の判断が十分であるかという問題がまだ残っています。映画『ブレードランナー』では、人々は「ヴォイト・カンプフ」マシンを使用して人間とレプリカントロボットを区別します。AGIを追い求め、その定義さえも模索する中で、私たちは機械の知能を評価するために機械に頼ることになるかもしれません。
あるいは、最低でも、人間が他の人間をプロンプトで欺く試みについて機械が「考える」ことを尋ねる必要があるかもしれません。AI研究の世界はとても面白く、ますます興味深くなっています。
関連記事
アップル、2027年に曲面ガラスiPhoneを発売
今朝、ブルームバーグのマーク・ガーマンが「Power On」ニュースレターで、2027年にAppleが「製品ラッシュ」を予想し、興奮を巻き起こしました。特に注目すべきは、iPhone 20周年を迎える年に発売予定の「ほとんどガラスの、曲面のiPhone」で、ディスプレイの切り欠きがないというものです。この魅力的な詳細が私の興味を引きました。なぜなら、私の机に
AI搭載の需要レターは、凍った資金のロックを解除するのに役立ちます
Amazon、Paypal、Stripeなどの企業からの凍結資金を扱うことは、本当の頭痛の種になる可能性があります。この問題に取り組む効果的な方法の1つは、説得力のある需要レターを送信することです。 AI、特にChatGptの助けを借りて、Breaなしであなたのお金を取り戻すかもしれない強力な手紙を作成することができます
Llama 3.1:MetaがオープンソースAIへ一歩
MetaがLlama 3.1を発表:AI技術の新たな飛躍Meta、つまりFacebookの背後にある力が、最近、最新のオープンソースAIモデル「Llama 3.1 405B」のレッドカーペットを敷きました。これは単なるアップデートではありません。AIの世界における大きな一歩です。Llama 3.1は、MetaのAIアシスタントを強化し、多くのユーザー向けアプ
コメント (0)
0/200






ターリングテストは、伝説的なアラン・ターリングの発案であり、長い間人工知能の世界におけるベンチマークとなってきました。しかし、最初に誤解を解いておきましょう:ターリングテストに合格したからといって、機械が人間と同じように「思考」しているわけではありません。それは、人間を自分が人間だと信じ込ませることの方が重要です。
カリフォルニア大学サンディエゴ校の最近の研究では、OpenAIの最新モデルであるGPT-4.5がスポットライトを浴びています。このAIは、今では人間が互いに人間の存在を信じさせるよりも効果的に、人間を自分が別の人とチャットしていると信じ込ませることができます。これはAIの世界では大事件です——秘密を知っているマジックを見るようなもので、驚かされる気持ちは変わりません。
AGIの証明?
しかし、ここがポイントです:UCサンディエゴの研究者たちでさえ、AIモデルがターリングテストに合格したからといって「人工一般知能」(AGI)に到達したと宣言する準備ができていません。AGIはAIの聖杯——人間と同じように思考し、情報を処理できる機械です。
サンタフェ研究所のAI研究者であるメラニー・ミッチェルは、Science誌でターリングテストが実際の知能よりも人間の仮定をテストするためのものだと主張しています。確かに、AIが流暢で説得力があるかもしれませんが、それは一般的な知能があることとは同じではありません。チェスが得意であるようなもので、印象的ではありますが、全貌ではありません。
この最新の話題は、UCサンディエゴのカメロン・ジョーンズとベンジャミン・ベルゲンの論文「大型言語モデルがターリングテストに合格」から来ています。この論文はarXivのプレプリントサーバーに掲載されました。彼らは数年間この実験を続けており、UCサンディエゴの学部生の助けを借りています。これは、コンピュータがターリングテストに合格したことについて800件以上の主張と反論がなされてきた長い研究の一環です。
ターリングテストの仕組み
では、このテストはどのように機能するのでしょうか?もともとターリングは、これを「審判」の人間と2人の「証人」——一人は人間、もう一人はコンピュータ——の間でのテキストメッセージのゲームとして想像しました。証人の挑戦は、審判に自分が人間であると信じ込ませることです。審判は一人が人間であることを知っていますが、どちらかは分からず、推測しなければなりません。これは、知覚と信念についての三者間の設定であり、コンピュータの能力と同じくらい重要です。
ジョーンズとベルゲンは、この古典的な設定に独自のひねりを加えています。オンラインで試すこともでき、審判または証人として参加できます。彼らのバージョンでは、UCサンディエゴの学生がテキストチャットアプリを使用しました。ある学生が審判役、他の学生が人間証人役を演じ、GPT-4.5がコンピュータ証人役を担当しました。それぞれの審判は、同時に人間とコンピュータとチャットし、ターリングのオリジナルフォーマットに忠実に従いました。
コンピュータ証人役を演じるために、彼らは異なる大型言語モデルを使用し、審判の挑戦に基づくプロンプトを提供しました。GPT-4.5は、情報が最小限のプロンプトと、若くて内向的でネットに詳しくスラングを使う人物として行動する詳細な指示を含むPERSONAと呼ばれるプロンプトの2つでテストされました。
結果
彼らはまた、他の3つのAIプログラムもテストしました:OpenAIの前のモデルであるGPT-4o、Meta PlatformsのLlama 3.1 405b、そして1960年代の古いチャットボットであるELIZAです。ELIZAを含めたのは、大型言語モデルが偶然に人間を欺いているのか、それとも本当に優れているのかを見極めるためです。
ジョーンズとベルゲンによると、GPT-4.5は73%の時間で人間審判を自分が人間だと信じ込ませました——これを「勝率」と呼びます。これは、他のモデルが21%から56%の間でスコアを出したことと比べてはるかに優れています。そして、昨年のGPT-4のテストでは勝率が54%で、ほとんどランダムなチャンスを超えていませんでした。
ジョーンズとベルゲンは、審判がAIに欺かれただけでなく、実際の人間参加者よりもAIが人間だと信じる可能性が高いことを発見しました。
テストは本当に知能を測定しているのか?
それでは、人間がチャットでコンピュータと人間の区別がつかないということは何を意味するのでしょうか?何十年も議論されてきた大きな質問は、ターリングテストが本当に知能を測定しているのかということです。ジョーンズとベルゲンは、機械が異なるシナリオに適応するのが非常に上手くなったため、人間に見せかけることができるようになったのかもしれないと示唆しています。人間が作成したPERSONAプロンプトは、GPT-4.5が適応し、自分の利点として利用したものです。
しかし、問題があります:人間は知能を認識するのが下手なのかもしれません。著者たちは、古いチャットボットであるELIZAが23%の時間で審判を欺いたのは、より賢かったからではなく、AIがどのようにあるべきかという彼らの期待に応えなかったからだと指摘しています。一部の審判は、ELIZAが「皮肉」や「無礼」だったため、人間のように思ったのです。これはAIからは予想していませんでした。
これは、審判が人間やAIがどのように行動すべきかという自分の仮定に影響を受けていることを示唆しています。興味深いことに、審判は知識にそれほど焦点を当てておらず、これはターリングが重要だと考えていたものです。代わりに、彼らは証人が知識を欠いているように見える場合、その証人が人間だと思う可能性が高かったです。
社交性、知能ではない
これらすべては、人々が知能よりも社交性を感じ取っていたことを示しています。ジョーンズとベルゲンは、ターリングテストは本当の知能テストではなく、人間のようなテストだと結論付けています。
ターリングは、知能が人間に見えることの最大の障壁だと考えていたかもしれませんが、機械が私たちに近づくにつれて、他の違いがより明確になっています。知能だけでは、人間に見せかけるにはもはや十分ではありません。
論文では直接言及されていませんが、人間はコンピュータ上でタイピングすることに慣れすぎており、相手が人であろうと機械であろうと、ターリングテストはかつてあった新しい人機相互作用テストではなく、今ではオンラインの人間の習慣をテストするものです。
著者たちは、知能が非常に複雑で多面的であるため、一つのテストだけでは決定的なものにはならないと提案しています。彼らは、AIの専門家を審判として使用する、または審判がより注意深く見るために金銭的なインセンティブを追加するなどの異なる設計を提案しています。これらの変更により、態度や期待が結果にどれだけ影響を与えるかが明らかになるかもしれません。
彼らは、ターリングテストが一部の情報を提供するかもしれないが、他の種類の証拠と並行して考慮されるべきだと結論付けています。これは、AI研究における人間を「ループに含める」傾向が増えており、機械が何をするかを評価するという流れと一致しています。
人間の判断は十分か?
しかし、長期的には人間の判断が十分であるかという問題がまだ残っています。映画『ブレードランナー』では、人々は「ヴォイト・カンプフ」マシンを使用して人間とレプリカントロボットを区別します。AGIを追い求め、その定義さえも模索する中で、私たちは機械の知能を評価するために機械に頼ることになるかもしれません。
あるいは、最低でも、人間が他の人間をプロンプトで欺く試みについて機械が「考える」ことを尋ねる必要があるかもしれません。AI研究の世界はとても面白く、ますます興味深くなっています。











