option
Maison Nouvelles Problème du Test de Turing Exposé par le GPT-4.5 d'OpenAI

Problème du Test de Turing Exposé par le GPT-4.5 d'OpenAI

date de sortie date de sortie 22 mai 2025
Auteur Auteur EricJohnson
vues vues 0

Le test de Turing, une création du légendaire Alan Turing, est depuis longtemps une référence dans le monde de l'intelligence artificielle. Mais clarifions une méprise courante dès le départ : réussir le test de Turing ne signifie pas nécessairement qu'une machine "pense" comme un humain. Il s'agit plutôt de convaincre les humains qu'elle l'est.

Des recherches récentes de l'Université de Californie à San Diego ont mis en lumière le dernier modèle d'OpenAI, GPT-4.5. Cette IA peut désormais tromper les humains en les faisant croire qu'ils discutent avec une autre personne, encore plus efficacement que les humains peuvent se convaincre mutuellement de leur humanité. C'est un grand pas dans le monde de l'IA – c'est comme assister à un tour de magie dont on connaît le secret, mais qui nous laisse tout de même bouche bée.

Université de Californie à San Diego

Preuve d'une IA générale ?

Mais voici le hic : même les chercheurs de l'UC San Diego ne sont pas prêts à déclarer que nous avons atteint l'"intelligence artificielle générale" (AGI) simplement parce qu'un modèle d'IA peut réussir le test de Turing. L'AGI serait le saint graal de l'IA – des machines capables de penser et de traiter l'information comme les humains le font.

Melanie Mitchell, une chercheuse en IA de l'Institut Santa Fe, soutient dans le journal Science que le test de Turing teste plus les suppositions humaines que l'intelligence réelle. Certes, une IA peut sembler fluide et convaincante, mais ce n'est pas la même chose que d'être généralement intelligente. C'est comme être bon aux échecs – c'est impressionnant, mais ce n'est pas l'image complète.

Le dernier buzz à ce sujet provient d'un article de Cameron Jones et Benjamin Bergen à l'UC San Diego, intitulé "Les grands modèles de langage réussissent le test de Turing", publié sur le serveur de pré-publication arXiv. Ils mènent cette expérience depuis des années, avec l'aide des étudiants de premier cycle de l'UC San Diego, et cela fait partie d'une longue lignée de recherches – plus de 800 affirmations et contre-arguments ont été formulés au sujet des ordinateurs réussissant le test de Turing.

Comment fonctionne le test de Turing ?

Alors, comment ce test fonctionne-t-il ? À l'origine, Turing l'imaginait comme un jeu de messages texte entre un "juge" humain et deux "témoins" – un humain, un ordinateur. Le défi pour les témoins est de convaincre le juge qu'ils sont humains. Le juge sait qu'un des deux est humain, mais pas lequel, et doit faire une supposition. C'est une configuration à trois qui repose autant sur la perception et la croyance que sur les capacités de l'ordinateur.

Jones et Bergen ont ajouté leur propre touche à cette configuration classique, et vous pouvez même l'essayer en ligne, en jouant le rôle de juge ou de témoin. Dans leur version, les étudiants de l'UC San Diego ont utilisé une application de chat texte. Certains jouaient le rôle de juge, d'autres de témoin humain, tandis que GPT-4.5 jouait le rôle de témoin ordinateur. Chaque juge discutait en même temps avec un humain et un ordinateur, restant fidèle au format original de Turing.

Pour jouer le rôle de témoin ordinateur, ils ont utilisé différents grands modèles de langage, leur fournissant des invites basées sur les défis du juge. GPT-4.5 a été testé avec deux invites différentes : une avec des informations minimales, et une autre appelée PERSONA, qui incluait des instructions détaillées pour agir comme une personne jeune, introvertie et à l'aise sur Internet, utilisant de l'argot.

Université de Californie à San Diego

Les résultats

Ils ont également testé trois autres programmes d'IA : le modèle précédent d'OpenAI, GPT-4o ; le Llama 3.1 405b de Meta Platforms ; et le vieux chatbot des années 1960, ELIZA. Ils ont inclus ELIZA pour voir si les grands modèles de langage trompaient les humains par hasard ou s'ils étaient réellement meilleurs.

Selon Jones et Bergen, GPT-4.5 a trompé les juges humains en les faisant croire qu'il était humain 73% du temps – un "taux de réussite" qu'ils appellent. C'est bien mieux que les autres modèles, qui ont obtenu des scores entre 21% et 56%, même avec des invites similaires et détaillées. Et c'est un grand bond par rapport au test de l'année dernière sur GPT-4, qui avait un taux de réussite de seulement 54%, à peine au-dessus du hasard.

Jones et Bergen ont découvert que les juges n'étaient pas seulement trompés par l'IA, mais étaient en fait plus susceptibles de croire qu'elle était humaine que les véritables participants humains.

Le test mesure-t-il vraiment l'intelligence ?

Alors, qu'est-ce que cela signifie que les humains ne peuvent pas distinguer un ordinateur d'une personne dans une conversation ? La grande question débattue depuis des décennies est de savoir si le test de Turing mesure vraiment l'intelligence. Jones et Bergen suggèrent que peut-être les machines sont simplement devenues si bonnes à s'adapter à différents scénarios qu'elles peuvent passer pour humaines de manière convaincante. L'invite PERSONA, créée par des humains, est quelque chose que GPT-4.5 a adapté et utilisé à son avantage.

Mais il y a un piège : peut-être que les humains sont simplement mauvais pour reconnaître l'intelligence. Les auteurs soulignent qu'ELIZA, le vieux chatbot, a trompé les juges 23% du temps, non pas parce qu'il était plus intelligent, mais parce qu'il ne répondait pas à leurs attentes de ce qu'une IA devrait être. Certains juges l'ont cru humain parce qu'il était "sarcastique" ou "impoli", ce qu'ils n'attendaient pas d'une IA.

Cela suggère que les juges sont influencés par leurs suppositions sur la manière dont les humains et les IA devraient se comporter, plutôt que de simplement choisir l'agent qui semble le plus intelligent. Curieusement, les juges ne se sont pas beaucoup concentrés sur la connaissance, que Turing pensait être clé. Au lieu de cela, ils étaient plus susceptibles de penser qu'un témoin était humain s'il semblait manquer de connaissances.

Sociabilité, pas intelligence

Tout cela indique que les humains détectaient la sociabilité plutôt que l'intelligence. Jones et Bergen concluent que le test de Turing n'est pas vraiment un test d'intelligence – c'est un test de ressemblance humaine.

Turing pourrait avoir pensé que l'intelligence était le plus grand obstacle pour sembler humain, mais à mesure que les machines se rapprochent de nous, d'autres différences deviennent plus évidentes. L'intelligence seule ne suffit plus pour sembler humain de manière convaincante.

Ce qui n'est pas dit directement dans l'article, c'est que les humains sont tellement habitués à taper sur des ordinateurs, que ce soit avec une personne ou une machine, que le test de Turing n'est plus le test d'interaction humain-ordinateur novateur qu'il était autrefois. C'est maintenant plus un test des habitudes humaines en ligne.

Les auteurs suggèrent que le test pourrait devoir être élargi car l'intelligence est si complexe et multiforme qu'aucun test unique ne peut être décisif. Ils proposent différentes conceptions, comme utiliser des experts en IA comme juges ou ajouter des incitations financières pour que les juges examinent de plus près. Ces changements pourraient montrer à quel point l'attitude et les attentes influencent les résultats.

Ils concluent que bien que le test de Turing puisse faire partie du tableau, il devrait être considéré aux côtés d'autres types de preuves. Cela s'aligne sur une tendance croissante dans la recherche en IA d'impliquer les humains "dans la boucle", évaluant ce que font les machines.

Le jugement humain est-il suffisant ?

Mais il reste la question de savoir si le jugement humain sera suffisant à long terme. Dans le film Blade Runner, les humains utilisent une machine, le "Voight-Kampff", pour distinguer les humains des robots répliquants. Alors que nous poursuivons l'AGI, et que nous luttons pour définir ce que c'est, nous pourrions finir par compter sur les machines pour évaluer l'intelligence des machines.

Ou, au moins, nous pourrions avoir besoin de demander aux machines ce qu'elles "pensent" des humains essayant de tromper d'autres humains avec des invites. C'est un monde fou là dehors dans la recherche en IA, et cela ne fait que devenir plus intéressant.

Article connexe
Apple Rumeurs de Lancer un iPhone en Verre Courbé en 2027 Apple Rumeurs de Lancer un iPhone en Verre Courbé en 2027 Ce matin, Mark Gurman de Bloomberg a suscité l'excitation avec sa newsletter Power On, prévoyant une "avalanche de produits" d'Apple pour 2027. Notamment, il a laissé entendre un i
Les lettres de demande alimentées par l'IA aident à déverrouiller les fonds gelés Les lettres de demande alimentées par l'IA aident à déverrouiller les fonds gelés Traiter avec des fonds surgelés de sociétés comme Amazon, PayPal ou Stripe peut être un vrai mal de tête. Un moyen efficace de résoudre ce problème est d'envoyer une lettre de demande impérieuse. Avec l'aide de l'IA, spécifiquement Chatgpt, vous pouvez rédiger une lettre puissante qui pourrait bien récupérer votre argent sans brea
Llama 3.1 : Le pas de Meta vers l'IA open source Llama 3.1 : Le pas de Meta vers l'IA open source Meta dévoile Llama 3.1 : un nouveau bond dans la technologie de l'IAMeta, le géant derrière Facebook, vient de sortir le grand jeu pour Llama 3.1 405B, leur dernier modèle d'IA ope
commentaires (0)
0/200
Retour en haut
OR