Modèles de «raisonnement» AI testés avec les questions de puzzle du dimanche NPR
Tous les dimanches, Will Shortz de NPR, le cerveau derrière les mots croisés du New York Times, captive des milliers d'auditeurs avec son segment, le Puzzle du Dimanche. Ces puzzles sont conçus pour être résolus avec des connaissances générales, mais ils représentent un défi significatif même pour les solveurs de puzzles chevronnés.
Cette complexité explique pourquoi certains experts estiment que le Puzzle du Dimanche pourrait servir d'outil précieux pour tester les limites des capacités de résolution de problèmes de l'IA.
Dans une étude récente, des chercheurs du Wellesley College, de l'Oberlin College, de l'Université du Texas à Austin, de l'Université Northeastern, de l'Université Charles et de la startup Cursor ont développé un benchmark d'IA en utilisant des énigmes du Puzzle du Dimanche. Leurs résultats ont révélé des comportements intrigants dans les modèles de raisonnement, y compris o1 d'OpenAI, qui parfois "abandonne" et propose des réponses incorrectes en connaissance de cause.
Arjun Guha, professeur d'informatique à Northeastern et co-auteur de l'étude, a expliqué à TechCrunch que l'objectif était de créer un benchmark compréhensible par quiconque possède des connaissances générales. Il a noté, "Nous voulions développer un benchmark avec des problèmes que les humains peuvent comprendre avec seulement des connaissances générales."
L'industrie de l'IA fait actuellement face à un défi avec les benchmarks, car de nombreux tests se concentrent sur des compétences avancées comme les mathématiques et les sciences de niveau doctorat, qui ne sont pas pertinentes pour la plupart des utilisateurs. De plus, même les benchmarks récemment publiés approchent de la saturation.
Le Puzzle du Dimanche offre un avantage unique car il ne repose pas sur des connaissances spécialisées, et son format empêche les modèles d'IA de simplement régurgiter des réponses mémorisées, selon Guha. Il a expliqué, "Je pense que ce qui rend ces problèmes difficiles, c'est qu'il est vraiment compliqué de faire des progrès significatifs sur un problème jusqu'à ce qu'on le résolve — c'est là que tout s'assemble d'un coup. Cela nécessite une combinaison d'intuition et d'un processus d'élimination."
Cependant, le Puzzle du Dimanche n'est pas sans limites. Il est centré sur la culture américaine et utilise uniquement l'anglais, et il existe un risque que les modèles entraînés sur ces puzzles puissent "tricher" s'ils ont déjà vu les questions. Guha rassure toutefois qu'il n'a pas encore trouvé de preuves de cela. Il a ajouté, "De nouvelles questions sont publiées chaque semaine, et nous pouvons nous attendre à ce que les dernières questions soient véritablement inédites. Nous avons l'intention de garder le benchmark à jour et de suivre l'évolution des performances des modèles au fil du temps."
Le benchmark des chercheurs, comprenant environ 600 énigmes du Puzzle du Dimanche, a montré que des modèles de raisonnement comme o1 et R1 de DeepSeek surpassaient significativement les autres modèles. Ces modèles vérifient méticuleusement leurs propres faits, ce qui les aide à éviter les pièges courants. Cependant, cette minutie signifie qu'ils prennent plus de temps pour arriver à une solution — généralement de quelques secondes à quelques minutes de plus.
Chose intéressante, R1 de DeepSeek admet parfois sa défaite, disant "J'abandonne", avant de proposer une réponse incorrecte au hasard — une réaction à laquelle beaucoup d'humains peuvent s'identifier. D'autres comportements étranges observés incluent des modèles donnant une mauvaise réponse, la rétractant, tentant une autre supposition, et échouant à nouveau. Certains modèles se retrouvent coincés dans des boucles infinies de "réflexion", fournissent des explications absurdes, ou répondent correctement à une question pour ensuite explorer inutilement des réponses alternatives.
Guha a commenté le comportement de R1, disant, "Sur des problèmes difficiles, R1 dit littéralement qu'il devient 'frustré'. C'était amusant de voir comment un modèle imite ce qu'un humain pourrait dire. Il reste à voir comment la 'frustration' dans le raisonnement peut affecter la qualité des résultats des modèles."

R1 devenant “frustré” sur une question du défi du Puzzle du Dimanche. Crédits image : Guha et al. L'actuel meilleur performeur sur le benchmark est o1, avec un score de 59 %, suivi par l'o3-mini récemment publié, réglé sur un haut "effort de raisonnement" à 47 %. R1 a obtenu 35 %. Les chercheurs prévoient d'élargir leurs tests à davantage de modèles de raisonnement, espérant identifier des domaines à améliorer.

Les scores des modèles testés par l'équipe sur leur benchmark. Crédits image : Guha et al. Guha a souligné l'importance des benchmarks accessibles, déclarant, "Vous n'avez pas besoin d'un doctorat pour être bon en raisonnement, donc il devrait être possible de concevoir des benchmarks de raisonnement qui ne nécessitent pas de connaissances de niveau doctorat. Un benchmark avec un accès plus large permet à un ensemble plus vaste de chercheurs de comprendre et d'analyser les résultats, ce qui peut à son tour conduire à de meilleures solutions à l'avenir. De plus, à mesure que les modèles de pointe sont de plus en plus déployés dans des contextes qui affectent tout le monde, nous pensons que tout le monde devrait pouvoir intuitivement comprendre ce que ces modèles sont — et ne sont pas — capables de faire."
Article connexe
WordPress.com permet désormais à des agents IA de rédiger et de publier des articles, et bien plus encore
WordPress.com, la célèbre plateforme d'hébergement et de publication Web, se tourne désormais vers les agents IA, une initiative qui pourrait bien redéfinir l'apparence et l'ergonomie du Web. La socié
Kakao Mobility présente sa feuille de route pour la conduite autonome de niveau 4 basée sur l'IA physique
Kakao Mobility prévoit de développer en interne des technologies de conduite autonome de niveau 4 dans le cadre de sa stratégie d'IA physique.Lors de la conférence World IT Show 2026 qui s'est tenue
Barry Diller : la confiance en Sam Altman n'a plus d'importance à l'approche de l'IA générale
Barry Diller, le magnat milliardaire des médias, ne considère pas que Sam Altman, PDG d’OpenAI, soit indigne de confiance, malgré des informations récentes suggérant le contraire. S’exprimant cette se
Recommandations de sujets spéciaux liés
commentaires (12)
Die Vorstellung, dass KI solche Puzzles löst, ist faszinierend. Aber wie weit kann diese 'Argumentationsfähigkeit' wirklich gehen? Ich frage mich, ob das mehr ist als nur komplexe Mustererkennung. Die ethischen Implikationen, wenn diese Systeme 'echtes' Denken simulieren könnten, sind beängstigend. 🤔
NPR's Sunday Puzzle with AI? Sounds like a brain teaser showdown! I wonder if these models can outsmart Will Shortz’s tricky wordplay. 🤔
¡Esta herramienta de IA que resuelve los rompecabezas de los domingos de NPR es genial! Es como tener un amigo listo que ama los rompecabezas tanto como yo. A veces se equivoca, pero ¿quién no? ¡Sigue así, IA! 😄
This AI tool tackling NPR's Sunday Puzzles is super cool! It's like having a brainy friend who loves puzzles as much as I do. Sometimes it gets the answers wrong, but hey, who doesn't? Keep up the good work, AI! 🤓
Tous les dimanches, Will Shortz de NPR, le cerveau derrière les mots croisés du New York Times, captive des milliers d'auditeurs avec son segment, le Puzzle du Dimanche. Ces puzzles sont conçus pour être résolus avec des connaissances générales, mais ils représentent un défi significatif même pour les solveurs de puzzles chevronnés.
Cette complexité explique pourquoi certains experts estiment que le Puzzle du Dimanche pourrait servir d'outil précieux pour tester les limites des capacités de résolution de problèmes de l'IA.
Dans une étude récente, des chercheurs du Wellesley College, de l'Oberlin College, de l'Université du Texas à Austin, de l'Université Northeastern, de l'Université Charles et de la startup Cursor ont développé un benchmark d'IA en utilisant des énigmes du Puzzle du Dimanche. Leurs résultats ont révélé des comportements intrigants dans les modèles de raisonnement, y compris o1 d'OpenAI, qui parfois "abandonne" et propose des réponses incorrectes en connaissance de cause.
Arjun Guha, professeur d'informatique à Northeastern et co-auteur de l'étude, a expliqué à TechCrunch que l'objectif était de créer un benchmark compréhensible par quiconque possède des connaissances générales. Il a noté, "Nous voulions développer un benchmark avec des problèmes que les humains peuvent comprendre avec seulement des connaissances générales."
L'industrie de l'IA fait actuellement face à un défi avec les benchmarks, car de nombreux tests se concentrent sur des compétences avancées comme les mathématiques et les sciences de niveau doctorat, qui ne sont pas pertinentes pour la plupart des utilisateurs. De plus, même les benchmarks récemment publiés approchent de la saturation.
Le Puzzle du Dimanche offre un avantage unique car il ne repose pas sur des connaissances spécialisées, et son format empêche les modèles d'IA de simplement régurgiter des réponses mémorisées, selon Guha. Il a expliqué, "Je pense que ce qui rend ces problèmes difficiles, c'est qu'il est vraiment compliqué de faire des progrès significatifs sur un problème jusqu'à ce qu'on le résolve — c'est là que tout s'assemble d'un coup. Cela nécessite une combinaison d'intuition et d'un processus d'élimination."
Cependant, le Puzzle du Dimanche n'est pas sans limites. Il est centré sur la culture américaine et utilise uniquement l'anglais, et il existe un risque que les modèles entraînés sur ces puzzles puissent "tricher" s'ils ont déjà vu les questions. Guha rassure toutefois qu'il n'a pas encore trouvé de preuves de cela. Il a ajouté, "De nouvelles questions sont publiées chaque semaine, et nous pouvons nous attendre à ce que les dernières questions soient véritablement inédites. Nous avons l'intention de garder le benchmark à jour et de suivre l'évolution des performances des modèles au fil du temps."
Le benchmark des chercheurs, comprenant environ 600 énigmes du Puzzle du Dimanche, a montré que des modèles de raisonnement comme o1 et R1 de DeepSeek surpassaient significativement les autres modèles. Ces modèles vérifient méticuleusement leurs propres faits, ce qui les aide à éviter les pièges courants. Cependant, cette minutie signifie qu'ils prennent plus de temps pour arriver à une solution — généralement de quelques secondes à quelques minutes de plus.
Chose intéressante, R1 de DeepSeek admet parfois sa défaite, disant "J'abandonne", avant de proposer une réponse incorrecte au hasard — une réaction à laquelle beaucoup d'humains peuvent s'identifier. D'autres comportements étranges observés incluent des modèles donnant une mauvaise réponse, la rétractant, tentant une autre supposition, et échouant à nouveau. Certains modèles se retrouvent coincés dans des boucles infinies de "réflexion", fournissent des explications absurdes, ou répondent correctement à une question pour ensuite explorer inutilement des réponses alternatives.
Guha a commenté le comportement de R1, disant, "Sur des problèmes difficiles, R1 dit littéralement qu'il devient 'frustré'. C'était amusant de voir comment un modèle imite ce qu'un humain pourrait dire. Il reste à voir comment la 'frustration' dans le raisonnement peut affecter la qualité des résultats des modèles."

L'actuel meilleur performeur sur le benchmark est o1, avec un score de 59 %, suivi par l'o3-mini récemment publié, réglé sur un haut "effort de raisonnement" à 47 %. R1 a obtenu 35 %. Les chercheurs prévoient d'élargir leurs tests à davantage de modèles de raisonnement, espérant identifier des domaines à améliorer.

Guha a souligné l'importance des benchmarks accessibles, déclarant, "Vous n'avez pas besoin d'un doctorat pour être bon en raisonnement, donc il devrait être possible de concevoir des benchmarks de raisonnement qui ne nécessitent pas de connaissances de niveau doctorat. Un benchmark avec un accès plus large permet à un ensemble plus vaste de chercheurs de comprendre et d'analyser les résultats, ce qui peut à son tour conduire à de meilleures solutions à l'avenir. De plus, à mesure que les modèles de pointe sont de plus en plus déployés dans des contextes qui affectent tout le monde, nous pensons que tout le monde devrait pouvoir intuitivement comprendre ce que ces modèles sont — et ne sont pas — capables de faire."
WordPress.com permet désormais à des agents IA de rédiger et de publier des articles, et bien plus encore
WordPress.com, la célèbre plateforme d'hébergement et de publication Web, se tourne désormais vers les agents IA, une initiative qui pourrait bien redéfinir l'apparence et l'ergonomie du Web. La socié
Barry Diller : la confiance en Sam Altman n'a plus d'importance à l'approche de l'IA générale
Barry Diller, le magnat milliardaire des médias, ne considère pas que Sam Altman, PDG d’OpenAI, soit indigne de confiance, malgré des informations récentes suggérant le contraire. S’exprimant cette se
Die Vorstellung, dass KI solche Puzzles löst, ist faszinierend. Aber wie weit kann diese 'Argumentationsfähigkeit' wirklich gehen? Ich frage mich, ob das mehr ist als nur komplexe Mustererkennung. Die ethischen Implikationen, wenn diese Systeme 'echtes' Denken simulieren könnten, sind beängstigend. 🤔
NPR's Sunday Puzzle with AI? Sounds like a brain teaser showdown! I wonder if these models can outsmart Will Shortz’s tricky wordplay. 🤔
¡Esta herramienta de IA que resuelve los rompecabezas de los domingos de NPR es genial! Es como tener un amigo listo que ama los rompecabezas tanto como yo. A veces se equivoca, pero ¿quién no? ¡Sigue así, IA! 😄
This AI tool tackling NPR's Sunday Puzzles is super cool! It's like having a brainy friend who loves puzzles as much as I do. Sometimes it gets the answers wrong, but hey, who doesn't? Keep up the good work, AI! 🤓





Maison






