Modèles de «raisonnement» AI testés avec les questions de puzzle du dimanche NPR
Tous les dimanches, Will Shortz de NPR, le cerveau derrière les mots croisés du New York Times, captive des milliers d'auditeurs avec son segment, le Puzzle du Dimanche. Ces puzzles sont conçus pour être résolus avec des connaissances générales, mais ils représentent un défi significatif même pour les solveurs de puzzles chevronnés.
Cette complexité explique pourquoi certains experts estiment que le Puzzle du Dimanche pourrait servir d'outil précieux pour tester les limites des capacités de résolution de problèmes de l'IA.
Dans une étude récente, des chercheurs du Wellesley College, de l'Oberlin College, de l'Université du Texas à Austin, de l'Université Northeastern, de l'Université Charles et de la startup Cursor ont développé un benchmark d'IA en utilisant des énigmes du Puzzle du Dimanche. Leurs résultats ont révélé des comportements intrigants dans les modèles de raisonnement, y compris o1 d'OpenAI, qui parfois "abandonne" et propose des réponses incorrectes en connaissance de cause.
Arjun Guha, professeur d'informatique à Northeastern et co-auteur de l'étude, a expliqué à TechCrunch que l'objectif était de créer un benchmark compréhensible par quiconque possède des connaissances générales. Il a noté, "Nous voulions développer un benchmark avec des problèmes que les humains peuvent comprendre avec seulement des connaissances générales."
L'industrie de l'IA fait actuellement face à un défi avec les benchmarks, car de nombreux tests se concentrent sur des compétences avancées comme les mathématiques et les sciences de niveau doctorat, qui ne sont pas pertinentes pour la plupart des utilisateurs. De plus, même les benchmarks récemment publiés approchent de la saturation.
Le Puzzle du Dimanche offre un avantage unique car il ne repose pas sur des connaissances spécialisées, et son format empêche les modèles d'IA de simplement régurgiter des réponses mémorisées, selon Guha. Il a expliqué, "Je pense que ce qui rend ces problèmes difficiles, c'est qu'il est vraiment compliqué de faire des progrès significatifs sur un problème jusqu'à ce qu'on le résolve — c'est là que tout s'assemble d'un coup. Cela nécessite une combinaison d'intuition et d'un processus d'élimination."
Cependant, le Puzzle du Dimanche n'est pas sans limites. Il est centré sur la culture américaine et utilise uniquement l'anglais, et il existe un risque que les modèles entraînés sur ces puzzles puissent "tricher" s'ils ont déjà vu les questions. Guha rassure toutefois qu'il n'a pas encore trouvé de preuves de cela. Il a ajouté, "De nouvelles questions sont publiées chaque semaine, et nous pouvons nous attendre à ce que les dernières questions soient véritablement inédites. Nous avons l'intention de garder le benchmark à jour et de suivre l'évolution des performances des modèles au fil du temps."
Le benchmark des chercheurs, comprenant environ 600 énigmes du Puzzle du Dimanche, a montré que des modèles de raisonnement comme o1 et R1 de DeepSeek surpassaient significativement les autres modèles. Ces modèles vérifient méticuleusement leurs propres faits, ce qui les aide à éviter les pièges courants. Cependant, cette minutie signifie qu'ils prennent plus de temps pour arriver à une solution — généralement de quelques secondes à quelques minutes de plus.
Chose intéressante, R1 de DeepSeek admet parfois sa défaite, disant "J'abandonne", avant de proposer une réponse incorrecte au hasard — une réaction à laquelle beaucoup d'humains peuvent s'identifier. D'autres comportements étranges observés incluent des modèles donnant une mauvaise réponse, la rétractant, tentant une autre supposition, et échouant à nouveau. Certains modèles se retrouvent coincés dans des boucles infinies de "réflexion", fournissent des explications absurdes, ou répondent correctement à une question pour ensuite explorer inutilement des réponses alternatives.
Guha a commenté le comportement de R1, disant, "Sur des problèmes difficiles, R1 dit littéralement qu'il devient 'frustré'. C'était amusant de voir comment un modèle imite ce qu'un humain pourrait dire. Il reste à voir comment la 'frustration' dans le raisonnement peut affecter la qualité des résultats des modèles."

R1 devenant “frustré” sur une question du défi du Puzzle du Dimanche. Crédits image : Guha et al. L'actuel meilleur performeur sur le benchmark est o1, avec un score de 59 %, suivi par l'o3-mini récemment publié, réglé sur un haut "effort de raisonnement" à 47 %. R1 a obtenu 35 %. Les chercheurs prévoient d'élargir leurs tests à davantage de modèles de raisonnement, espérant identifier des domaines à améliorer.

Les scores des modèles testés par l'équipe sur leur benchmark. Crédits image : Guha et al. Guha a souligné l'importance des benchmarks accessibles, déclarant, "Vous n'avez pas besoin d'un doctorat pour être bon en raisonnement, donc il devrait être possible de concevoir des benchmarks de raisonnement qui ne nécessitent pas de connaissances de niveau doctorat. Un benchmark avec un accès plus large permet à un ensemble plus vaste de chercheurs de comprendre et d'analyser les résultats, ce qui peut à son tour conduire à de meilleures solutions à l'avenir. De plus, à mesure que les modèles de pointe sont de plus en plus déployés dans des contextes qui affectent tout le monde, nous pensons que tout le monde devrait pouvoir intuitivement comprendre ce que ces modèles sont — et ne sont pas — capables de faire."
Article connexe
Salesforce Dévoile des Coéquipiers Numériques IA dans Slack pour Rivaliser avec Microsoft Copilot
Le nouvel outil, Agentforce dans Slack, permet aux entreprises de créer et de déployer des agents IA spécifiques à des tâches qui recherchent dans les discussions professionnelles, accèdent aux donnée
Investissement de 40 milliards de dollars d'Oracle dans les puces Nvidia pour renforcer le centre de données IA au Texas
Oracle prévoit d'investir environ 40 milliards de dollars dans des puces Nvidia pour alimenter un nouveau centre de données majeur au Texas, développé par OpenAI, selon le Financial Times. Cette trans
Application Meta AI pour introduire un niveau premium et des publicités
L'application d'IA de Meta pourrait bientôt proposer un abonnement payant, à l'image des offres de concurrents comme OpenAI, Google et Microsoft. Lors d'une conférence sur les résultats du premier tri
commentaires (11)
0/200
StephenRamirez
22 juillet 2025 08:33:07 UTC+02:00
NPR's Sunday Puzzle with AI? Sounds like a brain teaser showdown! I wonder if these models can outsmart Will Shortz’s tricky wordplay. 🤔
0
PaulTaylor
19 avril 2025 23:13:34 UTC+02:00
¡Esta herramienta de IA que resuelve los rompecabezas de los domingos de NPR es genial! Es como tener un amigo listo que ama los rompecabezas tanto como yo. A veces se equivoca, pero ¿quién no? ¡Sigue así, IA! 😄
0
StephenScott
19 avril 2025 12:57:20 UTC+02:00
This AI tool tackling NPR's Sunday Puzzles is super cool! It's like having a brainy friend who loves puzzles as much as I do. Sometimes it gets the answers wrong, but hey, who doesn't? Keep up the good work, AI! 🤓
0
CharlesThomas
19 avril 2025 04:09:55 UTC+02:00
NPRのサンデーパズルに挑戦するこのAIツール、めっちゃ面白い!パズル好きの友達がいるみたいで嬉しい。たまに答えを間違えるけど、誰でもそうなるよね。頑張ってね、AI!😊
0
JackMartin
13 avril 2025 12:51:16 UTC+02:00
NPRのサンデーパズルをAIで解くのは驚きです!これらのトリッキーな質問をモデルがどれだけうまく処理するかを見るのはクールです。時々間違えることもありますが、それでも印象的です。アルゴリズムを調整し続けてくださいね!🤓
0
RichardRoberts
13 avril 2025 10:54:45 UTC+02:00
Sử dụng AI để giải các câu đố Chủ Nhật của NPR thật là đáng kinh ngạc! Thật tuyệt khi thấy các mô hình xử lý tốt những câu hỏi khó khăn này. Đôi khi chúng sai, nhưng vẫn rất ấn tượng. Cứ tiếp tục điều chỉnh các thuật toán đó, các bạn! 🤓
0
Tous les dimanches, Will Shortz de NPR, le cerveau derrière les mots croisés du New York Times, captive des milliers d'auditeurs avec son segment, le Puzzle du Dimanche. Ces puzzles sont conçus pour être résolus avec des connaissances générales, mais ils représentent un défi significatif même pour les solveurs de puzzles chevronnés.
Cette complexité explique pourquoi certains experts estiment que le Puzzle du Dimanche pourrait servir d'outil précieux pour tester les limites des capacités de résolution de problèmes de l'IA.
Dans une étude récente, des chercheurs du Wellesley College, de l'Oberlin College, de l'Université du Texas à Austin, de l'Université Northeastern, de l'Université Charles et de la startup Cursor ont développé un benchmark d'IA en utilisant des énigmes du Puzzle du Dimanche. Leurs résultats ont révélé des comportements intrigants dans les modèles de raisonnement, y compris o1 d'OpenAI, qui parfois "abandonne" et propose des réponses incorrectes en connaissance de cause.
Arjun Guha, professeur d'informatique à Northeastern et co-auteur de l'étude, a expliqué à TechCrunch que l'objectif était de créer un benchmark compréhensible par quiconque possède des connaissances générales. Il a noté, "Nous voulions développer un benchmark avec des problèmes que les humains peuvent comprendre avec seulement des connaissances générales."
L'industrie de l'IA fait actuellement face à un défi avec les benchmarks, car de nombreux tests se concentrent sur des compétences avancées comme les mathématiques et les sciences de niveau doctorat, qui ne sont pas pertinentes pour la plupart des utilisateurs. De plus, même les benchmarks récemment publiés approchent de la saturation.
Le Puzzle du Dimanche offre un avantage unique car il ne repose pas sur des connaissances spécialisées, et son format empêche les modèles d'IA de simplement régurgiter des réponses mémorisées, selon Guha. Il a expliqué, "Je pense que ce qui rend ces problèmes difficiles, c'est qu'il est vraiment compliqué de faire des progrès significatifs sur un problème jusqu'à ce qu'on le résolve — c'est là que tout s'assemble d'un coup. Cela nécessite une combinaison d'intuition et d'un processus d'élimination."
Cependant, le Puzzle du Dimanche n'est pas sans limites. Il est centré sur la culture américaine et utilise uniquement l'anglais, et il existe un risque que les modèles entraînés sur ces puzzles puissent "tricher" s'ils ont déjà vu les questions. Guha rassure toutefois qu'il n'a pas encore trouvé de preuves de cela. Il a ajouté, "De nouvelles questions sont publiées chaque semaine, et nous pouvons nous attendre à ce que les dernières questions soient véritablement inédites. Nous avons l'intention de garder le benchmark à jour et de suivre l'évolution des performances des modèles au fil du temps."
Le benchmark des chercheurs, comprenant environ 600 énigmes du Puzzle du Dimanche, a montré que des modèles de raisonnement comme o1 et R1 de DeepSeek surpassaient significativement les autres modèles. Ces modèles vérifient méticuleusement leurs propres faits, ce qui les aide à éviter les pièges courants. Cependant, cette minutie signifie qu'ils prennent plus de temps pour arriver à une solution — généralement de quelques secondes à quelques minutes de plus.
Chose intéressante, R1 de DeepSeek admet parfois sa défaite, disant "J'abandonne", avant de proposer une réponse incorrecte au hasard — une réaction à laquelle beaucoup d'humains peuvent s'identifier. D'autres comportements étranges observés incluent des modèles donnant une mauvaise réponse, la rétractant, tentant une autre supposition, et échouant à nouveau. Certains modèles se retrouvent coincés dans des boucles infinies de "réflexion", fournissent des explications absurdes, ou répondent correctement à une question pour ensuite explorer inutilement des réponses alternatives.
Guha a commenté le comportement de R1, disant, "Sur des problèmes difficiles, R1 dit littéralement qu'il devient 'frustré'. C'était amusant de voir comment un modèle imite ce qu'un humain pourrait dire. Il reste à voir comment la 'frustration' dans le raisonnement peut affecter la qualité des résultats des modèles."
L'actuel meilleur performeur sur le benchmark est o1, avec un score de 59 %, suivi par l'o3-mini récemment publié, réglé sur un haut "effort de raisonnement" à 47 %. R1 a obtenu 35 %. Les chercheurs prévoient d'élargir leurs tests à davantage de modèles de raisonnement, espérant identifier des domaines à améliorer.
Guha a souligné l'importance des benchmarks accessibles, déclarant, "Vous n'avez pas besoin d'un doctorat pour être bon en raisonnement, donc il devrait être possible de concevoir des benchmarks de raisonnement qui ne nécessitent pas de connaissances de niveau doctorat. Un benchmark avec un accès plus large permet à un ensemble plus vaste de chercheurs de comprendre et d'analyser les résultats, ce qui peut à son tour conduire à de meilleures solutions à l'avenir. De plus, à mesure que les modèles de pointe sont de plus en plus déployés dans des contextes qui affectent tout le monde, nous pensons que tout le monde devrait pouvoir intuitivement comprendre ce que ces modèles sont — et ne sont pas — capables de faire."



NPR's Sunday Puzzle with AI? Sounds like a brain teaser showdown! I wonder if these models can outsmart Will Shortz’s tricky wordplay. 🤔




¡Esta herramienta de IA que resuelve los rompecabezas de los domingos de NPR es genial! Es como tener un amigo listo que ama los rompecabezas tanto como yo. A veces se equivoca, pero ¿quién no? ¡Sigue así, IA! 😄




This AI tool tackling NPR's Sunday Puzzles is super cool! It's like having a brainy friend who loves puzzles as much as I do. Sometimes it gets the answers wrong, but hey, who doesn't? Keep up the good work, AI! 🤓




NPRのサンデーパズルに挑戦するこのAIツール、めっちゃ面白い!パズル好きの友達がいるみたいで嬉しい。たまに答えを間違えるけど、誰でもそうなるよね。頑張ってね、AI!😊




NPRのサンデーパズルをAIで解くのは驚きです!これらのトリッキーな質問をモデルがどれだけうまく処理するかを見るのはクールです。時々間違えることもありますが、それでも印象的です。アルゴリズムを調整し続けてくださいね!🤓




Sử dụng AI để giải các câu đố Chủ Nhật của NPR thật là đáng kinh ngạc! Thật tuyệt khi thấy các mô hình xử lý tốt những câu hỏi khó khăn này. Đôi khi chúng sai, nhưng vẫn rất ấn tượng. Cứ tiếp tục điều chỉnh các thuật toán đó, các bạn! 🤓












