Modèles de «raisonnement» AI testés avec les questions de puzzle du dimanche NPR

Maison

Nouvelles

10 avril 2025

JamesJones

132

# ai # research # NPR

Tous les dimanches, Will Shortz de NPR, le cerveau derrière les mots croisés du New York Times, captive des milliers d'auditeurs avec son segment, le Puzzle du Dimanche. Ces puzzles sont conçus pour être résolus avec des connaissances générales, mais ils représentent un défi significatif même pour les solveurs de puzzles chevronnés.

Cette complexité explique pourquoi certains experts estiment que le Puzzle du Dimanche pourrait servir d'outil précieux pour tester les limites des capacités de résolution de problèmes de l'IA.

Dans une étude récente, des chercheurs du Wellesley College, de l'Oberlin College, de l'Université du Texas à Austin, de l'Université Northeastern, de l'Université Charles et de la startup Cursor ont développé un benchmark d'IA en utilisant des énigmes du Puzzle du Dimanche. Leurs résultats ont révélé des comportements intrigants dans les modèles de raisonnement, y compris o1 d'OpenAI, qui parfois "abandonne" et propose des réponses incorrectes en connaissance de cause.

Arjun Guha, professeur d'informatique à Northeastern et co-auteur de l'étude, a expliqué à TechCrunch que l'objectif était de créer un benchmark compréhensible par quiconque possède des connaissances générales. Il a noté, "Nous voulions développer un benchmark avec des problèmes que les humains peuvent comprendre avec seulement des connaissances générales."

L'industrie de l'IA fait actuellement face à un défi avec les benchmarks, car de nombreux tests se concentrent sur des compétences avancées comme les mathématiques et les sciences de niveau doctorat, qui ne sont pas pertinentes pour la plupart des utilisateurs. De plus, même les benchmarks récemment publiés approchent de la saturation.

Le Puzzle du Dimanche offre un avantage unique car il ne repose pas sur des connaissances spécialisées, et son format empêche les modèles d'IA de simplement régurgiter des réponses mémorisées, selon Guha. Il a expliqué, "Je pense que ce qui rend ces problèmes difficiles, c'est qu'il est vraiment compliqué de faire des progrès significatifs sur un problème jusqu'à ce qu'on le résolve — c'est là que tout s'assemble d'un coup. Cela nécessite une combinaison d'intuition et d'un processus d'élimination."

Cependant, le Puzzle du Dimanche n'est pas sans limites. Il est centré sur la culture américaine et utilise uniquement l'anglais, et il existe un risque que les modèles entraînés sur ces puzzles puissent "tricher" s'ils ont déjà vu les questions. Guha rassure toutefois qu'il n'a pas encore trouvé de preuves de cela. Il a ajouté, "De nouvelles questions sont publiées chaque semaine, et nous pouvons nous attendre à ce que les dernières questions soient véritablement inédites. Nous avons l'intention de garder le benchmark à jour et de suivre l'évolution des performances des modèles au fil du temps."

Le benchmark des chercheurs, comprenant environ 600 énigmes du Puzzle du Dimanche, a montré que des modèles de raisonnement comme o1 et R1 de DeepSeek surpassaient significativement les autres modèles. Ces modèles vérifient méticuleusement leurs propres faits, ce qui les aide à éviter les pièges courants. Cependant, cette minutie signifie qu'ils prennent plus de temps pour arriver à une solution — généralement de quelques secondes à quelques minutes de plus.

Chose intéressante, R1 de DeepSeek admet parfois sa défaite, disant "J'abandonne", avant de proposer une réponse incorrecte au hasard — une réaction à laquelle beaucoup d'humains peuvent s'identifier. D'autres comportements étranges observés incluent des modèles donnant une mauvaise réponse, la rétractant, tentant une autre supposition, et échouant à nouveau. Certains modèles se retrouvent coincés dans des boucles infinies de "réflexion", fournissent des explications absurdes, ou répondent correctement à une question pour ensuite explorer inutilement des réponses alternatives.

Guha a commenté le comportement de R1, disant, "Sur des problèmes difficiles, R1 dit littéralement qu'il devient 'frustré'. C'était amusant de voir comment un modèle imite ce qu'un humain pourrait dire. Il reste à voir comment la 'frustration' dans le raisonnement peut affecter la qualité des résultats des modèles."

Benchmark NPR

R1 devenant “frustré” sur une question du défi du Puzzle du Dimanche. Crédits image : Guha et al.

L'actuel meilleur performeur sur le benchmark est o1, avec un score de 59 %, suivi par l'o3-mini récemment publié, réglé sur un haut "effort de raisonnement" à 47 %. R1 a obtenu 35 %. Les chercheurs prévoient d'élargir leurs tests à davantage de modèles de raisonnement, espérant identifier des domaines à améliorer.

Benchmark NPR

Les scores des modèles testés par l'équipe sur leur benchmark. Crédits image : Guha et al.

Guha a souligné l'importance des benchmarks accessibles, déclarant, "Vous n'avez pas besoin d'un doctorat pour être bon en raisonnement, donc il devrait être possible de concevoir des benchmarks de raisonnement qui ne nécessitent pas de connaissances de niveau doctorat. Un benchmark avec un accès plus large permet à un ensemble plus vaste de chercheurs de comprendre et d'analyser les résultats, ce qui peut à son tour conduire à de meilleures solutions à l'avenir. De plus, à mesure que les modèles de pointe sont de plus en plus déployés dans des contextes qui affectent tout le monde, nous pensons que tout le monde devrait pouvoir intuitivement comprendre ce que ces modèles sont — et ne sont pas — capables de faire."

Article connexe

"Dot AI Companion Appounces Closure, Discontinues Personalized Service" (L'application Dot AI Companion annonce sa fermeture et interrompt son service personnalisé) Dot, une application d'IA conçue pour servir d'ami personnel et de confident, va cesser ses activités, selon une annonce faite vendredi par ses développeurs. New Computer, la startup à l'origine de Do

Anthropic résout une affaire de piratage de livres générés par l'IA Anthropic a trouvé une solution à un important litige en matière de droits d'auteur avec des auteurs américains, en acceptant une proposition de règlement de recours collectif qui évite un procès pote

Figma met à la disposition de tous les utilisateurs un outil de création d'applications basé sur l'IA Figma Make, la plateforme de développement innovante de type prompt-to-app dévoilée au début de l'année, est officiellement sortie de la phase bêta et a été déployée pour tous les utilisateurs. Cet ou

commentaires (11)

0/200

Soumettre

StephenRamirez

22 juillet 2025 08:33:07 UTC+02:00

NPR's Sunday Puzzle with AI? Sounds like a brain teaser showdown! I wonder if these models can outsmart Will Shortz’s tricky wordplay. 🤔

PaulTaylor

19 avril 2025 23:13:34 UTC+02:00

¡Esta herramienta de IA que resuelve los rompecabezas de los domingos de NPR es genial! Es como tener un amigo listo que ama los rompecabezas tanto como yo. A veces se equivoca, pero ¿quién no? ¡Sigue así, IA! 😄

StephenScott

19 avril 2025 12:57:20 UTC+02:00

This AI tool tackling NPR's Sunday Puzzles is super cool! It's like having a brainy friend who loves puzzles as much as I do. Sometimes it gets the answers wrong, but hey, who doesn't? Keep up the good work, AI! 🤓

CharlesThomas

19 avril 2025 04:09:55 UTC+02:00

NPRのサンデーパズルに挑戦するこのAIツール、めっちゃ面白い！パズル好きの友達がいるみたいで嬉しい。たまに答えを間違えるけど、誰でもそうなるよね。頑張ってね、AI！😊

JackMartin

13 avril 2025 12:51:16 UTC+02:00

NPRのサンデーパズルをAIで解くのは驚きです！これらのトリッキーな質問をモデルがどれだけうまく処理するかを見るのはクールです。時々間違えることもありますが、それでも印象的です。アルゴリズムを調整し続けてくださいね！🤓

RichardRoberts

13 avril 2025 10:54:45 UTC+02:00

Sử dụng AI để giải các câu đố Chủ Nhật của NPR thật là đáng kinh ngạc! Thật tuyệt khi thấy các mô hình xử lý tốt những câu hỏi khó khăn này. Đôi khi chúng sai, nhưng vẫn rất ấn tượng. Cứ tiếp tục điều chỉnh các thuật toán đó, các bạn! 🤓

Top nouvelles

Meilleurs Générateurs de Vidéos IA en 2025 : Pika Labs vs Alternatives Gemini 2.5 Pro maintenant illimité et moins cher que Claude, GPT-4O Doublage par IA : Guide ultime pour la création de voix réalistes L'IA du cambium transforme le bois de déchet en bois AI Builder et Power Automate Révolutionnent la Synthèse de Documents OpenAI améliore l'assistant vocal AI pour de meilleurs chats Comment vous assurer que vos données sont dignes de confiance pour l'intégration de l'IA Notebooklm se développe à l'échelle mondiale, ajoute des diapositives et une vérification des faits améliorée Les ajustements aux centres de données américains pourraient débloquer 76 GW de nouvelle capacité d'énergie Google utilise l'IA pour suspendre plus de 39 millions de comptes d'annonces pour une fraude présumée

Plus

En vedette