Модели AI «Рассуждения», протестированные с помощью воскресной головоломки NPR.
Каждое воскресенье Уилл Шортц, создатель кроссвордов The New York Times, увлекает тысячи слушателей своим сегментом на NPR — Sunday Puzzle. Эти головоломки созданы так, чтобы их можно было решить с общими знаниями, но они представляют значительный вызов даже для опытных решателей.
Эта сложность заставляет некоторых экспертов считать Sunday Puzzle ценным инструментом для тестирования границ возможностей ИИ в решении задач.
В недавнем исследовании ученые из колледжей Уэллсли, Оберлин, Техасского университета в Остине, Северо-восточного университета, Карлова университета и стартапа Cursor разработали эталон ИИ, используя загадки из Sunday Puzzle. Их выводы выявили интересные особенности в моделях рассуждений, включая o1 от OpenAI, которые иногда «сдаются» и дают заведомо неверные ответы.
Арджун Гуха, профессор компьютерных наук Северо-восточного университета и соавтор исследования, объяснил TechCrunch, что целью было создание эталона, понятного любому с общими знаниями. Он отметил: «Мы хотели разработать эталон с задачами, которые люди могут понять, имея только общие знания».
Индустрия ИИ сталкивается с проблемой тестирования, поскольку многие тесты ориентированы на продвинутые навыки, такие как математика и наука уровня PhD, которые не актуальны для большинства пользователей. Кроме того, даже недавно выпущенные эталоны близки к насыщению.
Sunday Puzzle имеет уникальное преимущество, поскольку не требует специальных знаний, а его формат предотвращает простое воспроизведение ИИ заученных ответов, по словам Гуха. Он пояснил: «Я думаю, что сложность этих задач в том, что трудно добиться значительного прогресса, пока не решишь их — тогда всё сразу становится на свои места. Это требует сочетания интуиции и метода исключения».
Однако Sunday Puzzle не лишена ограничений. Она ориентирована на культуру США и использует только английский язык, и есть риск, что модели, обученные на этих головоломках, могут «обманывать», если ранее видели вопросы. Гуха успокаивает, что пока доказательств этого нет. Он добавил: «Новые вопросы выпускаются каждую неделю, и мы можем ожидать, что последние вопросы действительно неизвестны. Мы намерены поддерживать эталон актуальным и отслеживать, как производительность моделей меняется со временем».
Эталон исследователей, включающий около 600 загадок Sunday Puzzle, показал, что модели рассуждений, такие как o1 и R1 от DeepSeek, значительно превосходят другие модели. Эти модели тщательно проверяют себя, что помогает избегать распространенных ошибок. Однако такая тщательность означает, что им требуется больше времени на решение — обычно от нескольких секунд до минут.
Интересно, что R1 от DeepSeek иногда признаёт поражение, говоря «Я сдаюсь», прежде чем дать случайный неверный ответ — реакция, с которой многие люди могут себя ассоциировать. Среди других странных поведений замечено, что модели дают неверный ответ, отзывают его, пробуют другой и снова ошибаются. Некоторые модели застревают в бесконечных циклах «размышлений», дают бессмысленные объяснения или правильно отвечают на вопрос, но затем излишне исследуют альтернативные ответы.
Гуха прокомментировал поведение R1: «На сложных задачах R1 буквально говорит, что испытывает ‘раздражение’. Было забавно видеть, как модель имитирует то, что мог бы сказать человек. Еще предстоит выяснить, как ‘раздражение’ в рассуждениях влияет на качество результатов модели».

R1 испытывает «раздражение» на вопросе из набора Sunday Puzzle. Источник изображения: Гуха и др. Текущий лидер эталона — o1 с результатом 59%, за ним следует недавно выпущенный o3-mini с высоким «усилием рассуждений» на уровне 47%. R1 набрала 35%. Исследователи планируют расширить тестирование на другие модели рассуждений, надеясь выявить области для улучшения.

Результаты моделей, протестированных командой на их эталоне. Источник изображения: Гуха и др. Гуха подчеркнул важность доступных эталонов, заявив: «Для хорошего рассуждения не нужен PhD, поэтому должны быть возможны эталоны рассуждений, не требующие знаний уровня PhD. Эталон с более широким доступом позволяет большему числу исследователей понимать и анализировать результаты, что в будущем может привести к лучшим решениям. Кроме того, поскольку современные модели всё чаще применяются в ситуациях, затрагивающих всех, мы считаем, что каждый должен иметь возможность интуитивно понимать, на что эти модели способны — и на что нет».
Связанная статья
"Dot AI Companion объявляет о закрытии и прекращает предоставление персонализированных услуг"
Dot, приложение-компаньон с искусственным интеллектом, предназначенное для работы в качестве личного друга и доверенного лица, прекращает свою работу, как сообщили в пятницу его разработчики. New Comp
Anthropic разрешила судебное дело о пиратстве книг, созданных искусственным интеллектом
Компания Anthropic достигла разрешения значительного спора с американскими авторами по поводу авторских прав, согласившись на предложенное урегулирование коллективного иска, которое позволит избежать
Figma выпустила инструмент для создания приложений на основе искусственного интеллекта для всех пользователей
Figma Make, инновационная платформа для разработки приложений с подсказками, представленная ранее в этом году, официально вышла из бета-версии и стала доступна для всех пользователей. Этот революционн
Комментарии (11)
StephenRamirez
22 июля 2025 г., 9:33:07 GMT+03:00
NPR's Sunday Puzzle with AI? Sounds like a brain teaser showdown! I wonder if these models can outsmart Will Shortz’s tricky wordplay. 🤔
0
PaulTaylor
20 апреля 2025 г., 0:13:34 GMT+03:00
¡Esta herramienta de IA que resuelve los rompecabezas de los domingos de NPR es genial! Es como tener un amigo listo que ama los rompecabezas tanto como yo. A veces se equivoca, pero ¿quién no? ¡Sigue así, IA! 😄
0
StephenScott
19 апреля 2025 г., 13:57:20 GMT+03:00
This AI tool tackling NPR's Sunday Puzzles is super cool! It's like having a brainy friend who loves puzzles as much as I do. Sometimes it gets the answers wrong, but hey, who doesn't? Keep up the good work, AI! 🤓
0
CharlesThomas
19 апреля 2025 г., 5:09:55 GMT+03:00
NPRのサンデーパズルに挑戦するこのAIツール、めっちゃ面白い!パズル好きの友達がいるみたいで嬉しい。たまに答えを間違えるけど、誰でもそうなるよね。頑張ってね、AI!😊
0
JackMartin
13 апреля 2025 г., 13:51:16 GMT+03:00
NPRのサンデーパズルをAIで解くのは驚きです!これらのトリッキーな質問をモデルがどれだけうまく処理するかを見るのはクールです。時々間違えることもありますが、それでも印象的です。アルゴリズムを調整し続けてくださいね!🤓
0
RichardRoberts
13 апреля 2025 г., 11:54:45 GMT+03:00
Sử dụng AI để giải các câu đố Chủ Nhật của NPR thật là đáng kinh ngạc! Thật tuyệt khi thấy các mô hình xử lý tốt những câu hỏi khó khăn này. Đôi khi chúng sai, nhưng vẫn rất ấn tượng. Cứ tiếp tục điều chỉnh các thuật toán đó, các bạn! 🤓
0
Каждое воскресенье Уилл Шортц, создатель кроссвордов The New York Times, увлекает тысячи слушателей своим сегментом на NPR — Sunday Puzzle. Эти головоломки созданы так, чтобы их можно было решить с общими знаниями, но они представляют значительный вызов даже для опытных решателей.
Эта сложность заставляет некоторых экспертов считать Sunday Puzzle ценным инструментом для тестирования границ возможностей ИИ в решении задач.
В недавнем исследовании ученые из колледжей Уэллсли, Оберлин, Техасского университета в Остине, Северо-восточного университета, Карлова университета и стартапа Cursor разработали эталон ИИ, используя загадки из Sunday Puzzle. Их выводы выявили интересные особенности в моделях рассуждений, включая o1 от OpenAI, которые иногда «сдаются» и дают заведомо неверные ответы.
Арджун Гуха, профессор компьютерных наук Северо-восточного университета и соавтор исследования, объяснил TechCrunch, что целью было создание эталона, понятного любому с общими знаниями. Он отметил: «Мы хотели разработать эталон с задачами, которые люди могут понять, имея только общие знания».
Индустрия ИИ сталкивается с проблемой тестирования, поскольку многие тесты ориентированы на продвинутые навыки, такие как математика и наука уровня PhD, которые не актуальны для большинства пользователей. Кроме того, даже недавно выпущенные эталоны близки к насыщению.
Sunday Puzzle имеет уникальное преимущество, поскольку не требует специальных знаний, а его формат предотвращает простое воспроизведение ИИ заученных ответов, по словам Гуха. Он пояснил: «Я думаю, что сложность этих задач в том, что трудно добиться значительного прогресса, пока не решишь их — тогда всё сразу становится на свои места. Это требует сочетания интуиции и метода исключения».
Однако Sunday Puzzle не лишена ограничений. Она ориентирована на культуру США и использует только английский язык, и есть риск, что модели, обученные на этих головоломках, могут «обманывать», если ранее видели вопросы. Гуха успокаивает, что пока доказательств этого нет. Он добавил: «Новые вопросы выпускаются каждую неделю, и мы можем ожидать, что последние вопросы действительно неизвестны. Мы намерены поддерживать эталон актуальным и отслеживать, как производительность моделей меняется со временем».
Эталон исследователей, включающий около 600 загадок Sunday Puzzle, показал, что модели рассуждений, такие как o1 и R1 от DeepSeek, значительно превосходят другие модели. Эти модели тщательно проверяют себя, что помогает избегать распространенных ошибок. Однако такая тщательность означает, что им требуется больше времени на решение — обычно от нескольких секунд до минут.
Интересно, что R1 от DeepSeek иногда признаёт поражение, говоря «Я сдаюсь», прежде чем дать случайный неверный ответ — реакция, с которой многие люди могут себя ассоциировать. Среди других странных поведений замечено, что модели дают неверный ответ, отзывают его, пробуют другой и снова ошибаются. Некоторые модели застревают в бесконечных циклах «размышлений», дают бессмысленные объяснения или правильно отвечают на вопрос, но затем излишне исследуют альтернативные ответы.
Гуха прокомментировал поведение R1: «На сложных задачах R1 буквально говорит, что испытывает ‘раздражение’. Было забавно видеть, как модель имитирует то, что мог бы сказать человек. Еще предстоит выяснить, как ‘раздражение’ в рассуждениях влияет на качество результатов модели».
Текущий лидер эталона — o1 с результатом 59%, за ним следует недавно выпущенный o3-mini с высоким «усилием рассуждений» на уровне 47%. R1 набрала 35%. Исследователи планируют расширить тестирование на другие модели рассуждений, надеясь выявить области для улучшения.
Гуха подчеркнул важность доступных эталонов, заявив: «Для хорошего рассуждения не нужен PhD, поэтому должны быть возможны эталоны рассуждений, не требующие знаний уровня PhD. Эталон с более широким доступом позволяет большему числу исследователей понимать и анализировать результаты, что в будущем может привести к лучшим решениям. Кроме того, поскольку современные модели всё чаще применяются в ситуациях, затрагивающих всех, мы считаем, что каждый должен иметь возможность интуитивно понимать, на что эти модели способны — и на что нет».



NPR's Sunday Puzzle with AI? Sounds like a brain teaser showdown! I wonder if these models can outsmart Will Shortz’s tricky wordplay. 🤔




¡Esta herramienta de IA que resuelve los rompecabezas de los domingos de NPR es genial! Es como tener un amigo listo que ama los rompecabezas tanto como yo. A veces se equivoca, pero ¿quién no? ¡Sigue así, IA! 😄




This AI tool tackling NPR's Sunday Puzzles is super cool! It's like having a brainy friend who loves puzzles as much as I do. Sometimes it gets the answers wrong, but hey, who doesn't? Keep up the good work, AI! 🤓




NPRのサンデーパズルに挑戦するこのAIツール、めっちゃ面白い!パズル好きの友達がいるみたいで嬉しい。たまに答えを間違えるけど、誰でもそうなるよね。頑張ってね、AI!😊




NPRのサンデーパズルをAIで解くのは驚きです!これらのトリッキーな質問をモデルがどれだけうまく処理するかを見るのはクールです。時々間違えることもありますが、それでも印象的です。アルゴリズムを調整し続けてくださいね!🤓




Sử dụng AI để giải các câu đố Chủ Nhật của NPR thật là đáng kinh ngạc! Thật tuyệt khi thấy các mô hình xử lý tốt những câu hỏi khó khăn này. Đôi khi chúng sai, nhưng vẫn rất ấn tượng. Cứ tiếp tục điều chỉnh các thuật toán đó, các bạn! 🤓












