Модели AI «Рассуждения», протестированные с помощью воскресной головоломки NPR.
Каждое воскресенье Уилл Шортц, создатель кроссвордов The New York Times, увлекает тысячи слушателей своим сегментом на NPR — Sunday Puzzle. Эти головоломки созданы так, чтобы их можно было решить с общими знаниями, но они представляют значительный вызов даже для опытных решателей.
Эта сложность заставляет некоторых экспертов считать Sunday Puzzle ценным инструментом для тестирования границ возможностей ИИ в решении задач.
В недавнем исследовании ученые из колледжей Уэллсли, Оберлин, Техасского университета в Остине, Северо-восточного университета, Карлова университета и стартапа Cursor разработали эталон ИИ, используя загадки из Sunday Puzzle. Их выводы выявили интересные особенности в моделях рассуждений, включая o1 от OpenAI, которые иногда «сдаются» и дают заведомо неверные ответы.
Арджун Гуха, профессор компьютерных наук Северо-восточного университета и соавтор исследования, объяснил TechCrunch, что целью было создание эталона, понятного любому с общими знаниями. Он отметил: «Мы хотели разработать эталон с задачами, которые люди могут понять, имея только общие знания».
Индустрия ИИ сталкивается с проблемой тестирования, поскольку многие тесты ориентированы на продвинутые навыки, такие как математика и наука уровня PhD, которые не актуальны для большинства пользователей. Кроме того, даже недавно выпущенные эталоны близки к насыщению.
Sunday Puzzle имеет уникальное преимущество, поскольку не требует специальных знаний, а его формат предотвращает простое воспроизведение ИИ заученных ответов, по словам Гуха. Он пояснил: «Я думаю, что сложность этих задач в том, что трудно добиться значительного прогресса, пока не решишь их — тогда всё сразу становится на свои места. Это требует сочетания интуиции и метода исключения».
Однако Sunday Puzzle не лишена ограничений. Она ориентирована на культуру США и использует только английский язык, и есть риск, что модели, обученные на этих головоломках, могут «обманывать», если ранее видели вопросы. Гуха успокаивает, что пока доказательств этого нет. Он добавил: «Новые вопросы выпускаются каждую неделю, и мы можем ожидать, что последние вопросы действительно неизвестны. Мы намерены поддерживать эталон актуальным и отслеживать, как производительность моделей меняется со временем».
Эталон исследователей, включающий около 600 загадок Sunday Puzzle, показал, что модели рассуждений, такие как o1 и R1 от DeepSeek, значительно превосходят другие модели. Эти модели тщательно проверяют себя, что помогает избегать распространенных ошибок. Однако такая тщательность означает, что им требуется больше времени на решение — обычно от нескольких секунд до минут.
Интересно, что R1 от DeepSeek иногда признаёт поражение, говоря «Я сдаюсь», прежде чем дать случайный неверный ответ — реакция, с которой многие люди могут себя ассоциировать. Среди других странных поведений замечено, что модели дают неверный ответ, отзывают его, пробуют другой и снова ошибаются. Некоторые модели застревают в бесконечных циклах «размышлений», дают бессмысленные объяснения или правильно отвечают на вопрос, но затем излишне исследуют альтернативные ответы.
Гуха прокомментировал поведение R1: «На сложных задачах R1 буквально говорит, что испытывает ‘раздражение’. Было забавно видеть, как модель имитирует то, что мог бы сказать человек. Еще предстоит выяснить, как ‘раздражение’ в рассуждениях влияет на качество результатов модели».

R1 испытывает «раздражение» на вопросе из набора Sunday Puzzle. Источник изображения: Гуха и др. Текущий лидер эталона — o1 с результатом 59%, за ним следует недавно выпущенный o3-mini с высоким «усилием рассуждений» на уровне 47%. R1 набрала 35%. Исследователи планируют расширить тестирование на другие модели рассуждений, надеясь выявить области для улучшения.

Результаты моделей, протестированных командой на их эталоне. Источник изображения: Гуха и др. Гуха подчеркнул важность доступных эталонов, заявив: «Для хорошего рассуждения не нужен PhD, поэтому должны быть возможны эталоны рассуждений, не требующие знаний уровня PhD. Эталон с более широким доступом позволяет большему числу исследователей понимать и анализировать результаты, что в будущем может привести к лучшим решениям. Кроме того, поскольку современные модели всё чаще применяются в ситуациях, затрагивающих всех, мы считаем, что каждый должен иметь возможность интуитивно понимать, на что эти модели способны — и на что нет».
Связанная статья
Salesforce представляет цифровых помощников с ИИ в Slack для конкуренции с Microsoft Copilot
Salesforce запустила новую стратегию ИИ для рабочего места, представив специализированных «цифровых помощников», интегрированных в беседы Slack, сообщила компания в понедельник.Новый инструмент, Agent
Инвестиция Oracle в $40 млрд на чипы Nvidia для AI-датцентра в Техасе
Oracle планирует инвестировать около $40 млрд в чипы Nvidia для нового крупного дата-центра в Техасе, разработанного OpenAI, как сообщает Financial Times. Эта сделка, одна из крупнейших по закупке чип
Приложение Meta AI представит премиум-уровень и рекламу
Приложение Meta AI вскоре может предложить платную подписку, аналогичную предложениям конкурентов, таких как OpenAI, Google и Microsoft. Во время отчета о доходах за первый квартал 2025 года генеральн
Комментарии (11)
StephenRamirez
22 июля 2025 г., 9:33:07 GMT+03:00
NPR's Sunday Puzzle with AI? Sounds like a brain teaser showdown! I wonder if these models can outsmart Will Shortz’s tricky wordplay. 🤔
0
PaulTaylor
20 апреля 2025 г., 0:13:34 GMT+03:00
¡Esta herramienta de IA que resuelve los rompecabezas de los domingos de NPR es genial! Es como tener un amigo listo que ama los rompecabezas tanto como yo. A veces se equivoca, pero ¿quién no? ¡Sigue así, IA! 😄
0
StephenScott
19 апреля 2025 г., 13:57:20 GMT+03:00
This AI tool tackling NPR's Sunday Puzzles is super cool! It's like having a brainy friend who loves puzzles as much as I do. Sometimes it gets the answers wrong, but hey, who doesn't? Keep up the good work, AI! 🤓
0
CharlesThomas
19 апреля 2025 г., 5:09:55 GMT+03:00
NPRのサンデーパズルに挑戦するこのAIツール、めっちゃ面白い!パズル好きの友達がいるみたいで嬉しい。たまに答えを間違えるけど、誰でもそうなるよね。頑張ってね、AI!😊
0
JackMartin
13 апреля 2025 г., 13:51:16 GMT+03:00
NPRのサンデーパズルをAIで解くのは驚きです!これらのトリッキーな質問をモデルがどれだけうまく処理するかを見るのはクールです。時々間違えることもありますが、それでも印象的です。アルゴリズムを調整し続けてくださいね!🤓
0
RichardRoberts
13 апреля 2025 г., 11:54:45 GMT+03:00
Sử dụng AI để giải các câu đố Chủ Nhật của NPR thật là đáng kinh ngạc! Thật tuyệt khi thấy các mô hình xử lý tốt những câu hỏi khó khăn này. Đôi khi chúng sai, nhưng vẫn rất ấn tượng. Cứ tiếp tục điều chỉnh các thuật toán đó, các bạn! 🤓
0
Каждое воскресенье Уилл Шортц, создатель кроссвордов The New York Times, увлекает тысячи слушателей своим сегментом на NPR — Sunday Puzzle. Эти головоломки созданы так, чтобы их можно было решить с общими знаниями, но они представляют значительный вызов даже для опытных решателей.
Эта сложность заставляет некоторых экспертов считать Sunday Puzzle ценным инструментом для тестирования границ возможностей ИИ в решении задач.
В недавнем исследовании ученые из колледжей Уэллсли, Оберлин, Техасского университета в Остине, Северо-восточного университета, Карлова университета и стартапа Cursor разработали эталон ИИ, используя загадки из Sunday Puzzle. Их выводы выявили интересные особенности в моделях рассуждений, включая o1 от OpenAI, которые иногда «сдаются» и дают заведомо неверные ответы.
Арджун Гуха, профессор компьютерных наук Северо-восточного университета и соавтор исследования, объяснил TechCrunch, что целью было создание эталона, понятного любому с общими знаниями. Он отметил: «Мы хотели разработать эталон с задачами, которые люди могут понять, имея только общие знания».
Индустрия ИИ сталкивается с проблемой тестирования, поскольку многие тесты ориентированы на продвинутые навыки, такие как математика и наука уровня PhD, которые не актуальны для большинства пользователей. Кроме того, даже недавно выпущенные эталоны близки к насыщению.
Sunday Puzzle имеет уникальное преимущество, поскольку не требует специальных знаний, а его формат предотвращает простое воспроизведение ИИ заученных ответов, по словам Гуха. Он пояснил: «Я думаю, что сложность этих задач в том, что трудно добиться значительного прогресса, пока не решишь их — тогда всё сразу становится на свои места. Это требует сочетания интуиции и метода исключения».
Однако Sunday Puzzle не лишена ограничений. Она ориентирована на культуру США и использует только английский язык, и есть риск, что модели, обученные на этих головоломках, могут «обманывать», если ранее видели вопросы. Гуха успокаивает, что пока доказательств этого нет. Он добавил: «Новые вопросы выпускаются каждую неделю, и мы можем ожидать, что последние вопросы действительно неизвестны. Мы намерены поддерживать эталон актуальным и отслеживать, как производительность моделей меняется со временем».
Эталон исследователей, включающий около 600 загадок Sunday Puzzle, показал, что модели рассуждений, такие как o1 и R1 от DeepSeek, значительно превосходят другие модели. Эти модели тщательно проверяют себя, что помогает избегать распространенных ошибок. Однако такая тщательность означает, что им требуется больше времени на решение — обычно от нескольких секунд до минут.
Интересно, что R1 от DeepSeek иногда признаёт поражение, говоря «Я сдаюсь», прежде чем дать случайный неверный ответ — реакция, с которой многие люди могут себя ассоциировать. Среди других странных поведений замечено, что модели дают неверный ответ, отзывают его, пробуют другой и снова ошибаются. Некоторые модели застревают в бесконечных циклах «размышлений», дают бессмысленные объяснения или правильно отвечают на вопрос, но затем излишне исследуют альтернативные ответы.
Гуха прокомментировал поведение R1: «На сложных задачах R1 буквально говорит, что испытывает ‘раздражение’. Было забавно видеть, как модель имитирует то, что мог бы сказать человек. Еще предстоит выяснить, как ‘раздражение’ в рассуждениях влияет на качество результатов модели».
Текущий лидер эталона — o1 с результатом 59%, за ним следует недавно выпущенный o3-mini с высоким «усилием рассуждений» на уровне 47%. R1 набрала 35%. Исследователи планируют расширить тестирование на другие модели рассуждений, надеясь выявить области для улучшения.
Гуха подчеркнул важность доступных эталонов, заявив: «Для хорошего рассуждения не нужен PhD, поэтому должны быть возможны эталоны рассуждений, не требующие знаний уровня PhD. Эталон с более широким доступом позволяет большему числу исследователей понимать и анализировать результаты, что в будущем может привести к лучшим решениям. Кроме того, поскольку современные модели всё чаще применяются в ситуациях, затрагивающих всех, мы считаем, что каждый должен иметь возможность интуитивно понимать, на что эти модели способны — и на что нет».



NPR's Sunday Puzzle with AI? Sounds like a brain teaser showdown! I wonder if these models can outsmart Will Shortz’s tricky wordplay. 🤔




¡Esta herramienta de IA que resuelve los rompecabezas de los domingos de NPR es genial! Es como tener un amigo listo que ama los rompecabezas tanto como yo. A veces se equivoca, pero ¿quién no? ¡Sigue así, IA! 😄




This AI tool tackling NPR's Sunday Puzzles is super cool! It's like having a brainy friend who loves puzzles as much as I do. Sometimes it gets the answers wrong, but hey, who doesn't? Keep up the good work, AI! 🤓




NPRのサンデーパズルに挑戦するこのAIツール、めっちゃ面白い!パズル好きの友達がいるみたいで嬉しい。たまに答えを間違えるけど、誰でもそうなるよね。頑張ってね、AI!😊




NPRのサンデーパズルをAIで解くのは驚きです!これらのトリッキーな質問をモデルがどれだけうまく処理するかを見るのはクールです。時々間違えることもありますが、それでも印象的です。アルゴリズムを調整し続けてくださいね!🤓




Sử dụng AI để giải các câu đố Chủ Nhật của NPR thật là đáng kinh ngạc! Thật tuyệt khi thấy các mô hình xử lý tốt những câu hỏi khó khăn này. Đôi khi chúng sai, nhưng vẫn rất ấn tượng. Cứ tiếp tục điều chỉnh các thuật toán đó, các bạn! 🤓












