Модели AI «Рассуждения», протестированные с помощью воскресной головоломки NPR.
Каждое воскресенье Уилл Шортц, создатель кроссвордов The New York Times, увлекает тысячи слушателей своим сегментом на NPR — Sunday Puzzle. Эти головоломки созданы так, чтобы их можно было решить с общими знаниями, но они представляют значительный вызов даже для опытных решателей.
Эта сложность заставляет некоторых экспертов считать Sunday Puzzle ценным инструментом для тестирования границ возможностей ИИ в решении задач.
В недавнем исследовании ученые из колледжей Уэллсли, Оберлин, Техасского университета в Остине, Северо-восточного университета, Карлова университета и стартапа Cursor разработали эталон ИИ, используя загадки из Sunday Puzzle. Их выводы выявили интересные особенности в моделях рассуждений, включая o1 от OpenAI, которые иногда «сдаются» и дают заведомо неверные ответы.
Арджун Гуха, профессор компьютерных наук Северо-восточного университета и соавтор исследования, объяснил TechCrunch, что целью было создание эталона, понятного любому с общими знаниями. Он отметил: «Мы хотели разработать эталон с задачами, которые люди могут понять, имея только общие знания».
Индустрия ИИ сталкивается с проблемой тестирования, поскольку многие тесты ориентированы на продвинутые навыки, такие как математика и наука уровня PhD, которые не актуальны для большинства пользователей. Кроме того, даже недавно выпущенные эталоны близки к насыщению.
Sunday Puzzle имеет уникальное преимущество, поскольку не требует специальных знаний, а его формат предотвращает простое воспроизведение ИИ заученных ответов, по словам Гуха. Он пояснил: «Я думаю, что сложность этих задач в том, что трудно добиться значительного прогресса, пока не решишь их — тогда всё сразу становится на свои места. Это требует сочетания интуиции и метода исключения».
Однако Sunday Puzzle не лишена ограничений. Она ориентирована на культуру США и использует только английский язык, и есть риск, что модели, обученные на этих головоломках, могут «обманывать», если ранее видели вопросы. Гуха успокаивает, что пока доказательств этого нет. Он добавил: «Новые вопросы выпускаются каждую неделю, и мы можем ожидать, что последние вопросы действительно неизвестны. Мы намерены поддерживать эталон актуальным и отслеживать, как производительность моделей меняется со временем».
Эталон исследователей, включающий около 600 загадок Sunday Puzzle, показал, что модели рассуждений, такие как o1 и R1 от DeepSeek, значительно превосходят другие модели. Эти модели тщательно проверяют себя, что помогает избегать распространенных ошибок. Однако такая тщательность означает, что им требуется больше времени на решение — обычно от нескольких секунд до минут.
Интересно, что R1 от DeepSeek иногда признаёт поражение, говоря «Я сдаюсь», прежде чем дать случайный неверный ответ — реакция, с которой многие люди могут себя ассоциировать. Среди других странных поведений замечено, что модели дают неверный ответ, отзывают его, пробуют другой и снова ошибаются. Некоторые модели застревают в бесконечных циклах «размышлений», дают бессмысленные объяснения или правильно отвечают на вопрос, но затем излишне исследуют альтернативные ответы.
Гуха прокомментировал поведение R1: «На сложных задачах R1 буквально говорит, что испытывает ‘раздражение’. Было забавно видеть, как модель имитирует то, что мог бы сказать человек. Еще предстоит выяснить, как ‘раздражение’ в рассуждениях влияет на качество результатов модели».

R1 испытывает «раздражение» на вопросе из набора Sunday Puzzle. Источник изображения: Гуха и др. Текущий лидер эталона — o1 с результатом 59%, за ним следует недавно выпущенный o3-mini с высоким «усилием рассуждений» на уровне 47%. R1 набрала 35%. Исследователи планируют расширить тестирование на другие модели рассуждений, надеясь выявить области для улучшения.

Результаты моделей, протестированных командой на их эталоне. Источник изображения: Гуха и др. Гуха подчеркнул важность доступных эталонов, заявив: «Для хорошего рассуждения не нужен PhD, поэтому должны быть возможны эталоны рассуждений, не требующие знаний уровня PhD. Эталон с более широким доступом позволяет большему числу исследователей понимать и анализировать результаты, что в будущем может привести к лучшим решениям. Кроме того, поскольку современные модели всё чаще применяются в ситуациях, затрагивающих всех, мы считаем, что каждый должен иметь возможность интуитивно понимать, на что эти модели способны — и на что нет».
Связанная статья
WordPress.com теперь позволяет ИИ-ботам создавать и публиковать посты, а также выполнять другие задачи
WordPress.com, популярная платформа для веб-хостинга и публикации контента, теперь внедряет ИИ-агентов — шаг, который может кардинально изменить облик и функциональность Интернета. В пятницу компания
Kakao Mobility представляет план развития автономного вождения 4-го уровня с использованием физического ИИ
Компания Kakao Mobility планирует самостоятельно разрабатывать технологии автономного вождения 4-го уровня в рамках своей стратегии «физического ИИ».На конференции World IT Show 2026, прошедшей в сеу
Барри Диллер: доверие к Сэму Альтману теряет значение по мере приближения эры общей искусственной интеллигенции
Миллиардер и медиа-магнат Барри Диллер не считает генерального директора OpenAI Сэма Альтмана недостойным доверия, несмотря на недавние сообщения, свидетельствующие об обратном. Выступая на этой недел
Рекомендации по связанным специальным темам
Комментарии (12)
Die Vorstellung, dass KI solche Puzzles löst, ist faszinierend. Aber wie weit kann diese 'Argumentationsfähigkeit' wirklich gehen? Ich frage mich, ob das mehr ist als nur komplexe Mustererkennung. Die ethischen Implikationen, wenn diese Systeme 'echtes' Denken simulieren könnten, sind beängstigend. 🤔
NPR's Sunday Puzzle with AI? Sounds like a brain teaser showdown! I wonder if these models can outsmart Will Shortz’s tricky wordplay. 🤔
¡Esta herramienta de IA que resuelve los rompecabezas de los domingos de NPR es genial! Es como tener un amigo listo que ama los rompecabezas tanto como yo. A veces se equivoca, pero ¿quién no? ¡Sigue así, IA! 😄
This AI tool tackling NPR's Sunday Puzzles is super cool! It's like having a brainy friend who loves puzzles as much as I do. Sometimes it gets the answers wrong, but hey, who doesn't? Keep up the good work, AI! 🤓
Каждое воскресенье Уилл Шортц, создатель кроссвордов The New York Times, увлекает тысячи слушателей своим сегментом на NPR — Sunday Puzzle. Эти головоломки созданы так, чтобы их можно было решить с общими знаниями, но они представляют значительный вызов даже для опытных решателей.
Эта сложность заставляет некоторых экспертов считать Sunday Puzzle ценным инструментом для тестирования границ возможностей ИИ в решении задач.
В недавнем исследовании ученые из колледжей Уэллсли, Оберлин, Техасского университета в Остине, Северо-восточного университета, Карлова университета и стартапа Cursor разработали эталон ИИ, используя загадки из Sunday Puzzle. Их выводы выявили интересные особенности в моделях рассуждений, включая o1 от OpenAI, которые иногда «сдаются» и дают заведомо неверные ответы.
Арджун Гуха, профессор компьютерных наук Северо-восточного университета и соавтор исследования, объяснил TechCrunch, что целью было создание эталона, понятного любому с общими знаниями. Он отметил: «Мы хотели разработать эталон с задачами, которые люди могут понять, имея только общие знания».
Индустрия ИИ сталкивается с проблемой тестирования, поскольку многие тесты ориентированы на продвинутые навыки, такие как математика и наука уровня PhD, которые не актуальны для большинства пользователей. Кроме того, даже недавно выпущенные эталоны близки к насыщению.
Sunday Puzzle имеет уникальное преимущество, поскольку не требует специальных знаний, а его формат предотвращает простое воспроизведение ИИ заученных ответов, по словам Гуха. Он пояснил: «Я думаю, что сложность этих задач в том, что трудно добиться значительного прогресса, пока не решишь их — тогда всё сразу становится на свои места. Это требует сочетания интуиции и метода исключения».
Однако Sunday Puzzle не лишена ограничений. Она ориентирована на культуру США и использует только английский язык, и есть риск, что модели, обученные на этих головоломках, могут «обманывать», если ранее видели вопросы. Гуха успокаивает, что пока доказательств этого нет. Он добавил: «Новые вопросы выпускаются каждую неделю, и мы можем ожидать, что последние вопросы действительно неизвестны. Мы намерены поддерживать эталон актуальным и отслеживать, как производительность моделей меняется со временем».
Эталон исследователей, включающий около 600 загадок Sunday Puzzle, показал, что модели рассуждений, такие как o1 и R1 от DeepSeek, значительно превосходят другие модели. Эти модели тщательно проверяют себя, что помогает избегать распространенных ошибок. Однако такая тщательность означает, что им требуется больше времени на решение — обычно от нескольких секунд до минут.
Интересно, что R1 от DeepSeek иногда признаёт поражение, говоря «Я сдаюсь», прежде чем дать случайный неверный ответ — реакция, с которой многие люди могут себя ассоциировать. Среди других странных поведений замечено, что модели дают неверный ответ, отзывают его, пробуют другой и снова ошибаются. Некоторые модели застревают в бесконечных циклах «размышлений», дают бессмысленные объяснения или правильно отвечают на вопрос, но затем излишне исследуют альтернативные ответы.
Гуха прокомментировал поведение R1: «На сложных задачах R1 буквально говорит, что испытывает ‘раздражение’. Было забавно видеть, как модель имитирует то, что мог бы сказать человек. Еще предстоит выяснить, как ‘раздражение’ в рассуждениях влияет на качество результатов модели».

Текущий лидер эталона — o1 с результатом 59%, за ним следует недавно выпущенный o3-mini с высоким «усилием рассуждений» на уровне 47%. R1 набрала 35%. Исследователи планируют расширить тестирование на другие модели рассуждений, надеясь выявить области для улучшения.

Гуха подчеркнул важность доступных эталонов, заявив: «Для хорошего рассуждения не нужен PhD, поэтому должны быть возможны эталоны рассуждений, не требующие знаний уровня PhD. Эталон с более широким доступом позволяет большему числу исследователей понимать и анализировать результаты, что в будущем может привести к лучшим решениям. Кроме того, поскольку современные модели всё чаще применяются в ситуациях, затрагивающих всех, мы считаем, что каждый должен иметь возможность интуитивно понимать, на что эти модели способны — и на что нет».
WordPress.com теперь позволяет ИИ-ботам создавать и публиковать посты, а также выполнять другие задачи
WordPress.com, популярная платформа для веб-хостинга и публикации контента, теперь внедряет ИИ-агентов — шаг, который может кардинально изменить облик и функциональность Интернета. В пятницу компания
Барри Диллер: доверие к Сэму Альтману теряет значение по мере приближения эры общей искусственной интеллигенции
Миллиардер и медиа-магнат Барри Диллер не считает генерального директора OpenAI Сэма Альтмана недостойным доверия, несмотря на недавние сообщения, свидетельствующие об обратном. Выступая на этой недел
Die Vorstellung, dass KI solche Puzzles löst, ist faszinierend. Aber wie weit kann diese 'Argumentationsfähigkeit' wirklich gehen? Ich frage mich, ob das mehr ist als nur komplexe Mustererkennung. Die ethischen Implikationen, wenn diese Systeme 'echtes' Denken simulieren könnten, sind beängstigend. 🤔
NPR's Sunday Puzzle with AI? Sounds like a brain teaser showdown! I wonder if these models can outsmart Will Shortz’s tricky wordplay. 🤔
¡Esta herramienta de IA que resuelve los rompecabezas de los domingos de NPR es genial! Es como tener un amigo listo que ama los rompecabezas tanto como yo. A veces se equivoca, pero ¿quién no? ¡Sigue así, IA! 😄
This AI tool tackling NPR's Sunday Puzzles is super cool! It's like having a brainy friend who loves puzzles as much as I do. Sometimes it gets the answers wrong, but hey, who doesn't? Keep up the good work, AI! 🤓





Дом






