ИИ не справляется с чтением часов, а люди превосходят его в тестах на распознавание времени

Дом

Новости

16 октября 2025 г.

RalphGarcia

# ai

Знаменательная оценка, в которой 11 передовых систем искусственного интеллекта сравнивались с человеческими показателями при чтении аналоговых часов, выявила значительные уязвимости в современных архитектурах машинного обучения. В то время как люди продемонстрировали поразительную точность в определении времени на 89,1 %, даже самая высокопроизводительная модель ИИ от Google достигла всего 13,3 % успеха в идентичных условиях тестирования.

Исследование ClockBench, проведенное под руководством исследователя Алека Сафара, подчеркивает, что фундаментальные задачи визуального мышления, которые обычно осваивают дети, по-прежнему бросают вызов самым сложным алгоритмам ИИ. В ходе тщательной оценки были изучены платформы от лидеров индустрии, включая Google, OpenAI и Anthropic, с использованием 180 специально созданных аналоговых часов.

Полученные результаты указывают на более глубокие структурные проблемы в том, как нейронные сети обрабатывают и интерпретируют визуальные данные. "Точное чтение аналоговых часов требует сложных пространственных рассуждений в визуальных контекстах, - объясняет Сафар в опубликованном исследовании. Многоступенчатый когнитивный процесс включает в себя распознавание руки, анализ положения и преобразование цифр - операции, которые выявляют критические недостатки ИИ".

Особенно показателен контраст в моделях ошибок. Человеческие ошибки обычно приводили к незначительным отклонениям примерно на три минуты, в то время как системы ИИ давали дико неточные оценки, в среднем на 1-3 часа, что фактически эквивалентно случайным угадываниям на стандартном циферблате часов.

Ключевые ограничения производительности

Платформы искусственного интеллекта продемонстрировали заметные трудности с:

циферблаты с римскими цифрами (точность составила всего 3,2%)
Обратная или зеркальная ориентация часов
Визуально сложные фоны и художественное оформление
Точное измерение положения секундной стрелки

Выяснилось следующее: когда системы ИИ правильно интерпретировали начальные показания часов, они впоследствии превосходили их в вычислениях, основанных на времени, таких как конвертация и арифметика. Это указывает на то, что основное препятствие заключается в визуальном восприятии, а не в способности к математической обработке.

Сравнительный анализ отрасли

Gemini 2.5 Pro от Google лидирует среди коммерческих предложений с точностью 13,3 %, за ним следует Gemini 2.5 Flash с точностью 10,5 %. GPT-5 от OpenAI показал 8,4 % правильных ответов, в то время как модели Claude от Anthropic оказались хуже: Claude 4 Sonnet достиг всего 4,2 %, а Claude 4.1 Opus - 5,6 %.

Модель Grok 4 от xAI показала особенно впечатляющие результаты - 0,7 % точности, в основном из-за того, что 63 % правильных часов были неверно определены как показывающие невозможное время, хотя только 20,6 % на самом деле имели неправильную конфигурацию.

Фундаментальные последствия для развития ИИ

Данное исследование расширяет парадигму "человек-простой, ИИ-сложный" эталонов, примером которой являются такие инициативы, как ARC-AGI и SimpleBench. В то время как искусственный интеллект добился сверхчеловеческих результатов в многочисленных оценках знаний и профессиональных экзаменах, примитивное визуальное мышление представляет собой постоянную проблему.

Анализ, проведенный Сафаром, показывает, что текущая методология увеличения размера модели и тренировочных данных может неэффективно устранять эти ограничения визуальной обработки. Два предположительных фактора включают недостаточное представление аналоговых часов в учебных корпорациях и присущие им трудности в переводе пространственных отношений между графическими компонентами часов и текстовыми представлениями.

ClockBench присоединяется к расширяющемуся набору диагностических инструментов, предназначенных для выявления неочевидных пробелов в возможностях ИИ. Для сохранения целостности оценки полный набор данных остается ограниченным, чтобы предотвратить загрязнение будущих моделей обучения, а для проверки доступны только контролируемые подмножества образцов.

Полученные результаты провоцируют важные вопросы о том, могут ли постепенные усовершенствования существующих архитектур устранить эти недостатки рассуждений или же требуются принципиально новые подходы - зеркальное отражение исторических прорывов, обеспечиваемых такими инновациями, как вычисления в тестовое время, в других областях ИИ.

В обозримом будущем механические аналоговые часы станут неожиданно надежным эталоном человеческого интеллекта - технология, которую мы можем без труда интерпретировать, продолжает озадачивать наши самые передовые вычислительные творения.

Связанная статья

Microsoft предлагает бесплатные услуги искусственного интеллекта Copilot для государственных служащих США Правительство США внедряет искусственный интеллект с помощью Microsoft CopilotФедеральные служащие США скоро получат помощь искусственного интеллекта на своих устройствах без дополнительной платы благ

ИИ не справляется с чтением часов, а люди превосходят его в тестах на распознавание времени Знаменательная оценка, в которой 11 передовых систем искусственного интеллекта сравнивались с человеческими показателями при чтении аналоговых часов, выявила значительные уязвимости в современных архи

Режим искусственного интеллекта в Google Search теперь помогает визуализировать домашние задания Google расширяет режим искусственного интеллекта с помощью революционных функций, специально разработанных для помощи студентам в учебе и самостоятельном обучении. Последнее обновление вводит загрузку

Комментарии (0)

0/200

Представлять на рассмотрение

Лучшие новости

Топовые генераторы видео на AI в 2025: Pika Labs по сравнению с альтернативами Gemini 2.5 Pro в настоящее время неограничен и дешевле, чем Claude, GPT-4O Озвучка с помощью ИИ: Ультимативное руководство по созданию реалистичных голосов ИИ AI Builder и Power Automate Революционизируют Суммирование Документов ИИ Cambium превращает отходы в пиломатериалы Duolingo Переходит на Систему Энергии OpenAI улучшает AI Voice Assistant для лучших чатов Как гарантировать, что ваши данные заслуживают доверия для интеграции искусственного интеллекта NoteBooklm расширяется во всем мире, добавляет слайды и расширенную проверку фактов Настройки для дата -центров США могут разблокировать 76 ГВт новой мощности.

Более

Показан