Знаменательная оценка, в которой 11 передовых систем искусственного интеллекта сравнивались с человеческими показателями при чтении аналоговых часов, выявила значительные уязвимости в современных архитектурах машинного обучения. В то время как люди продемонстрировали поразительную точность в определении времени на 89,1 %, даже самая высокопроизводительная модель ИИ от Google достигла всего 13,3 % успеха в идентичных условиях тестирования.
Исследование ClockBench, проведенное под руководством исследователя Алека Сафара, подчеркивает, что фундаментальные задачи визуального мышления, которые обычно осваивают дети, по-прежнему бросают вызов самым сложным алгоритмам ИИ. В ходе тщательной оценки были изучены платформы от лидеров индустрии, включая Google, OpenAI и Anthropic, с использованием 180 специально созданных аналоговых часов.
Полученные результаты указывают на более глубокие структурные проблемы в том, как нейронные сети обрабатывают и интерпретируют визуальные данные. "Точное чтение аналоговых часов требует сложных пространственных рассуждений в визуальных контекстах, - объясняет Сафар в опубликованном исследовании. Многоступенчатый когнитивный процесс включает в себя распознавание руки, анализ положения и преобразование цифр - операции, которые выявляют критические недостатки ИИ".
Особенно показателен контраст в моделях ошибок. Человеческие ошибки обычно приводили к незначительным отклонениям примерно на три минуты, в то время как системы ИИ давали дико неточные оценки, в среднем на 1-3 часа, что фактически эквивалентно случайным угадываниям на стандартном циферблате часов.
Ключевые ограничения производительности
Платформы искусственного интеллекта продемонстрировали заметные трудности с:
- циферблаты с римскими цифрами (точность составила всего 3,2%)
- Обратная или зеркальная ориентация часов
- Визуально сложные фоны и художественное оформление
- Точное измерение положения секундной стрелки
Выяснилось следующее: когда системы ИИ правильно интерпретировали начальные показания часов, они впоследствии превосходили их в вычислениях, основанных на времени, таких как конвертация и арифметика. Это указывает на то, что основное препятствие заключается в визуальном восприятии, а не в способности к математической обработке.
Сравнительный анализ отрасли
Gemini 2.5 Pro от Google лидирует среди коммерческих предложений с точностью 13,3 %, за ним следует Gemini 2.5 Flash с точностью 10,5 %. GPT-5 от OpenAI показал 8,4 % правильных ответов, в то время как модели Claude от Anthropic оказались хуже: Claude 4 Sonnet достиг всего 4,2 %, а Claude 4.1 Opus - 5,6 %.
Модель Grok 4 от xAI показала особенно впечатляющие результаты - 0,7 % точности, в основном из-за того, что 63 % правильных часов были неверно определены как показывающие невозможное время, хотя только 20,6 % на самом деле имели неправильную конфигурацию.

Фундаментальные последствия для развития ИИ
Данное исследование расширяет парадигму "человек-простой, ИИ-сложный" эталонов, примером которой являются такие инициативы, как ARC-AGI и SimpleBench. В то время как искусственный интеллект добился сверхчеловеческих результатов в многочисленных оценках знаний и профессиональных экзаменах, примитивное визуальное мышление представляет собой постоянную проблему.
Анализ, проведенный Сафаром, показывает, что текущая методология увеличения размера модели и тренировочных данных может неэффективно устранять эти ограничения визуальной обработки. Два предположительных фактора включают недостаточное представление аналоговых часов в учебных корпорациях и присущие им трудности в переводе пространственных отношений между графическими компонентами часов и текстовыми представлениями.
ClockBench присоединяется к расширяющемуся набору диагностических инструментов, предназначенных для выявления неочевидных пробелов в возможностях ИИ. Для сохранения целостности оценки полный набор данных остается ограниченным, чтобы предотвратить загрязнение будущих моделей обучения, а для проверки доступны только контролируемые подмножества образцов.
Полученные результаты провоцируют важные вопросы о том, могут ли постепенные усовершенствования существующих архитектур устранить эти недостатки рассуждений или же требуются принципиально новые подходы - зеркальное отражение исторических прорывов, обеспечиваемых такими инновациями, как вычисления в тестовое время, в других областях ИИ.
В обозримом будущем механические аналоговые часы станут неожиданно надежным эталоном человеческого интеллекта - технология, которую мы можем без труда интерпретировать, продолжает озадачивать наши самые передовые вычислительные творения.