AIが時計の読み取りに失敗人間が時間認識テストで上回る

家

ニュース

2025年10月16日

RalphGarcia

# ai

アナログ時計の読み取りにおいて、11の最先端人工知能システムと人間のパフォーマンスを比較した画期的な評価により、現在の機械学習アーキテクチャの重大な脆弱性が明らかになった。人間の参加者が89.1％という驚異的な正確さを示したのに対し、グーグルの最高性能のAIモデルでさえ、同じテスト条件でわずか13.3％の成功率にとどまった。

研究者のアレック・サファルが率先して行ったClockBenchの調査は、子供たちが通常マスターする基本的な視覚的推論タスクが、いかに最も洗練されたAIアルゴリズムに挑戦し続けているかを明確に示している。この厳密な評価では、グーグル、OpenAI、Anthropicなど業界をリードするプラットフォームが、特別に作られた180個のアナログ時計のデザインを用いて検証された。

これらの知見は、ニューラルネットワークが視覚データを処理・解釈する方法における、より深い構造的問題を指摘している。「アナログ時計を正確に読み取るには、視覚的な文脈の中で洗練された空間的推論が必要です」とサファル氏は発表された研究の中で説明している。この多段階の認知プロセスには、手の認識、位置分析、数値変換が含まれる。

エラーのパターンのコントラストが特に明らかになった。人間のミスは通常、約3分のわずかなズレをもたらしたが、AIシステムは平均1～3時間という不正確な見積もりを出した。

主なパフォーマンスの限界

人工知能プラットフォームは、以下の点で顕著な困難を示した：

ローマ数字の時計の文字盤（わずか3.2％の精度しか達成できなかった）
時計の向きが逆または鏡面
視覚的に複雑な背景や芸術的なデザイン
秒針の位置の正確な測定

AIシステムが最初の時計の読み方を正しく解釈した場合、その後、変換や算術のような時間ベースの計算を得意とするようになった。これは、数学的な処理能力よりも、視覚的な理解力に主な障害があることを示している。

業界比較分析

GoogleのGemini 2.5 Proが13.3%の精度で商用製品をリードし、僅差でGemini 2.5 Flashが10.5%で続いた。OpenAIのGPT-5は8.4%の正答率を達成したが、AnthropicのClaudeモデルは、Claude 4 Sonnetが4.2%、Claude 4.1 Opusが5.6%にとどまり、パフォーマンスを落とした。

xAIのGrok 4は0.7％の精度で特に気になる結果を出したが、その主な原因は、有効な時計表示の63％を不可能な時間を示していると誤って認識したことである。

AIの進歩に対する基本的な意味合い

この研究は、ARC-AGIやSimpleBenchのようなイニシアチブに代表される「人間-単純、AI-複雑」ベンチマークのパラダイムを拡張するものである。人工知能は多くの知識ベースの評価や専門的な試験で超人的なパフォーマンスを達成しているが、原始的な視覚的推論には根強い課題がある。

Safarの分析によると、モデルサイズや学習データを拡張する現在の方法論では、こうした視覚処理の限界に効果的に対処できない可能性がある。トレーニング・コーパスにおけるアナログ時計の表現が不十分であること、グラフィカルな時計コンポーネントとテキスト表現間の空間的関係を翻訳することが困難であることが、2つの要因であると考えられる。

ClockBenchは、明らかでないAI能力のギャップを明らかにするために設計された診断ツールの拡張スイートに加わります。評価の完全性を維持するため、将来のモデルトレーニングの汚染を防ぐために、全データセットは制限されたままであり、検証のために利用できるのは制御されたサンプルのサブセットのみである。

この発見は、既存のアーキテクチャの段階的な改善によって推論の欠陥を埋めることができるのか、それとも根本的に新しいアプローチが必要なのかについて、重要な問題を提起している。

当面の間、機械式アナログ時計は、人間の知能の予想外に頑健なベンチマークとして立ちはだかる。私たちが難なく解釈できる技術でありながら、最先端の計算創造物を困惑させ続けているのだ。

カカオ・モビリティ、物理AIに向けたレベル4自動運転のロードマップを提示カカオ・モビリティは、フィジカルAI戦略の一環として、レベル4の自動運転技術を自社開発する計画だ。ソウルCOEXで開催された「2026ワールドITショー」のカンファレンスにおいて、カカオモビリティのフィジカルAI部門長兼副社長であるキム・ジンギュ氏がロードマップを発表した。同氏の講演は、フィジカルAI時代におけるモビリティプラットフォームを軸とした自動運転サービスに焦点を当てたものだった。聯合

バリー・ディラー：AGIの実現が近づく中、サム・アルトマンへの信頼は重要ではない億万長者のメディア界の巨頭であるバリー・ディラー氏は、最近の報道でそのように示唆されているにもかかわらず、OpenAIのCEOサム・アルトマン氏が信頼できない人物だとは考えていない。今週開催されたウォール・ストリート・ジャーナル紙主催の「Future of Everything」カンファレンスで講演したディラー氏は、一部の元同僚や取締役から、時折人を利用したり欺いたりする傾向があるとの非難を受けて

YouTube、政治家、政府関係者、ジャーナリストを対象にAIによるディープフェイク検出機能を拡大火曜日、YouTubeは、ディープフェイク検出技術を、特定の政府関係者、政治家候補者、ジャーナリストを対象に拡大すると発表した。このツールはAIによって生成された肖像を識別し、パイロットプログラムの参加者は、YouTubeのポリシーに違反していると判断した無断コンテンツの削除をリクエストできるようになる。この検出システムは、先行するテスト段階を経て、昨年、YouTubeパートナープログラムに参加す

関連特集おすすめ

チャットボット

高評価のAI恋愛チャットボット：一貫した個性で長期的な関係を築く

2026年版、本物の長期的なつながりを築くための、高評価のAI恋愛チャットボットをご紹介します。厳選されたリストには、魅力的で一貫性のあるキャラクター、無料版と有料版の比較、そして実地テストの結果が掲載されています。あなたにぴったりのパートナーを見つけて、今すぐXIX.AIで関係を築き始めましょう。

10 ツール

xix.ai

教育と学習

最高のAIデータサイエンスメンター：SQL、Pandas、および機械学習ワークフローをマスターしましょう

2026年に最も優れたAIデータサイエンスのメンターを探して、SQL、Pandas、およびMLワークフローをマスターしましょう。XIX.AIで評価の高い厳選されたメンターたちの指導を受けて、力強く、革新的なアドバイスを得てください。無料オプションと有料オプションを実世界の視点から比較しましょう。今日すぐにデータサイエンスのスキルを向上させましょう。

10 ツール

xix.ai

チャットボット

最高のAIを使ったナンパ＆会話トレーニング：社交的な魅力と自信をリアルタイムで高める

XIX.AIで、2026年最高のAIを使った口説き術・会話トレーニングツールを発見しましょう。厳選された高評価のツールが、リアルタイムで社交的な魅力と自信を築くお手伝いをします。無料版と有料版の比較や毎週更新されるランキングを参考に、ぜひ試すべき画期的なツールを探してみてください。今すぐ、あなたの社交力を引き出しましょう。

10 ツール

xix.ai

コード

自動化ユニットテストに最適なAIツール：ワンクリックでJest、PyTest、JUnitのテストケースを生成する

2026年に登場した、自動化ユニットテスト用の最高評価を受けたAIツールを発見してください。当社が厳選したこれらのツールは、Jest、PyTest、JUnitのテストケースを瞬時に生成するための強力で革新的なソリューションです。XIX.AIでは、無料オプションと有料オプションを実際のテストデータと共に比較し、毎週更新されるランキングもご覧いただけます。今すぐAIの力を活用して、開発生産性を向上させましょう。

10 ツール

xix.ai

データ分析

最高のAIデータ可視化ツール：生データからインタラクティブなBIダッシュボードを自動生成

XIX.AIで、2026年最高のAIデータ可視化ツールをご覧ください。厳選された高評価のツール群を活用すれば、生データから強力でインタラクティブなBIダッシュボードを瞬時に自動生成できます。実環境でのテスト結果や毎週更新されるランキングをもとに、無料版と有料版の比較も可能です。今すぐデータの可能性を引き出しましょう。

10 ツール

xix.ai

ソーシャルメディア

ソーシャルメディア向けAIブランディングキット：すべてのチャネルで一貫したブランドビジュアルを維持

2026年版、ソーシャルメディア向けAIブランディングキットベストセレクションをご紹介。XIX.AIが厳選したこのリストには、あらゆるチャネルでブランドビジュアルの統一感を完璧に保つ、高評価で画期的なツールが揃っています。実際のテスト結果をもとに、無料版と有料版を比較しましょう。今すぐ、ブランドのビジュアル面での優位性を手に入れましょう。

10 ツール

xix.ai

コメント (1)

0/500

最初にログインしてください

JonathanMiller

2026年4月21日 13:00:45 JST

Interessant, dass selbst moderne KI bei so simplen Aufgaben wie Uhrenlesen scheitert. Das zeigt, wie spezifisch menschliche Wahrnehmung und Alltagserfahrung sind. Vielleicht sollten wir weniger auf 'Allgemeine' Intelligenz hoffen und mehr auf spezialisierte Tools setzen, die mit Menschen zusammenarbeiten. 🤔

トップニュース

AI BuilderとPower Automateがドキュメントの要約を革新 AIホストのNotebooklm Podcastのホストは、インタビューに利用できるようになりました中国、国家ヒューマノイドロボット及び具現化された知能の基準を発表企業のAI導入は頭打ち、ランプのデータで明らかに Bing Image Creator チュートリアル: AIアート生成ガイドあなたの声を使用してAIミュージックを作成することを学ぶ：ステップバイステップSunoチュートリアル iMyFone MagicMic：リアルタイムAIボイスチェンジャーのレビューとチュートリアル 2025年トップAIビデオジェネレーター：Pika Labs vs 代替案 DeepSeek V4、マルチモーダルAIのゲームチェンジャーとして登場エンボディッド・インテリジェンス、無秩序な拡大を抑制するための初の業界標準を発表

もっと

特集