オプション
ニュース
AIアノテーションの課題:自動ラベリングの神話

AIアノテーションの課題:自動ラベリングの神話

2025年8月21日
131

機械学習研究では、AIがデータセットのアノテーション、特に視覚言語モデル(VLM)の画像キャプションを強化し、コスト削減や人間の監督負担軽減が可能とされることが多い。

これは2000年代初頭の「RAMを増やす」ミームを彷彿とさせ、ソフトウェアがハードウェアの限界を解決できるという考えを嘲笑する。

しかし、アノテーションの品質は、機械学習パイプラインで重要な役割を果たすにもかかわらず、新しいAIモデルの話題性に埋もれて見過ごされることが多い。

AIがパターンを識別し再現する能力は、高品質で一貫性のある人間のアノテーション(ラベルや説明)に依存し、それは不完全な環境で主観的な判断を行う人々によって作成される。

人間の行動を模倣して正確なラベリングをスケールアップしようとするシステムは、人間が提供した例に含まれないデータに直面すると苦戦する。類似性は同等性を意味せず、コンピュータビジョンでのクロスドメインの一貫性は依然として困難である。

最終的に、AIシステムを形成するデータは人間の判断によって定義される。

RAGソリューション

最近まで、データセットのアノテーションエラーは、生成AIの不完全だが市場性のある出力に対して、許容可能な小さなトレードオフとして扱われてきた。

2025年のシンガポール研究では、幻覚(AIが誤った出力を生成すること)がこれらのシステムの設計に内在していることがわかった。

インターネット検索を通じて事実を検証するRAGベースのエージェントは、研究や商用アプリケーションで注目を集めているが、リソースコストやクエリ遅延が増加する。訓練済みモデルに適用される新しい情報は、ネイティブモデルの接続の深さに欠ける。

欠陥のあるアノテーションはモデルの性能を損ない、その品質を改善することは、人間の主観性により不完全ではあるが、極めて重要である。

RePOPEの洞察

ドイツの研究では、古いデータセットの欠陥、特にMSCOCOのようなベンチマークでの画像キャプションの正確性に焦点を当て、ラベルエラーが視覚言語モデルの幻覚評価を歪めることを明らかにした。

新しい論文から、MSCOCOデータセットの画像で元のキャプションがオブジェクトを正しく識別できなかった例。研究者によるPOPEベンチマークデータセットの手動修正は、アノテーションキュレーションのコスト削減の代償を示している。出典: https://arxiv.org/pdf/2504.15707

https://arxiv.org/pdf/2504.15707

自転車を評価するAIが街のシーン画像を分析し、モデルが「はい」と答えたがデータセットが「いいえ」と主張する場合、誤りとされる。しかし、画像に自転車が明確に存在するのにアノテーションが見逃した場合、モデルが正しく、データセットが欠陥となる。このようなエラーは、モデルの精度や幻覚メトリクスを歪める。

不正確または曖昧なアノテーションは、正確なモデルをエラーがあるように見せたり、欠陥のあるモデルを信頼できるように見せたりし、幻覚の診断やモデルランキングを複雑にする。

この研究は、MSCOCOラベルを使用し、視覚言語モデルの画像内オブジェクト識別能力をテストするPolling-based Object Probing Evaluation(POPE)ベンチマークを再検討する。

POPEは、幻覚をはい/いいえの分類タスクとして再構成し、モデルに「画像にはありますか?」のようなプロンプトを使用して特定のオブジェクトの存在を尋ねる。視覚言語モデルにおけるオブジェクト幻覚の例。太字のラベルは元の注釈で存在するとされたオブジェクトを示し、赤いラベルはモデルが幻覚したオブジェクトを示す。左の例は従来の指示ベースの評価を反映し、右の3つの例は異なるPOPEベンチマークのバリエーションから抽出された。出典: https://aclanthology.org/2023.emnlp-main.20.pdf

視覚言語モデルにおけるオブジェクト幻覚の例。太字のラベルは元の注釈で存在するとされたオブジェクト、赤いラベルはモデルが幻覚したオブジェクトを示す。左の例は従来の評価、右の3つはPOPEのバリエーションから。 出典: https://aclanthology.org/2023.emnlp-main.20.pdf

実在するオブジェクト(回答:「はい」)は、存在しないオブジェクト(回答:「いいえ」)とランダムに、頻繁に、または共起に基づいてペアリングされる。これにより、複雑なキャプション分析なしで安定したプロンプト非依存の幻覚評価が可能になる。

研究「RePOPE:POPEベンチマークにおけるアノテーションエラーの影響」は、MSCOCOラベルを再確認し、多くのエラーや曖昧さを見つけた。

2014年のMSCOCOデータセットの例。出典: https://arxiv.org/pdf/1405.0312

2014年のMSCOCOデータセットの画像。 出典: https://arxiv.org/pdf/1405.0312

これらのエラーはモデルランキングを変更し、修正されたラベルで評価すると一部のトップパフォーマーが順位を下げる。

元のPOPEと再ラベリングされたRePOPEを使用したオープンウェイト視覚言語モデルのテストでは、特にF1スコアで大きなランキング変動が見られ、いくつかのモデルが性能を落とした。

この研究は、アノテーションエラーがモデルの真の幻覚を隠し、RePOPEがより正確な評価ツールであると主張する。

新しい論文の別の例では、POPEの元のキャプションが、右端の写真でトラムのキャビンの横に座る人や、左から2番目の写真でテニスプレイヤーに隠れた椅子のような微妙なオブジェクトを見分けることができなかった。

POPEのキャプションが、トラムのキャビン近くの人やテニスプレイヤーに隠れた椅子のような微妙なオブジェクトを見逃した例。

方法論とテスト

研究者は、インスタンスごとに2人の人間レビューアでMSCOCOアノテーションを再ラベリングした。以下のような曖昧なケースはテストから除外された。

POPEにおけるラベリングの不一致を反映する曖昧なケース。たとえば、テディベアがベアとラベルされたり、オートバイが自転車とされたり、空港車両が車とされたりする。これらのケースは、主観的な分類やMSCOCOの元のラベルの不一致により、RePOPEから除外された。

POPEの曖昧なケースで、テディベアがベア、オートバイが自転車など、不明確なラベルが除外された。

論文は以下のように述べている:

「元の注釈者は、背景やガラスの後ろの人々、テニスプレイヤーに隠れた椅子、コールスローの薄いニンジンを見逃した。」

「テディベアをベア、オートバイを自転車と分類するようなMSCOCOの不一致なラベルは、オブジェクト定義の違いに起因し、こうしたケースを曖昧とマークする。」

再アノテーションの結果:3つのPOPEバリエーションで共有される肯定的な質問。「はい」とラベルされたものの9.3%が不正確、13.8%が曖昧。「いいえ」の質問では、1.7%が誤ラベル、4.3%が曖昧。

再アノテーションの結果:POPEバリエーション全体で、「はい」の9.3%が不正確、13.8%が曖昧。「いいえ」の1.7%が誤ラベル、4.3%が曖昧。

チームは、InternVL2.5、LLaVA-NeXT、Vicuna、Mistral 7b、Llama、LLaVA-OneVision、Ovis2、PaliGemma-3B、PaliGemma2などのオープンウェイトモデルを、POPEとRePOPEでテストした。

初期結果:元の肯定的ラベルの高いエラー率により、すべてのモデルで真陽性が急落。偽陽性はサブセット間で異なり、ランダムサブセットではほぼ2倍、ポピュラーサブセットではほぼ変化せず、敵対的サブセットではわずかに減少。再ラベリングはF1ベースのランキングに大きな影響を与えた。Ovis2-4BやOvis2-8Bのようなモデルは、POPEのポピュラーおよび敵対的サブセットで良好な成績を収め、RePOPEのランダムサブセットでもトップに上昇。詳細は出典PDFを参照。

結果:元のラベルエラーにより真陽性が低下。偽陽性はランダムサブセットで2倍、ポピュラーサブセットで安定、敵対的サブセットでわずかに減少。再ラベリングでF1ランキングが変動し、Ovis2-4Bや-8Bが上昇。

グラフは、モデル全体で真陽性が低下し、正しい回答がしばしば欠陥ラベルに基づいていることを示す。偽陽性は変動した。

POPEのランダムサブセットでは、偽陽性がほぼ2倍になり、元の注釈で見逃されたオブジェクトが明らかになった。敵対的サブセットでは、偽陽性が減少し、存在しないオブジェクトがラベルされていなかったが存在していた。

精度と再現率に影響したが、モデルランキングは安定していた。POPEの主要メトリクスであるF1スコアは大きく変動し、InternVL2.5-8Bのようなトップモデルが低下し、Ovis2-4Bや-8Bが上昇した。

修正されたデータセットの正例と負例の不均衡により、精度スコアは信頼性が低かった。

この研究は、高品質なアノテーションの必要性を強調し、修正されたラベルをGitHubで共有しているが、RePOPEだけではベンチマークの飽和を完全に解決しないとし、モデルは依然として真陽性と真陰性で90%以上を記録する。DASH-Bのような追加ベンチマークが推奨される。

結論

この研究は、小規模データセットにより実現可能だったが、ハイパースケールデータセットへのスケーリングの課題を浮き彫りにし、代表データの分離が難しく、結果を歪める可能性がある。

可能であっても、現在の方法はより良く、より広範な人間のアノテーションの必要性を示している。

「より良く」「より多く」は異なる課題を提示する。Amazon Mechanical Turkのような低コストプラットフォームは品質の低いアノテーションのリスクがあり、異なる地域へのアウトソーシングはモデルの意図したユースケースと一致しない可能性がある。

これは機械学習経済における未解決の核心的問題である。

 

初出:2025年4月23日水曜日

関連記事
ハイアール、重量わずか1.75kgの世界最軽量AIスポーツ用外骨格ロボットを発表 ハイアール、重量わずか1.75kgの世界最軽量AIスポーツ用外骨格ロボットを発表 ハイアールグループは、スポーツ用として世界最軽量のAI搭載外骨格ロボット「ハイアール・エクソスケルトン・ロボット W3」を発表しました。この製品の発売により、軽量化において業界新記録を樹立し、軽量設計と人間の動作をインテリジェントに強化する技術において大きな飛躍を遂げました。高級素材が実現する超軽量設計W3は、フルカーボンファイバーとチタン合金を組み合わせた革新的な一体成型プロセスを採用しています
Yaoke Media初のAIGCドラマ『秦嶺の青銅の謎』が本日配信開始、AIが演じる主演キャストが登場 Yaoke Media初のAIGCドラマ『秦嶺の青銅の謎』が本日配信開始、AIが演じる主演キャストが登場 本日、Yaoke MediaのAIGCファンタジー・ミステリー短編ドラマ『秦嶺青銅の秘話』が正式に公開されました。同社が初めて契約した2人のAI俳優、秦凌月と林西燕燕が主演を務め、物語は謎に包まれた秦嶺の鉱山地帯を舞台に展開されます。 物語は、引退した諜報員・秦月がチームを率いてその奥深くへと入り込み、長年埋もれていた鉱山事故と、2世代にわたる血の生贄の真実を暴いていく様子を描きます。その真実は、
サティヤ・ナデラ、新たなOpenAIとの契約を活用する準備ができている サティヤ・ナデラ、新たなOpenAIとの契約を活用する準備ができている 水曜日に、ウォール・ストリートのアナリストがマイクロソフトのCEOであるサティヤ・ナデラ氏に直接尋ねました。改正されたOpenAIとの提携関係が同社の財務状況にどのような影響を与えるのかと。ナデラ氏はこの新しい協定を「皆にとっての勝利」と表現しました。「OpenAIとの提携については満足しています。私は常にどんな提携でもウィンウィンの関係を築くことに重点を置いています。そうすることで、長期的に良いパートナーシップを維持できるからです。」彼は、マイクロソフトが依然としてOpenAIの知的財産、
関連特集おすすめ
仕事 おすすめのAI経費管理ツール:レシートをスキャンして、業務経費を自動分類
おすすめのAI経費管理ツール:レシートをスキャンして、業務経費を自動分類

2026年最新・最高のAI経費管理ツール:レシートをスキャンし、法人経費を自動分類する高評価ツールをご紹介。手間いらずの経費管理、正確な財務追跡、コンプライアンス対応の効率化を実現する、画期的なソリューションをご覧ください。無料版と有料版の比較表は厳選され、毎週更新されるため、最適なツール選びにお役立ていただけます。XIX.AIの専門家が厳選したツールで、AIの力を最大限に活用しましょう。

10 ツール
xix.ai
仕事 おすすめのAI採用ツール:履歴書の選考と候補者の面接スケジュール管理を自動化
おすすめのAI採用ツール:履歴書の選考と候補者の面接スケジュール管理を自動化

XIX.AIで、2026年最新の評価の高いAI採用ツールをチェックしましょう。厳選されたリストには、履歴書のスクリーニングや候補者の面接スケジュール管理を自動化する、強力で画期的なソリューションが揃っています。実際のテスト結果や毎週更新されるランキングを参考に、無料版と有料版の比較が可能です。最適な採用アシスタントを見つけて、今すぐ採用業務を効率化しましょう!

10 ツール
xix.ai
生産性 AIパーソナルウェルネス&集中力コーチ:バーンアウトの予防とメンタルエネルギーの向上
AIパーソナルウェルネス&集中力コーチ:バーンアウトの予防とメンタルエネルギーの向上

XIX.AIで、2026年最高のAIパーソナルウェルネス&集中力向上ツールをご紹介。厳選されたランキングでは、バーンアウトの解消やメンタルエネルギーの向上に役立つ、高評価で画期的なツールを取り上げています。実際のユーザーの声をもとに、無料版と有料版の比較も可能です。今すぐ、最高の生産性とウェルビーイングへの道を開きましょう。

10 ツール
xix.ai
チャットボット 高評価のAI恋愛チャットボット:一貫した個性で長期的な関係を築く
高評価のAI恋愛チャットボット:一貫した個性で長期的な関係を築く

2026年版、本物の長期的なつながりを築くための、高評価のAI恋愛チャットボットをご紹介します。厳選されたリストには、魅力的で一貫性のあるキャラクター、無料版と有料版の比較、そして実地テストの結果が掲載されています。あなたにぴったりのパートナーを見つけて、今すぐXIX.AIで関係を築き始めましょう。

10 ツール
xix.ai
教育と学習 最高のAIデータサイエンスメンター:SQL、Pandas、および機械学習ワークフローをマスターしましょう
最高のAIデータサイエンスメンター:SQL、Pandas、および機械学習ワークフローをマスターしましょう

2026年に最も優れたAIデータサイエンスのメンターを探して、SQL、Pandas、およびMLワークフローをマスターしましょう。XIX.AIで評価の高い厳選されたメンターたちの指導を受けて、力強く、革新的なアドバイスを得てください。無料オプションと有料オプションを実世界の視点から比較しましょう。今日すぐにデータサイエンスのスキルを向上させましょう。

10 ツール
xix.ai
チャットボット 最高のAIを使ったナンパ&会話トレーニング:社交的な魅力と自信をリアルタイムで高める
最高のAIを使ったナンパ&会話トレーニング:社交的な魅力と自信をリアルタイムで高める

XIX.AIで、2026年最高のAIを使った口説き術・会話トレーニングツールを発見しましょう。厳選された高評価のツールが、リアルタイムで社交的な魅力と自信を築くお手伝いをします。無料版と有料版の比較や毎週更新されるランキングを参考に、ぜひ試すべき画期的なツールを探してみてください。今すぐ、あなたの社交力を引き出しましょう。

10 ツール
xix.ai
コメント (2)
0/500
RaymondWalker
RaymondWalker 2025年10月22日 15:31:17 JST

Qué interesante plantean esto de la anotación automatizada. A veces da la sensación de que solo queremos reemplazar el trabajo humano sin pensar en las consecuencias... ¿Realmente es más preciso dejarle todo a la IA? 🤔 Me pregunto si esto no terminará generando más problemas de los que resuelve.

KeithSanchez
KeithSanchez 2025年8月28日 10:01:29 JST

L'article sur les défis de l'annotation par IA est super intéressant ! 😊 J'avais jamais réalisé à quel point l'étiquetage automatique pouvait être un casse-tête. Ça me fait penser : est-ce qu'on surestime trop les capacités de l'IA dans ce domaine ?

OR