AI標註挑戰：自動化標籤的神話

首頁

新聞

AI標註挑戰：自動化標籤的神話

2025-08-21

ThomasRoberts

機器學習研究通常假設AI能增強資料集標註，特別是視覺語言模型（VLMs）的圖像描述，以降低成本並減輕人工監督負擔。

這與2000年代初的「下載更多RAM」迷因相呼應，嘲笑軟體能解決硬體限制的想法。

然而，標註品質常被忽視，儘管它在機器學習流程中扮演關鍵角色，卻被新AI模型的熱潮所掩蓋。

AI辨識與複製模式的能力依賴於高品質、一致的人工標註——由人類在不完美環境中主觀判斷所製定的標籤與描述。

試圖模仿標註者行為以取代人工並擴展精確標籤的系統，在面對未包含在人工提供範例中的數據時，表現不佳。相似性並不等同於等價性，跨領域的一致性在電腦視覺中仍難以實現。

最終，人類判斷定義了塑造AI系統的數據。

RAG解決方案

直到最近，資料集標註中的錯誤被視為次要妥協，因為生成AI的產出雖不完美但具市場價值。

2025年新加坡研究發現，幻覺（AI生成錯誤輸出）是這些系統設計的固有問題。

基於RAG的代理通過網路搜尋驗證事實，在研究與商業應用中逐漸受到重視，但增加了資源成本與查詢延遲。應用於已訓練模型的新資訊缺乏原生模型連繫的深度。

錯誤的標註會削弱模型表現，提升標註品質雖因人類主觀性而不完美，但至關重要。

RePOPE洞察

德國研究揭露舊資料集的缺陷，聚焦於MSCOCO等基準中的圖像描述準確性，顯示標籤錯誤如何扭曲視覺語言模型的幻覺評估。

來自新論文的範例，顯示MSCOCO資料集圖像的原始描述未能正確辨識物體。研究人員對POPE基準資料集的手動修訂解決了這些缺陷，顯示節省標註整理成本的代價。來源：https://arxiv.org/pdf/2504.15707

近期研究範例顯示MSCOCO資料集描述中物體辨識錯誤。對POPE基準的手動修訂凸顯了節省標註整理成本的陷阱。 來源：https://arxiv.org/pdf/2504.15707

假設AI評估街景圖像中的自行車，若模型回答是，但資料集標示否，則被判定錯誤。然而，若圖像中明顯有自行車但標註遺漏，模型正確，資料集錯誤。此類錯誤會扭曲模型準確性與幻覺指標。

不正確或模糊的標註可能使準確的模型看似錯誤，或使有缺陷的模型看似可靠，複雜化幻覺診斷與模型排名。

該研究重新審視基於投票的物體探測評估（POPE）基準，測試視覺語言模型使用MSCOCO標籤辨識圖像中物體的能力。

POPE將幻覺重新定義為是/否分類任務，詢問模型圖像中是否包含特定物體，使用提示如“圖像中有嗎？”

視覺語言模型中的物體幻覺範例。粗體標籤表示原始標註中標示為存在的物體，紅色標籤顯示模型幻覺的物體。左側範例反映傳統基於指令的評估，右側三個範例來自不同POPE基準變體。來源：https://aclanthology.org/2023.emnlp-main.20.pdf

視覺語言模型中的物體幻覺範例。粗體標籤標示原始標註中的物體；紅色標籤突出模型幻覺的物體。左側範例使用傳統評估，右側三例來自POPE變體。 來源：https://aclanthology.org/2023.emnlp-main.20.pdf

真實物體（答案：是）與不存在物體（答案：否）配對，隨機、頻繁或基於共現選擇。這實現了穩定、不依賴提示的幻覺評估，無需複雜的描述分析。

研究《RePOPE：標註錯誤對POPE基準的影響》重新檢查MSCOCO標籤，發現許多錯誤或模糊之處。

2014年MSCOCO資料集的範例。來源：https://arxiv.org/pdf/1405.0312

2014年MSCOCO資料集的圖像。 來源：https://arxiv.org/pdf/1405.0312

這些錯誤改變了模型排名，部分頂尖模型在對比修正標籤後表現下降。

使用原始POPE與重新標註的RePOPE測試開源視覺語言模型，顯示排名顯著變動，特別是F1分數，部分模型表現下降。

該研究認為標註錯誤掩蓋了模型的真實幻覺，提出RePOPE作為更準確的評估工具。

來自新論文的另一範例，顯示原始POPE描述未能辨識細微物體，如最右側照片中電車車廂旁的人，或左起第二張照片中被網球選手遮擋的椅子。

研究範例顯示POPE描述遺漏細微物體，如電車車廂旁的人或被網球選手遮擋的椅子。

方法論與測試

研究人員對MSCOCO標註進行重新標註，每例由兩名人工審查者處理。模糊案例，如下所述，被排除在測試之外。

模糊案例，POPE中的標籤不一致反映了類別邊界的模糊。例如，泰迪熊被標為熊，摩托車被標為自行車，或機場車輛被標為汽車。這些案例因主觀分類及MSCOCO原始標籤的不一致而被RePOPE排除。

POPE中模糊案例的標籤不清晰，如泰迪熊被標為熊或摩托車被標為自行車，因主觀分類及MSCOCO不一致被RePOPE排除。

論文指出：

“原始標註者忽略了背景中的人或玻璃後的人、被網球選手遮擋的椅子，或涼拌沙拉中模糊的胡蘿蔔。”

“MSCOCO標籤不一致，如將泰迪熊分類為熊或摩托車為自行車，源於物體定義的差異，這些案例被標為模糊。”

重新標註結果：三種POPE變體共享正面問題。在POPE標示為‘是’的問題中，9.3%被發現錯誤，13.8%被分類為模糊。對於‘否’問題，1.7%標籤錯誤，4.3%模糊。

重新標註結果：POPE變體中，9.3%的‘是’標籤錯誤，13.8%模糊；1.7%的‘否’標籤錯誤，4.3%模糊。

研究團隊測試了開源模型，包括InternVL2.5、LLaVA-NeXT、Vicuna、Mistral 7b、Llama、LLaVA-OneVision、Ovis2、PaliGemma-3B及PaliGemma2，涵蓋POPE與RePOPE。

初步結果：原始正面標籤的高錯誤率導致所有模型的真陽性顯著下降。假陽性在子集間變化，隨機子集幾乎翻倍，流行子集基本不變，對抗子集略減。重新標註對F1排名影響重大。Ovis2-4B與Ovis2-8B等模型在POPE的流行與對抗子集表現優異，在RePOPE的隨機子集也名列前茅。請參考來源PDF以獲得更好解析度。

結果顯示原始標籤錯誤導致真陽性下降。假陽性在隨機子集近乎翻倍，流行子集穩定，對抗子集略減。重新標註改變F1排名，Ovis2-4B與-8B等模型名列前茅。

圖表顯示真陽性在各模型中下降，因正確答案常基於錯誤標籤，而假陽性則因子集不同而變化。

在POPE的隨機子集中，假陽性幾乎翻倍，揭示原始標註遺漏但實際存在的物體。在對抗子集中，假陽性下降，因不存在的物體常未標註但實際存在。

精確度與召回率受到影響，但模型排名保持穩定。F1分數（POPE的關鍵指標）顯著變動，頂尖模型如InternVL2.5-8B下降，Ovis2-4B與-8B上升。

由於修正資料集中正負樣本不均，準確度分數可靠性較低。

該研究強調高品質標註的必要性，並在GitHub分享修正標籤，指出RePOPE單獨無法完全解決基準飽和問題，因模型在真陽性與真陰性上仍超過90%。建議使用如DASH-B等額外基準。

結論

這項研究因資料集規模小而可行，突顯了擴展至超大規模資料集的挑戰，難以隔離代表性數據，可能導致結果偏差。

即使可行，當前方法顯示需要更好、更廣泛的人工標註。

「更好」與「更多」帶來不同挑戰。低成本平台如Amazon Mechanical Turk可能導致標註品質不佳，而外包至不同地區可能與模型預期用例不符。

這仍是機器學習經濟學中未解的核心問題。

首次發表於2025年4月23日，星期三

Heeseung的AI驅動「Wildflower」翻唱：音樂創作的新時代數位世界正在迅速轉變，引入了突破性的創意表達方式。AI生成的翻唱已成為一種獨特的媒介，使藝術家和粉絲能夠重新構想喜愛的歌曲。Heeseung的AI製作「Wildflower」版本獲得了廣泛讚譽。本分析探討了這首翻唱的細微之處、其歌詞的共鳴，以及AI在音樂製作中日益增長的影響力。亮點Heeseung的AI版本「Wildflower」為原曲提供了大膽的重新詮釋。其歌詞喚起了堅韌與個人成長的強大主題。A

AI驅動的工具提升內容創作者的語音清晰度在數位時代，清晰的音頻對於製作引人入勝的內容至關重要，無論是播客、影片或專業溝通。傳統方法往往無法滿足需求，但人工智慧（AI）正在改變音頻增強技術。本文介紹尖端的AI工具，提升語音清晰度，減少背景噪音，並改善音頻品質，使專業級音質無需昂貴設備即可實現。主要亮點AI驅動的工具大幅提升音頻品質，即使是簡單錄音。HitPaw Video Enhancer提供AI驅動的影片升級和噪音抑制。Adobe Po

科技巨頭為教育工作者提供AI培訓計劃科技正在革新教育，領先的科技公司為教師提供關鍵技能。像微軟、OpenAI和Anthropic這樣的巨頭與教師工會合作，創建了全國AI教學研究院，這是一項大膽的計劃，旨在培訓數十萬美國教育工作者。人工智慧正在改變教學方式，促進課堂創新並實現動態學習體驗。科技領袖為教育工作者推出AI培訓探索主要科技公司如何通過AI驅動的計劃重塑教育。微軟、OpenAI和Anthropic與工會合作微軟、OpenAI和

評論 (0)

0/200

提交

頭號新聞

Gemini 2.5 Pro現在比Claude，GPT-4O更便宜，更便宜 2025頂級AI影片生成器：Pika Labs與其他對比 AI配音：真實聲音創作終極指南 Openai增強了AI語音助手以進行更好的聊天 NotebookLM在全球範圍內擴展，添加幻燈片並增強了事實檢查對美國數據中心的調整可以解鎖76 GW的新電源容量 Cambium的AI將垃圾木頭變成木材創始人說如何確保您的數據值得信賴AI集成 Google利用AI暫停了超過3900萬的廣告帳戶，以涉嫌欺詐

精選