Google 將 AI 訓練成本降低 10,000 倍

首頁

新聞

2025-11-13

HenryLopez

人工智慧產業存在一個基本的悖論。雖然機器能夠以前所未有的規模處理資料，但學習過程本身的效率仍然低得驚人，經常面臨收益遞減的問題。傳統的機器學習方法需要龐大的、精心標注的資料集，這些資料集可能需要數年時間和數百萬美元才能製作完成。這些方法的運作原則通常是，更多的資料必然會產生更優異的 AI 模型。然而，Google 的研究人員最近發表了一種新穎的方法，質疑這一長久以來的假設，並證明只需減少 10,000 倍的訓練資料，就能達到相若的 AI 效能。這項進展有能力從根本上重塑我們的 AI 方法。本文將深入探討 Google 團隊如何達到這個里程碑、其潛在的未來影響，以及未來的挑戰與機遇。

人工智能的大數據挑戰

數十年來，業界的人工智慧策略一直被「更多資料等於更好的人工智慧」這句口號所推動。諸如 GPT-4 之類的龐大語言模型是在數以萬億計的文字詞彙上進行訓練的。對於沒有龐大資源或獨特資料集的組織而言，這種資料密集型的方法造成了很大的障礙。首先，人工註釋的開支很大。專家標籤師的收費很高，而且所需的資料數量也讓專案成本過高。其次，收集到的大部分資料通常都是重複性的，對學習過程沒有實質貢獻。當需求改變時，傳統方法也會失效。每當政策更新或出現新形式的問題內容時，公司就不得不從頭開始重新啟動標籤流程，啟動持續且昂貴的資料擷取與模型再訓練循環。

利用主動學習解決大數據挑戰

解決這些資料問題的公認策略是實施主動學習。此技術依賴於謹慎的策劃流程，以找出最有價值的訓練範例，供人類審查員標籤。其核心理念是，模型可以最有效地從它們認為最具挑戰性的範例中學習，而不是被動地吸收每個可用的資料點。傳統的人工智能方法需要依賴大量的資料集，相較之下，主動學習則採取更有策略的態度，只專注於蒐集資訊最豐富的樣本。此策略有助於避免標示明顯或冗餘資料的低效率，因為這些資料對於模型的價值微乎其微。取而代之，主動學習專注於邊緣案例和不確定的實例，這些案例和實例具有提高模型性能的巨大潛力。

透過將專家的努力導向這些關鍵範例，主動學習可讓模型以更少的資料點更快速有效地學習。這種方法有可能解決傳統機器學習中固有的資料瓶頸和低效率問題。

Google 的主動學習方法

Google 的研究團隊已成功應用此架構。他們新穎的主動學習技術顯示，精心策劃的優質範例可以有效取代大量的標記資料。舉例來說，他們的研究顯示，在少於 500 個專家標籤範例上訓練出來的模型，表現與在 100,000 個標準標籤上訓練出來的系統一樣好，甚至更勝一籌。

這個過程透過 Google 所謂的「LLM-as-Scout」系統來運作。大型語言模型首先會篩選大量未標示的資料，並標示出其預測最不確定的情況。這些邊界案例代表了模型需要人類輸入以完善其決策的精確場景。此程序從初始模型開始，使用簡單的提示標示大型資料集。然後，系統會依據預測的分類將範例分組，並找出模型在不同類別之間出現混淆的區域。這些重疊的群組揭示了專家人類判斷可以提供最大價值的確切點。

此方法特別針對非常相似但標籤不同的範例對。這些邊界案例正是人類專業知識最重要的場景。透過將專家標籤工作集中在這些容易混淆的範例上，系統達到了非凡的效率。

質量重於數量

這項研究揭露了一個關於資料品質的重要觀點，反駁了 AI 的普遍看法。研究顯示，專家標籤的高準確性和一致性，可靠地超越了大規模的群眾外包註釋。研究團隊使用 Cohen's Kappa（一種統計方法，用來評估模型的預測與專家共識的吻合程度，超越隨機可能產生的結果）來量化這一結果。在 Google 的測試中，專家註解者的 Cohen's Kappa 得分高於 0.8，遠遠超過眾包通常達到的水平。

這種優異的一致性使模型能夠有效地從更少的範例中學習。在使用 Gemini Nano-1 和 Nano-2 進行的評估中，模型僅使用了 250-450 個精心挑選的範例，就達到或超過了專家級的一致性，而群眾外包的隨機標籤則約為 100,000 個，減少了三到四個數量級。然而，其優勢不僅僅是使用較少的資料。使用這項技術訓練出來的模型，其效能往往超越使用傳統方法訓練出來的模型。對於複雜的任務和較大的模型，效能提升達到基線的 55-65%，顯示與政策專家的一致性更強、更可靠。

為什麼這項突破現在很重要

這項發展正值 AI 產業的關鍵時刻。隨著模型變得越來越大、越來越複雜，單純增加訓練資料的傳統策略已經越來越難以持續。訓練龐大模型所造成的環境衝擊持續攀升，而對許多組織而言，進入此行業的經濟障礙仍然相當艱鉅。

Google 的方法同時解決了數項產業挑戰。標籤成本的徹底降低，讓小型組織和研究團隊更容易進行 AI 開發。更快的迭代週期可快速適應不斷變化的需求，這對於內容管理和網路安全等快速發展的領域至關重要。

這種方法也對人工智能的安全性和可靠性有更廣泛的影響。透過集中處理模型最不確定的情況，此技術自然會發現潛在的故障點和邊緣情況。此過程會產生更健全的系統，能更好地掌握自身的限制。

對人工智慧發展更廣泛的影響

這項突破表明，我們可能正在進入一個人工智能發展的新時代，在這個時代裡，效率比規模更重要。在訓練資料方面，傳統的「越大越好」哲學可能會被更精細的方法所取代，這些方法強調資料品質與策略選擇。

單是對環境的影響就相當大。目前，訓練大型 AI 模型需要大量的計算資源和能源。如果能以大幅減少的資料取得類似的結果，人工智慧發展的碳足跡就能大幅降低。

民主化的效果也同樣顯著。以前無法資助大量資料收集計畫的小型研究團隊和組織，現在有了開發具有競爭力的 AI 系統的可行途徑。這項進展可以加速創新，並將更多不同的觀點引入 AI 領域。

限制與考量

儘管其成果令人期待，但該方法仍遇到幾個實際的障礙。需要能夠達到 Cohen's Kappa 分數 0.8 以上的專家註解者，這可能會限制其在專業知識有限或標準不清的領域中的使用。研究主要集中在分類任務和內容安全應用上。其他人工智能任務（如語言生成或複雜推理）能否實現類似的顯著改進，仍有待觀察。

與傳統的批次處理方法相比，主動學習的迭代性也增加了複雜性。組織必須建立新的工作流程與基礎架構，以支援持續的查詢與回應週期，促進模型的不斷精進。

未來的研究可能會探討自動化方法，以維持專家級的注釋品質，並建立特定領域版本的核心技術。將主動學習原則與其他效率方法（如參數效率微調）相整合，可以產生更多的效能優勢。

底線

Google 的研究表明，有針對性的高品質資料可以優於大量資料集。透過將標籤工作集中在最有價值的範例上，他們將訓練資料需求縮減了 10,000 倍，同時也提升了效能。這項策略可降低成本、加速開發、減少對環境的影響，並擴大先進人工智慧的使用範圍。這是邁向更有效率與永續 AI 發展的重要一步。

全新榮威i6以65.9萬人民幣上市，搭載高通驍龍8155處理器與「斗寶」大模型上汽榮威今日推出全新榮威i6，這款緊湊型轎車全面採用了榮威D7的設計語言。其獨特的大型直立式水箱護罩與橫向環形燈帶貫穿車頭，營造出強烈的科技感與視覺寬度。車尾部分，上翹的鴨尾式尾翼與全寬尾燈相得益彰，賦予整車更顯活力的年輕氣息。全新榮威i6車身長4767毫米、寬1828毫米、高1498毫米，軸距為2755毫米。得益於寬敞的車內空間，它躋身A+級轎車之列，在後排頭部空間與膝部空間方面具備顯著優

如何保護資產、建築物及個人健康？在這個充滿變數的世界裡，保障已不再僅是選項，而是戰略上的必要之舉。無論是守護財務、強化建築結構，還是關注個人健康，長期的穩定都仰賴於主動規劃。真正的安全是多層次的，取決於財務管理、結構韌性與明智的健康意識三者相輔相成。守護最重要的事物，意味著必須未雨綢繆，而非僅在損害發生後才做出反應。財務保障：第一道防線每個人與每家企業都運作於財務架構之中。收入、支出、負債與投資構成了穩定的基石。若缺乏有條不紊的

AI 瀏覽器 Comet 正式上線，在 iPad 上全面支援多工處理 Perplexity 的 AI 瀏覽器 Comet 已正式推出 iPad 版本，現已全面相容於 iPadOS。此次更新導入多視窗瀏覽功能、多工處理支援，並與 OpenAI 和 Anthropic 等頂尖 AI 模型深度整合，帶來更智能的網路體驗。Comet 瀏覽器拓展了使用者探索網路及與 AI 聊天機器人互動的方式，提供直觀的管道存取 OpenAI 和 Anthropic 等頂尖 AI 模型，以進

相關專題推薦

商業

頂尖 AI 定價優化軟體：追蹤競爭對手並自動調整商店價格

立即在 XIX.AI 探索 2026 年最佳 AI 定價優化軟體。我們精心挑選的清單收錄了備受好評、能徹底改變遊戲規則的工具，這些工具不僅能追蹤競爭對手，還能自動調整您的商店價格，以實現利潤最大化。透過實際測試，比較免費與付費方案的差異。立即掌握您的定價優勢。

10 個工具

xix.ai

代碼

最佳 AI 程式碼審查工具：自動化確保程式碼整潔度，並重構舊版儲存庫檔案

立即在 XIX.AI 探索 2026 年最佳 AI 程式碼審查工具。我們精心挑選的清單收錄了備受好評、能徹底改變遊戲規則的工具，可自動確保程式碼符合規範，並重構舊版儲存庫檔案。透過實際測試與每週更新的排行榜，比較免費與付費選項。立即掌握您的 AI 競爭優勢。

10 個工具

xix.ai

文字轉語音

專為閱讀障礙設計的頂尖 AI 語音合成應用程式：協助學生提升學習與閱讀效率

探索 2026 年最新精選、專為閱讀障礙者設計的頂級 AI 語音合成（TTS）應用程式。我們的專家評比將免費與付費工具進行對照，重點介紹能提升閱讀效率與學習成效的強大功能。發掘這些必試且能帶來革命性改變的解決方案，釋放學生的潛能。立即前往 XIX.AI 展開您的探索之旅。

10 個工具

xix.ai

漫畫創作

少年漫畫頂尖 AI 生成器：打造高張力動作場面與能量特效

立即前往 XIX.AI，探索 2026 年最優秀的少年漫畫 AI 生成工具。我們精心挑選的頂級清單，匯集了能打造高張力動作場面與動態能量特效的強大工具。透過實際測試，比較免費與付費選項的差異。釋放您的創作潛能，今天就開始打造史詩級漫畫吧！

15 個工具

xix.ai

商業

最佳 AI 支出追蹤工具：掃描收據並自動分類公司開支

2026 年最新最佳 AI 報銷管理工具：備受好評的解決方案，可自動掃描收據並分類企業支出。探索強大且顛覆傳統的解決方案，助您輕鬆管理報銷、精準追蹤財務，並簡化合規流程。我們精心整理並每週更新的免費與付費方案比較指南，將協助您找到最合適的選擇。透過 XIX.AI 的專家精選，釋放您的 AI 優勢。

10 個工具

xix.ai

商業

最佳 AI 招聘工具：篩選履歷與自動化安排候選人面試

在 XIX.AI 探索 2026 年最新且評價最高的 AI 招聘工具。我們精心挑選的清單收錄了強大且具顛覆性的解決方案，可協助篩選履歷並自動化安排候選人面試。透過實際測試與每週更新的排行榜，比較免費與付費選項。立即找到最適合您的招聘助手，並優化您的招聘流程！

10 個工具

xix.ai

評論 (2)

0/500

請登錄後再操作

RoyMartínez

2026-05-23 20:00:21

Also die Kosten um das 10.000-fache zu senken? Das klingt fast zu gut, um wahr zu sein. Google hat da wohl einen echten Durchbruch geschafft. Wenn das stimmt, könnte das die ganze KI-Entwicklung demokratisieren. Kleine Startups hätten dann plötzlich eine Chance. Aber ich frage mich, ob das nur für bestimmte Modelle oder Trainingsmethoden funktioniert. Die Details wären spannend! 🤔

BruceWalker

2026-05-13 00:00:09

Google這效率提升太驚人了！訓練成本降一萬倍，以後AI開發門檻會低很多吧？不過資料中心能耗問題還是得關注，希望別只顧速度忽略永續性 🌱

頭號新聞

AI Builder和Power Automate革新文件摘要 AI寄主Notebooklm播客現已上中國發布國家級人形機器人與具身智能標準 Ramp 數據顯示，企業對 AI 的採納已進入停滯期 Bing圖像創作者教程：AI藝術生成指南學習使用您的聲音創建AI音樂：逐步Suno教程 iMyFone MagicMic：實時AI變聲器評測與教程 2025頂級AI影片生成器：Pika Labs與其他對比 DeepSeek V4 崛起為多模態人工智慧的變革者 Embodied Intelligence 公布首項業界標準，以遏止無序擴張

精選