Meta FAIR 發表推進類人人工智能的五大突破性成果
Meta的基礎人工智慧研究團隊(FAIR)近日發表五項新計畫,推動其在先進機器智能(AMI)領域的進展。
這些最新成果聚焦於提升人工智慧感知能力——即機器處理感官輸入的方式——同時在語言模型、機器人技術及協作式人工智慧代理領域取得進展。
Meta闡明其目標在於打造「能獲取、處理並解讀來自現實世界的感官數據,進而運用這些資訊以類人智慧與速度做出決策」的機器系統。
五項新計劃構成了實現此宏偉目標的系列互聯行動。
感知編碼器:強化AI視覺智能
新發布的核心技術是感知編碼器,這套大型視覺編碼器專為在各類圖像與影片任務中展現卓越性能而設計。
視覺編碼器如同AI系統的「眼睛」,使其能理解視覺資訊。
Meta指出,為先進AI開發編碼器日益困難,這類編碼器需串聯視覺與語言能力、精準處理圖像與影片,並在惡意攻擊等嚴苛環境下維持可靠性。
Meta認為理想的編碼器應具備廣域概念辨識能力,同時能捕捉細微細節——例如「發現海底隱藏的魟魚、辨識影像背景中的小金翅雀,或透過夜視野生動物攝影機偵測快速移動的赤鼬」。
Meta宣稱此感知編碼器在零樣本圖像與影片分類及檢索任務中展現「卓越性能,超越現有所有開源與專有模型」。
此外,據稱其感知能力還能提升語言任務的執行效能。
當與大型語言模型(LLM)結合時,該編碼器在視覺問答(VQA)、圖文標註、文件理解及圖文關聯(將文字與圖像特定區域連結)等領域表現優於其他視覺編碼器。 據稱在大型語言模型通常難以處理的任務上,如理解空間關係(例如「若某物體位於另一物體後方」)或物體相對於相機的運動軌跡,其表現亦有所提升。
Meta表示:「隨著感知編碼器逐步整合至新應用場景,我們期待見證其先進視覺能力如何驅動更精密的人工智慧系統。」
感知語言模型(PLM):推動開放式視覺語言研究
與編碼器協同運作的感知語言模型(PLM),是一款專為複雜視覺辨識任務設計的開放式可重現視覺語言模型。
PLM在訓練過程中採用大量合成數據與開放式視覺語言數據集,刻意避開從外部專有模型淬煉而來的知識。
鑑於現有影片理解數據的不足,FAIR團隊彙整了250萬個經人工標註的新樣本,專注於精細影片問答與時空標註技術。Meta宣稱此為「迄今同類最大規模數據集」。
PLM提供10億、30億及80億參數版本,以滿足學術研究對完全透明化的需求。
除模型外,Meta同步發布專為測試「細粒度活動理解與時空錨定推理」能力而設計的新基準測試框架PLM-VideoBench——此類能力常被現有基準忽略。
Meta 期望透過開放模型、大型數據集與高難度基準測試,強化開源社群的實力。
Meta Locate 3D:賦予機器人情境感知能力
Meta Locate 3D 架起語言指令與物理動作的橋樑。此端到端模型旨在讓機器人能根據開放式自然語言查詢,在三維空間中精準定位物體。
Meta Locate 3D直接處理來自RGB-D感測器(如部分機器人或深度感測相機配備)的3D點雲數據。當接收「電視櫃旁的花瓶」等文字提示時,系統會分析空間關係與情境脈絡,精準識別目標物件實例——例如區分「電視櫃旁的花瓶」與「桌上的花瓶」。
該系統包含三大核心組件:預處理階段將2D特徵轉換為3D特徵化點雲;3D-JEPA編碼器(預訓練模型,用於建立語境化3D世界表徵);以及Locate 3D解碼器,透過3D表徵與語言查詢生成指定物件的邊界框與遮罩。
除模型外,Meta同步發布基於指涉表達的物件定位大型新資料集。該資料集整合ARKitScenes、ScanNet及ScanNet++三組場景數據,涵蓋1,346個場景共13萬筆語言標註,使該領域現有標註數據量倍增。
Meta認為此技術對開發更強大的機器人系統至關重要,包括其PARTNR機器人專案,能促進更自然的人機互動與協作。
動態字元潛在轉換器:高效且穩健的語言建模
繼2024年末發表研究後,Meta現正式釋出其80億參數動態位元組潛在轉換器的模型權重。
此架構突破傳統基於標記化的語言模型框架,直接在位元組層級運作。Meta宣稱此方法在規模化運作時能達到相近效能,同時顯著提升推論效率與穩健性。
傳統大型語言模型將文本分割為「詞元」,此機制易受拼寫錯誤、新詞彙或敵對輸入影響。而位元組層級模型直接處理原始位元組,可望提供更高韌性。
Meta報告指出,動態位元組潛在轉換器「在多項任務中表現優於基於標記化模型,於擾動HellaSwag測試中展現平均7分的穩健性優勢,在CUTE標記理解基準測試任務中最高可達55分優勢」。
Meta除釋出模型權重外,亦同步公開先前分享的程式碼庫,鼓勵研究社群探索此種語言建模的替代方案。
協作推理器:推動社會智能人工智慧代理發展
最終發布的協作推理器,致力解決打造能與人類或AI有效協作之智能體的複雜挑戰。
Meta指出人類協作往往能產生更佳成果,因此致力賦予AI類似能力以執行作業輔導或求職面試準備等任務。
此類協作不僅需要解決問題,更需溝通、同理心、給予回饋及理解他人觀點(心理理論)等社交技能,且通常需透過多次對話互動方能實現。
當前的超大規模語言模型訓練與評估方法,往往忽略這些社交與協作維度。此外,蒐集相關對話數據既耗費成本又充滿挑戰。
協作推理器提供了一套評估與提升這些技能的框架,包含需透過兩個代理人對話達成多步驟推理的目標導向任務。該框架測試的能力包括建設性異議、說服力,以及達成互利最佳解的能力。
Meta的評估顯示,現行模型往往無法持續運用協作來提升結果。為解決此問題,他們提出一種利用合成互動數據的自我改進技術,讓大型語言模型代理與自身進行協作。
透過名為Matrix的新型高效能模型服務引擎,得以大規模生成此類數據。據稱在數學、科學及社會推理任務中採用此方法,相較單一LLM的標準「思緒鏈」表現,成效提升幅度最高達29.4%。
Meta透過開源數據生成與建模管道,旨在加速研發真正「能與人類及其他智能體協作的社交智能體」。
這五項發布共同彰顯Meta持續投入基礎AI研究的雄厚實力,尤其致力打造能以更類人方式感知、理解並與世界互動的機器基礎元件。
另請參閱:Meta將使用歐盟用戶數據訓練AI模型
想向業界領袖深入了解人工智慧與大數據?歡迎參與於阿姆斯特丹、加州及倫敦舉行的「人工智慧與大數據博覽會」。此綜合性活動與其他重要盛會同期舉行,包括智能自動化大會、BlockX區塊鏈展、數位轉型週及網路安全與雲端博覽會。
探索更多由TechForge主辦的企業科技活動與線上研討會,請點此處。
相關文章
Google 相片運用人工智慧,讓《窈窕淑女》中那座標誌性的衣櫥栩栩如生
Google Photos 於週三宣布了一項由人工智慧驅動的新功能,這項功能將很快能將您衣物的照片轉化為數位衣櫥,讓您能創造嶄新的穿搭組合,甚至進行虛擬試穿。這個概念顯然是受到電影《窈窕淑女》中 Cher 那座標誌性的虛擬衣櫥啟發,她在片中可以瀏覽眾多服裝組合,同時決定該穿什麼。Google表示,這項功能將運用AI技術,根據您Google相簿圖庫中的衣物,自動建立您的衣櫥數位副本。在應用程式內,您
Notion 將其工作區轉變為人工智慧代理的樞紐
生產力軟體公司 Notion 正邁入「代理時代」。在週三的直播產品發布會上,以協作式筆記應用程式聞名的 Notion 揭曉了一套全新的開發者平台,該平台不僅擴展了其自訂 AI 代理程式的能力,還能與外部代理程式串接,並讓團隊建立自動化多步驟工作流程,從任何資料庫中擷取資料。透過建立一個「協調層」——一個能在多個工具和資料來源之間協調 AI 工作的系統——Notion 將自身定位為不僅僅是一款具備
ElevenLabs 宣布 BlackRock、傑米·福克斯與伊娃·朗格莉亞成為新投資人
語音人工智慧公司 ElevenLabs 已公布其 5 億美元 D 輪融資的更多投資者名單,該輪融資最初於二月宣布。 投資者陣容包括黑石集團(BlackRock)、威靈頓管理(Wellington)、D.E. Shaw及施羅德(Schroders)等機構投資者;NVIDIA、Salesforce、桑坦德銀行(Santander)、KPN及德國電信(Deutsche Telekom)等企業;以及傑米·
相關專題推薦
評論 (1)
0/500
So these advancements focus on perception and reasoning, huh? As someone who deals with automation at work, I find the 'AMI' goal both exciting and a bit unsettling. It feels like we're closing the loop between what a machine 'sees' and what it 'understands', which could revolutionize everything from logistics to creative tools. But honestly, I hope the focus stays on augmenting human ability rather than just chasing benchmarks that sound cool in research papers. The ethics of human-like perception need to be front and center. 🧠
Meta的基礎人工智慧研究團隊(FAIR)近日發表五項新計畫,推動其在先進機器智能(AMI)領域的進展。
這些最新成果聚焦於提升人工智慧感知能力——即機器處理感官輸入的方式——同時在語言模型、機器人技術及協作式人工智慧代理領域取得進展。
Meta闡明其目標在於打造「能獲取、處理並解讀來自現實世界的感官數據,進而運用這些資訊以類人智慧與速度做出決策」的機器系統。
五項新計劃構成了實現此宏偉目標的系列互聯行動。
感知編碼器:強化AI視覺智能
新發布的核心技術是感知編碼器,這套大型視覺編碼器專為在各類圖像與影片任務中展現卓越性能而設計。
視覺編碼器如同AI系統的「眼睛」,使其能理解視覺資訊。
Meta指出,為先進AI開發編碼器日益困難,這類編碼器需串聯視覺與語言能力、精準處理圖像與影片,並在惡意攻擊等嚴苛環境下維持可靠性。
Meta認為理想的編碼器應具備廣域概念辨識能力,同時能捕捉細微細節——例如「發現海底隱藏的魟魚、辨識影像背景中的小金翅雀,或透過夜視野生動物攝影機偵測快速移動的赤鼬」。
Meta宣稱此感知編碼器在零樣本圖像與影片分類及檢索任務中展現「卓越性能,超越現有所有開源與專有模型」。
此外,據稱其感知能力還能提升語言任務的執行效能。
當與大型語言模型(LLM)結合時,該編碼器在視覺問答(VQA)、圖文標註、文件理解及圖文關聯(將文字與圖像特定區域連結)等領域表現優於其他視覺編碼器。 據稱在大型語言模型通常難以處理的任務上,如理解空間關係(例如「若某物體位於另一物體後方」)或物體相對於相機的運動軌跡,其表現亦有所提升。
Meta表示:「隨著感知編碼器逐步整合至新應用場景,我們期待見證其先進視覺能力如何驅動更精密的人工智慧系統。」
感知語言模型(PLM):推動開放式視覺語言研究
與編碼器協同運作的感知語言模型(PLM),是一款專為複雜視覺辨識任務設計的開放式可重現視覺語言模型。
PLM在訓練過程中採用大量合成數據與開放式視覺語言數據集,刻意避開從外部專有模型淬煉而來的知識。
鑑於現有影片理解數據的不足,FAIR團隊彙整了250萬個經人工標註的新樣本,專注於精細影片問答與時空標註技術。Meta宣稱此為「迄今同類最大規模數據集」。
PLM提供10億、30億及80億參數版本,以滿足學術研究對完全透明化的需求。
除模型外,Meta同步發布專為測試「細粒度活動理解與時空錨定推理」能力而設計的新基準測試框架PLM-VideoBench——此類能力常被現有基準忽略。
Meta 期望透過開放模型、大型數據集與高難度基準測試,強化開源社群的實力。
Meta Locate 3D:賦予機器人情境感知能力
Meta Locate 3D 架起語言指令與物理動作的橋樑。此端到端模型旨在讓機器人能根據開放式自然語言查詢,在三維空間中精準定位物體。
Meta Locate 3D直接處理來自RGB-D感測器(如部分機器人或深度感測相機配備)的3D點雲數據。當接收「電視櫃旁的花瓶」等文字提示時,系統會分析空間關係與情境脈絡,精準識別目標物件實例——例如區分「電視櫃旁的花瓶」與「桌上的花瓶」。
該系統包含三大核心組件:預處理階段將2D特徵轉換為3D特徵化點雲;3D-JEPA編碼器(預訓練模型,用於建立語境化3D世界表徵);以及Locate 3D解碼器,透過3D表徵與語言查詢生成指定物件的邊界框與遮罩。
除模型外,Meta同步發布基於指涉表達的物件定位大型新資料集。該資料集整合ARKitScenes、ScanNet及ScanNet++三組場景數據,涵蓋1,346個場景共13萬筆語言標註,使該領域現有標註數據量倍增。
Meta認為此技術對開發更強大的機器人系統至關重要,包括其PARTNR機器人專案,能促進更自然的人機互動與協作。
動態字元潛在轉換器:高效且穩健的語言建模
繼2024年末發表研究後,Meta現正式釋出其80億參數動態位元組潛在轉換器的模型權重。
此架構突破傳統基於標記化的語言模型框架,直接在位元組層級運作。Meta宣稱此方法在規模化運作時能達到相近效能,同時顯著提升推論效率與穩健性。
傳統大型語言模型將文本分割為「詞元」,此機制易受拼寫錯誤、新詞彙或敵對輸入影響。而位元組層級模型直接處理原始位元組,可望提供更高韌性。
Meta報告指出,動態位元組潛在轉換器「在多項任務中表現優於基於標記化模型,於擾動HellaSwag測試中展現平均7分的穩健性優勢,在CUTE標記理解基準測試任務中最高可達55分優勢」。
Meta除釋出模型權重外,亦同步公開先前分享的程式碼庫,鼓勵研究社群探索此種語言建模的替代方案。
協作推理器:推動社會智能人工智慧代理發展
最終發布的協作推理器,致力解決打造能與人類或AI有效協作之智能體的複雜挑戰。
Meta指出人類協作往往能產生更佳成果,因此致力賦予AI類似能力以執行作業輔導或求職面試準備等任務。
此類協作不僅需要解決問題,更需溝通、同理心、給予回饋及理解他人觀點(心理理論)等社交技能,且通常需透過多次對話互動方能實現。
當前的超大規模語言模型訓練與評估方法,往往忽略這些社交與協作維度。此外,蒐集相關對話數據既耗費成本又充滿挑戰。
協作推理器提供了一套評估與提升這些技能的框架,包含需透過兩個代理人對話達成多步驟推理的目標導向任務。該框架測試的能力包括建設性異議、說服力,以及達成互利最佳解的能力。
Meta的評估顯示,現行模型往往無法持續運用協作來提升結果。為解決此問題,他們提出一種利用合成互動數據的自我改進技術,讓大型語言模型代理與自身進行協作。
透過名為Matrix的新型高效能模型服務引擎,得以大規模生成此類數據。據稱在數學、科學及社會推理任務中採用此方法,相較單一LLM的標準「思緒鏈」表現,成效提升幅度最高達29.4%。
Meta透過開源數據生成與建模管道,旨在加速研發真正「能與人類及其他智能體協作的社交智能體」。
這五項發布共同彰顯Meta持續投入基礎AI研究的雄厚實力,尤其致力打造能以更類人方式感知、理解並與世界互動的機器基礎元件。
另請參閱:Meta將使用歐盟用戶數據訓練AI模型
想向業界領袖深入了解人工智慧與大數據?歡迎參與於阿姆斯特丹、加州及倫敦舉行的「人工智慧與大數據博覽會」。此綜合性活動與其他重要盛會同期舉行,包括智能自動化大會、BlockX區塊鏈展、數位轉型週及網路安全與雲端博覽會。
探索更多由TechForge主辦的企業科技活動與線上研討會,請點此處。
Google 相片運用人工智慧,讓《窈窕淑女》中那座標誌性的衣櫥栩栩如生
Google Photos 於週三宣布了一項由人工智慧驅動的新功能,這項功能將很快能將您衣物的照片轉化為數位衣櫥,讓您能創造嶄新的穿搭組合,甚至進行虛擬試穿。這個概念顯然是受到電影《窈窕淑女》中 Cher 那座標誌性的虛擬衣櫥啟發,她在片中可以瀏覽眾多服裝組合,同時決定該穿什麼。Google表示,這項功能將運用AI技術,根據您Google相簿圖庫中的衣物,自動建立您的衣櫥數位副本。在應用程式內,您
Notion 將其工作區轉變為人工智慧代理的樞紐
生產力軟體公司 Notion 正邁入「代理時代」。在週三的直播產品發布會上,以協作式筆記應用程式聞名的 Notion 揭曉了一套全新的開發者平台,該平台不僅擴展了其自訂 AI 代理程式的能力,還能與外部代理程式串接,並讓團隊建立自動化多步驟工作流程,從任何資料庫中擷取資料。透過建立一個「協調層」——一個能在多個工具和資料來源之間協調 AI 工作的系統——Notion 將自身定位為不僅僅是一款具備
ElevenLabs 宣布 BlackRock、傑米·福克斯與伊娃·朗格莉亞成為新投資人
語音人工智慧公司 ElevenLabs 已公布其 5 億美元 D 輪融資的更多投資者名單,該輪融資最初於二月宣布。 投資者陣容包括黑石集團(BlackRock)、威靈頓管理(Wellington)、D.E. Shaw及施羅德(Schroders)等機構投資者;NVIDIA、Salesforce、桑坦德銀行(Santander)、KPN及德國電信(Deutsche Telekom)等企業;以及傑米·
So these advancements focus on perception and reasoning, huh? As someone who deals with automation at work, I find the 'AMI' goal both exciting and a bit unsettling. It feels like we're closing the loop between what a machine 'sees' and what it 'understands', which could revolutionize everything from logistics to creative tools. But honestly, I hope the focus stays on augmenting human ability rather than just chasing benchmarks that sound cool in research papers. The ethics of human-like perception need to be front and center. 🧠





首頁






