選項
首頁
新聞
三星的精巧 AI 模型在推理能力上勝過較大的競爭對手

三星的精巧 AI 模型在推理能力上勝過較大的競爭對手

2025-12-03
73

三星 AI 研究人員的一篇新論文概述了緊湊型網路如何在處理複雜的推理任務時優於大規模的大型語言模型 (LLM)。

在爭奪人工智能主導地位的競賽中,業界普遍的口號是 「越大越好」。當科技巨頭投資數十億美元開發越來越大的模型時,Samsung SAIL Montréal 的 Alexia Jolicoeur-Martineau 提出了另一種更有效率的方法,即使用微小遞歸模型 (TRM)。

TRM 只需 7 百萬個參數 - 少於頂尖 LLM 大小的 0.01%,就能在 ARC-AGI 智慧測試等臭名昭著的挑戰性基準上取得最先進的新結果。Samsung 的研究結果挑戰了一般人認為規模是推進人工智慧的唯一途徑的看法,提出了一個更具永續性、更節省參數的替代方案。

克服規模的限制

雖然 LLM 擅長產生類似人類的文字,但它們處理複雜、多步驟推理的能力往往很脆弱。由於它們會逐個符號產生回應,因此早期的一個錯誤可能會影響整個解決方案,造成不正確的最終答案。

Chain-of-Thought 之類的技術,可以讓模型一步一步地分解問題,目的在於緩解這個問題。然而,這些方法的計算成本很高,通常需要大量高品質的推理資料,而且仍可能產生錯誤的邏輯。即使有了這些改進,LLM 也很難解決需要完美邏輯執行的難題。

Samsung 的研究以最近的層次推理模型 (HRM) 為基礎。HRM 使用兩個小型神經網路,以不同頻率遞迴精煉答案。儘管這個模型很有前途,但卻很複雜,它依賴於不確定的生物論據和定點定理,而這些論據和定理並不總是適用的。

與 HRM 的雙網路架構不同,TRM 採用了單一、精簡的網路,可以遞歸地增強其內部推理和建議的答案。

模型接收問題、初始答案猜測和潛在推理特徵。然後,它會循環多個步驟,根據所有三個輸入來改進其推理。使用此改進的推理,它會更新其最終答案預測。整個過程最多可以重複 16 次,使模型能夠以高度節省參數的方式逐步進行自我修正。

與直覺相反的是,研究發現兩層網路的泛化效果比四層網路好得多。較小的設計似乎可以防止過度適應 - 這是在有限的專門資料集上進行訓練時常見的問題。

TRM 也消除了其前身的複雜數學假設。原始的 HRM 模型必須假設函數收斂到一個固定點,才能證明其訓練的合理性。TRM 繞過了這一點,透過其完整的遞歸過程進行反向傳播 - 這一改變大大提高了性能,在消融測試中,Sudoku-Extreme 基準準準確率從 56.5% 提高到 87.4%。

三星的模型以更少的資源擊敗 AI 基準

結果令人驚訝。在只使用 1,000 個訓練範例的 Sudoku-Extreme 資料集上,TRM 的測試準確度達到 87.4%,相較於 HRM 的 55%,是一大躍進。在 Maze-Hard(需要在 30×30 的迷宮中穿梭長路徑)上,TRM 的測試準確率為 85.3%,HRM 則為 74.5%。

最值得注意的是,TRM 在抽象與推理語料庫(Abstraction and Reasoning Corpus,ARC-AGI)上取得了顯著進步,ARC-AGI 是為評估人工智能中真正的流體智能而設計的基準。僅使用 7M 參數,TRM 就在 ARC-AGI-1 上達到 44.6% 的準確度,在 ARC-AGI-2 上達到 7.8%。這勝過使用 27M 參數的 HRM,甚至超越許多全球最大的 LLM。相較之下,Gemini 2.5 Pro 在 ARC-AGI-2 的得分只有 4.9%。

TRM 的訓練流程也經過最佳化。我們簡化了稱為 ACT 的自適應機制 (該機制可決定模型何時已充分改善答案並可繼續前進),省去了每個訓練步驟中成本高昂的第二次前進。這項調整並未損害整體的泛化能力。

Samsung 的研究有力地反駁了建立越來越大的 AI 模型的趨勢。它證明了透過設計具有迭代推理和自我修正能力的架構,只需使用極小部分的計算資源,就能解決極度困難的問題。

另請參閱:Google 新的 AI 代理可改寫程式碼,自動修補漏洞

有興趣向業界領導者瞭解更多關於 AI 和大資料的資訊嗎?參加在阿姆斯特丹、加州和倫敦舉行的 AI & Big Data Expo。這項綜合活動是 TechEx 的一部分,並與其他主要科技活動 (如網路安全博覽會) 同時舉行。點選此處瞭解詳情。

AI News 由 TechForge Media 提供。在此探索其他即將舉行的企業技術活動和網路研討會。

相關文章
WordPress.com 現已允許 AI 代理程式撰寫並發布文章,還有更多功能 WordPress.com 現已允許 AI 代理程式撰寫並發布文章,還有更多功能 廣受歡迎的網站託管與發佈平台 WordPress.com 現正積極導入 AI 代理程式——此舉可能重塑網路的樣貌與使用體驗。該公司於週五宣布,將允許 AI 代理程式在客戶網站上起草、編輯及發佈內容,同時也能管理留言、更新與修正元資料,並透過標籤和分類來整理內容。所有這些操作皆透過一個介面進行控制,網站擁有者只需使用自然語言指令說明其需求即可。憑藉這些新功能,網站幾乎可以完全由人工指導的 AI 代理
Kakao Mobility 概述了針對實體人工智慧的第 4 級自動駕駛路線圖 Kakao Mobility 概述了針對實體人工智慧的第 4 級自動駕駛路線圖 Kakao Mobility 計畫內部開發第 4 級自動駕駛技術,作為其實體人工智慧策略的一環。在首爾COEX舉行的2026年世界資訊科技展(World IT Show)會議上,Kakao Mobility副總裁兼實體AI部門負責人金鎮奎(Kim Jin-kyu)發表了該發展藍圖。他的演講聚焦於實體AI時代以移動平台為核心的自動駕駛服務。據韓聯社報導,這場名為「超越構想,付諸行動:AI 推動現
巴里·迪勒:隨著通用人工智慧(AGI)日益臨近,對山姆·奧特曼的信任已無關緊要 巴里·迪勒:隨著通用人工智慧(AGI)日益臨近,對山姆·奧特曼的信任已無關緊要 儘管近期有報導指出相反的看法,但億萬富翁媒體大亨巴里·迪勒並不認為 OpenAI 執行長山姆·奧特曼不可信。迪勒本週在《華爾街日報》的「萬物未來」會議上發言時,為奧特曼辯護;奧特曼此前曾遭到部分前同事和董事會成員指控,指稱他偶爾會採取操縱和欺騙手段。身為奧特曼好友的迪勒,當時正回應一個關於人們是否應信任奧特曼、以確保人工智慧造福人類的問題。具體而言,提問者探討了被稱為「通用人工智慧」(AGI)的理
相關專題推薦
文字轉語音 專為閱讀障礙設計的頂尖 AI 語音合成應用程式:協助學生提升學習與閱讀效率
專為閱讀障礙設計的頂尖 AI 語音合成應用程式:協助學生提升學習與閱讀效率

探索 2026 年最新精選、專為閱讀障礙者設計的頂級 AI 語音合成(TTS)應用程式。我們的專家評比將免費與付費工具進行對照,重點介紹能提升閱讀效率與學習成效的強大功能。發掘這些必試且能帶來革命性改變的解決方案,釋放學生的潛能。立即前往 XIX.AI 展開您的探索之旅。

10 個工具
xix.ai
漫畫創作 少年漫畫頂尖 AI 生成器:打造高張力動作場面與能量特效
少年漫畫頂尖 AI 生成器:打造高張力動作場面與能量特效

立即前往 XIX.AI,探索 2026 年最優秀的少年漫畫 AI 生成工具。我們精心挑選的頂級清單,匯集了能打造高張力動作場面與動態能量特效的強大工具。透過實際測試,比較免費與付費選項的差異。釋放您的創作潛能,今天就開始打造史詩級漫畫吧!

15 個工具
xix.ai
商業 最佳 AI 支出追蹤工具:掃描收據並自動分類公司開支
最佳 AI 支出追蹤工具:掃描收據並自動分類公司開支

2026 年最新最佳 AI 報銷管理工具:備受好評的解決方案,可自動掃描收據並分類企業支出。探索強大且顛覆傳統的解決方案,助您輕鬆管理報銷、精準追蹤財務,並簡化合規流程。我們精心整理並每週更新的免費與付費方案比較指南,將協助您找到最合適的選擇。透過 XIX.AI 的專家精選,釋放您的 AI 優勢。

10 個工具
xix.ai
商業 最佳 AI 招聘工具:篩選履歷與自動化安排候選人面試
最佳 AI 招聘工具:篩選履歷與自動化安排候選人面試

在 XIX.AI 探索 2026 年最新且評價最高的 AI 招聘工具。我們精心挑選的清單收錄了強大且具顛覆性的解決方案,可協助篩選履歷並自動化安排候選人面試。透過實際測試與每週更新的排行榜,比較免費與付費選項。立即找到最適合您的招聘助手,並優化您的招聘流程!

10 個工具
xix.ai
生產率 AI 個人健康與專注力教練:管理倦怠感並提升精神能量
AI 個人健康與專注力教練:管理倦怠感並提升精神能量

立即在 XIX.AI 探索 2026 年最佳 AI 個人健康與專注力教練。我們精心策劃的排行榜收錄了備受好評、能帶來革命性改變的工具,助您管理倦怠感並提升精神能量。透過實際使用心得,比較免費與付費方案的差異。立即開啟通往巔峰生產力與身心健康的道路。

10 個工具
xix.ai
聊天機器人 最受好評的 AI 浪漫聊天機器人:透過一貫的個性建立長期關係
最受好評的 AI 浪漫聊天機器人:透過一貫的個性建立長期關係

探索 2026 年最新、評價最高的 AI 浪漫聊天機器人,助您建立真摯且長久的連結。我們精心整理的清單包含功能強大且性格鮮明的聊天機器人、免費與付費版本的比較,以及實際測試結果。立即前往 XIX.AI 尋找您的完美伴侶,並開始建立這段關係吧。

10 個工具
xix.ai
評論 (0)
0/500
OR