三星的精巧 AI 模型在推理能力上勝過較大的競爭對手
三星 AI 研究人員的一篇新論文概述了緊湊型網路如何在處理複雜的推理任務時優於大規模的大型語言模型 (LLM)。
在爭奪人工智能主導地位的競賽中,業界普遍的口號是 「越大越好」。當科技巨頭投資數十億美元開發越來越大的模型時,Samsung SAIL Montréal 的 Alexia Jolicoeur-Martineau 提出了另一種更有效率的方法,即使用微小遞歸模型 (TRM)。
TRM 只需 7 百萬個參數 - 少於頂尖 LLM 大小的 0.01%,就能在 ARC-AGI 智慧測試等臭名昭著的挑戰性基準上取得最先進的新結果。Samsung 的研究結果挑戰了一般人認為規模是推進人工智慧的唯一途徑的看法,提出了一個更具永續性、更節省參數的替代方案。
克服規模的限制
雖然 LLM 擅長產生類似人類的文字,但它們處理複雜、多步驟推理的能力往往很脆弱。由於它們會逐個符號產生回應,因此早期的一個錯誤可能會影響整個解決方案,造成不正確的最終答案。
Chain-of-Thought 之類的技術,可以讓模型一步一步地分解問題,目的在於緩解這個問題。然而,這些方法的計算成本很高,通常需要大量高品質的推理資料,而且仍可能產生錯誤的邏輯。即使有了這些改進,LLM 也很難解決需要完美邏輯執行的難題。
Samsung 的研究以最近的層次推理模型 (HRM) 為基礎。HRM 使用兩個小型神經網路,以不同頻率遞迴精煉答案。儘管這個模型很有前途,但卻很複雜,它依賴於不確定的生物論據和定點定理,而這些論據和定理並不總是適用的。
與 HRM 的雙網路架構不同,TRM 採用了單一、精簡的網路,可以遞歸地增強其內部推理和建議的答案。
模型接收問題、初始答案猜測和潛在推理特徵。然後,它會循環多個步驟,根據所有三個輸入來改進其推理。使用此改進的推理,它會更新其最終答案預測。整個過程最多可以重複 16 次,使模型能夠以高度節省參數的方式逐步進行自我修正。
與直覺相反的是,研究發現兩層網路的泛化效果比四層網路好得多。較小的設計似乎可以防止過度適應 - 這是在有限的專門資料集上進行訓練時常見的問題。
TRM 也消除了其前身的複雜數學假設。原始的 HRM 模型必須假設函數收斂到一個固定點,才能證明其訓練的合理性。TRM 繞過了這一點,透過其完整的遞歸過程進行反向傳播 - 這一改變大大提高了性能,在消融測試中,Sudoku-Extreme 基準準準確率從 56.5% 提高到 87.4%。
三星的模型以更少的資源擊敗 AI 基準
結果令人驚訝。在只使用 1,000 個訓練範例的 Sudoku-Extreme 資料集上,TRM 的測試準確度達到 87.4%,相較於 HRM 的 55%,是一大躍進。在 Maze-Hard(需要在 30×30 的迷宮中穿梭長路徑)上,TRM 的測試準確率為 85.3%,HRM 則為 74.5%。
最值得注意的是,TRM 在抽象與推理語料庫(Abstraction and Reasoning Corpus,ARC-AGI)上取得了顯著進步,ARC-AGI 是為評估人工智能中真正的流體智能而設計的基準。僅使用 7M 參數,TRM 就在 ARC-AGI-1 上達到 44.6% 的準確度,在 ARC-AGI-2 上達到 7.8%。這勝過使用 27M 參數的 HRM,甚至超越許多全球最大的 LLM。相較之下,Gemini 2.5 Pro 在 ARC-AGI-2 的得分只有 4.9%。
TRM 的訓練流程也經過最佳化。我們簡化了稱為 ACT 的自適應機制 (該機制可決定模型何時已充分改善答案並可繼續前進),省去了每個訓練步驟中成本高昂的第二次前進。這項調整並未損害整體的泛化能力。
Samsung 的研究有力地反駁了建立越來越大的 AI 模型的趨勢。它證明了透過設計具有迭代推理和自我修正能力的架構,只需使用極小部分的計算資源,就能解決極度困難的問題。
另請參閱:Google 新的 AI 代理可改寫程式碼,自動修補漏洞

有興趣向業界領導者瞭解更多關於 AI 和大資料的資訊嗎?參加在阿姆斯特丹、加州和倫敦舉行的 AI & Big Data Expo。這項綜合活動是 TechEx 的一部分,並與其他主要科技活動 (如網路安全博覽會) 同時舉行。點選此處瞭解詳情。
AI News 由 TechForge Media 提供。在此探索其他即將舉行的企業技術活動和網路研討會。
相關文章
WordPress.com 現已允許 AI 代理程式撰寫並發布文章,還有更多功能
廣受歡迎的網站託管與發佈平台 WordPress.com 現正積極導入 AI 代理程式——此舉可能重塑網路的樣貌與使用體驗。該公司於週五宣布,將允許 AI 代理程式在客戶網站上起草、編輯及發佈內容,同時也能管理留言、更新與修正元資料,並透過標籤和分類來整理內容。所有這些操作皆透過一個介面進行控制,網站擁有者只需使用自然語言指令說明其需求即可。憑藉這些新功能,網站幾乎可以完全由人工指導的 AI 代理
Kakao Mobility 概述了針對實體人工智慧的第 4 級自動駕駛路線圖
Kakao Mobility 計畫內部開發第 4 級自動駕駛技術,作為其實體人工智慧策略的一環。在首爾COEX舉行的2026年世界資訊科技展(World IT Show)會議上,Kakao Mobility副總裁兼實體AI部門負責人金鎮奎(Kim Jin-kyu)發表了該發展藍圖。他的演講聚焦於實體AI時代以移動平台為核心的自動駕駛服務。據韓聯社報導,這場名為「超越構想,付諸行動:AI 推動現
巴里·迪勒:隨著通用人工智慧(AGI)日益臨近,對山姆·奧特曼的信任已無關緊要
儘管近期有報導指出相反的看法,但億萬富翁媒體大亨巴里·迪勒並不認為 OpenAI 執行長山姆·奧特曼不可信。迪勒本週在《華爾街日報》的「萬物未來」會議上發言時,為奧特曼辯護;奧特曼此前曾遭到部分前同事和董事會成員指控,指稱他偶爾會採取操縱和欺騙手段。身為奧特曼好友的迪勒,當時正回應一個關於人們是否應信任奧特曼、以確保人工智慧造福人類的問題。具體而言,提問者探討了被稱為「通用人工智慧」(AGI)的理
相關專題推薦
評論 (0)
0/500
三星 AI 研究人員的一篇新論文概述了緊湊型網路如何在處理複雜的推理任務時優於大規模的大型語言模型 (LLM)。
在爭奪人工智能主導地位的競賽中,業界普遍的口號是 「越大越好」。當科技巨頭投資數十億美元開發越來越大的模型時,Samsung SAIL Montréal 的 Alexia Jolicoeur-Martineau 提出了另一種更有效率的方法,即使用微小遞歸模型 (TRM)。
TRM 只需 7 百萬個參數 - 少於頂尖 LLM 大小的 0.01%,就能在 ARC-AGI 智慧測試等臭名昭著的挑戰性基準上取得最先進的新結果。Samsung 的研究結果挑戰了一般人認為規模是推進人工智慧的唯一途徑的看法,提出了一個更具永續性、更節省參數的替代方案。
克服規模的限制
雖然 LLM 擅長產生類似人類的文字,但它們處理複雜、多步驟推理的能力往往很脆弱。由於它們會逐個符號產生回應,因此早期的一個錯誤可能會影響整個解決方案,造成不正確的最終答案。
Chain-of-Thought 之類的技術,可以讓模型一步一步地分解問題,目的在於緩解這個問題。然而,這些方法的計算成本很高,通常需要大量高品質的推理資料,而且仍可能產生錯誤的邏輯。即使有了這些改進,LLM 也很難解決需要完美邏輯執行的難題。
Samsung 的研究以最近的層次推理模型 (HRM) 為基礎。HRM 使用兩個小型神經網路,以不同頻率遞迴精煉答案。儘管這個模型很有前途,但卻很複雜,它依賴於不確定的生物論據和定點定理,而這些論據和定理並不總是適用的。
與 HRM 的雙網路架構不同,TRM 採用了單一、精簡的網路,可以遞歸地增強其內部推理和建議的答案。
模型接收問題、初始答案猜測和潛在推理特徵。然後,它會循環多個步驟,根據所有三個輸入來改進其推理。使用此改進的推理,它會更新其最終答案預測。整個過程最多可以重複 16 次,使模型能夠以高度節省參數的方式逐步進行自我修正。
與直覺相反的是,研究發現兩層網路的泛化效果比四層網路好得多。較小的設計似乎可以防止過度適應 - 這是在有限的專門資料集上進行訓練時常見的問題。
TRM 也消除了其前身的複雜數學假設。原始的 HRM 模型必須假設函數收斂到一個固定點,才能證明其訓練的合理性。TRM 繞過了這一點,透過其完整的遞歸過程進行反向傳播 - 這一改變大大提高了性能,在消融測試中,Sudoku-Extreme 基準準準確率從 56.5% 提高到 87.4%。
三星的模型以更少的資源擊敗 AI 基準
結果令人驚訝。在只使用 1,000 個訓練範例的 Sudoku-Extreme 資料集上,TRM 的測試準確度達到 87.4%,相較於 HRM 的 55%,是一大躍進。在 Maze-Hard(需要在 30×30 的迷宮中穿梭長路徑)上,TRM 的測試準確率為 85.3%,HRM 則為 74.5%。
最值得注意的是,TRM 在抽象與推理語料庫(Abstraction and Reasoning Corpus,ARC-AGI)上取得了顯著進步,ARC-AGI 是為評估人工智能中真正的流體智能而設計的基準。僅使用 7M 參數,TRM 就在 ARC-AGI-1 上達到 44.6% 的準確度,在 ARC-AGI-2 上達到 7.8%。這勝過使用 27M 參數的 HRM,甚至超越許多全球最大的 LLM。相較之下,Gemini 2.5 Pro 在 ARC-AGI-2 的得分只有 4.9%。
TRM 的訓練流程也經過最佳化。我們簡化了稱為 ACT 的自適應機制 (該機制可決定模型何時已充分改善答案並可繼續前進),省去了每個訓練步驟中成本高昂的第二次前進。這項調整並未損害整體的泛化能力。
Samsung 的研究有力地反駁了建立越來越大的 AI 模型的趨勢。它證明了透過設計具有迭代推理和自我修正能力的架構,只需使用極小部分的計算資源,就能解決極度困難的問題。
另請參閱:Google 新的 AI 代理可改寫程式碼,自動修補漏洞

有興趣向業界領導者瞭解更多關於 AI 和大資料的資訊嗎?參加在阿姆斯特丹、加州和倫敦舉行的 AI & Big Data Expo。這項綜合活動是 TechEx 的一部分,並與其他主要科技活動 (如網路安全博覽會) 同時舉行。點選此處瞭解詳情。
AI News 由 TechForge Media 提供。在此探索其他即將舉行的企業技術活動和網路研討會。
WordPress.com 現已允許 AI 代理程式撰寫並發布文章,還有更多功能
廣受歡迎的網站託管與發佈平台 WordPress.com 現正積極導入 AI 代理程式——此舉可能重塑網路的樣貌與使用體驗。該公司於週五宣布,將允許 AI 代理程式在客戶網站上起草、編輯及發佈內容,同時也能管理留言、更新與修正元資料,並透過標籤和分類來整理內容。所有這些操作皆透過一個介面進行控制,網站擁有者只需使用自然語言指令說明其需求即可。憑藉這些新功能,網站幾乎可以完全由人工指導的 AI 代理
巴里·迪勒:隨著通用人工智慧(AGI)日益臨近,對山姆·奧特曼的信任已無關緊要
儘管近期有報導指出相反的看法,但億萬富翁媒體大亨巴里·迪勒並不認為 OpenAI 執行長山姆·奧特曼不可信。迪勒本週在《華爾街日報》的「萬物未來」會議上發言時,為奧特曼辯護;奧特曼此前曾遭到部分前同事和董事會成員指控,指稱他偶爾會採取操縱和欺騙手段。身為奧特曼好友的迪勒,當時正回應一個關於人們是否應信任奧特曼、以確保人工智慧造福人類的問題。具體而言,提問者探討了被稱為「通用人工智慧」(AGI)的理





首頁






