選項
首頁
新聞
AI擴展突破由專家質疑

AI擴展突破由專家質疑

2025-04-10
160

AI擴展突破由專家質疑

社交媒體上有些關於研究人員發現新AI「縮放法則」的討論,但專家們對此持保留態度。AI縮放三法則,更像是非正式指南,顯示AI模型在投入更多數據和計算能力時性能提升。直到大約一年前,主流趨勢是「預訓練」——基本上是使用更大數據集訓練更大模型。這仍然存在,但現在又多了兩種縮放法則:後訓練縮放,專注於調整模型行為;以及測試時縮放,涉及在推理時使用更多計算能力來提升模型的「推理」能力(例如R1模型)。

最近,來自Google和UC Berkeley的研究人員發表了一篇論文,網上一些人稱之為第四法則:「推理時搜索」。這種方法讓模型同時生成多個可能的答案,然後選出最佳答案。研究人員聲稱,這能提升舊模型(如Google的Gemini 1.5 Pro)的性能,在科學和數學基準測試中擊敗OpenAI的o1-preview「推理」模型。

Google博士研究員、論文共同作者之一Eric Zhao在X上分享,通過隨機採樣200個回答並讓模型自我驗證,Gemini 1.5——他開玩笑稱之為「古老的2024年初模型」——能超越o1-preview,甚至接近o1。他指出,隨著規模擴大,自我驗證變得更容易,這有些違反直覺但很酷。

但並非所有人都信服。阿爾伯塔大學AI研究員兼助理教授Matthew Guzdial告訴TechCrunch,這種方法在有可靠答案評判方式時效果最佳。但大多數問題並不簡單。他說:「如果我們無法編寫代碼來定義我們想要的,就無法使用[推理時]搜索。對於一般語言交互,我們做不到這一點……這通常不是解決大多數問題的好方法。」

Zhao回應說,他們的論文實際上探討了沒有明確評判方式的情況,模型必須自行解決。他認為,隨著規模擴大,有無明確評判方式之間的差距會縮小。

倫敦國王學院研究員Mike Cook支持Guzdial的觀點,認為推理時搜索並未真正提升模型的推理能力,更像是彌補模型自信錯誤的權宜之計。他指出,如果模型有5%的錯誤率,檢查200次嘗試應能更容易發現錯誤。

這對AI行業可能有些令人失望,該行業一直在尋找提升模型「推理」能力而不燒錢的方法。論文作者指出,推理模型解決一個數學問題可能花費數千美元的計算成本。

看來尋找新縮放技術的道路還遠未結束。

更新於3/20 太平洋時間上午5:12:新增了論文共同作者Eric Zhao的評論,他對一位獨立研究員的批評意見提出異議。

相關文章
以優化為驅動的人工智慧,正成為通用的模型發展新途徑 以優化為驅動的人工智慧,正成為通用的模型發展新途徑 伊利諾大學厄巴納-香檳分校與維吉尼亞大學的研究人員開發出一種新型模型架構,有望為具備更強推理能力且更具韌性的AI系統鋪平道路。名為「能量基變壓器」(EBT)的架構,能自然運用推論時間擴展性來解決複雜挑戰。對企業而言,這意味著能以成本效益方式部署人工智慧應用,無需專門調校模型即可適應新情境。系統二思維的挑戰在心理學中,人類認知通常分為兩種模式:快速直覺的系統一,以及較緩慢、更刻意且具分析性的系統二。
人工智慧熱潮引發網路泡沫時期的泡沫憂慮 人工智慧熱潮引發網路泡沫時期的泡沫憂慮 數十億美元湧入人工智慧領域的投資熱潮,引發一場激烈辯論:該產業是否正走向網路泡沫式的泡沫?投資者正密切關注熱潮是否降溫,或巨額晶片與基礎建設支出未能帶來預期回報的跡象。美銀全球研究近期調查凸顯此種謹慎態度:54%基金經理人認為人工智慧股票已處泡沫期,38%持反對意見。與網路泡沫的相似之處儘管樂觀情緒蔓延,質疑者仍質疑人工智慧的實質影響力,部分人士更直指其為虛張聲勢或即將破裂的泡沫。思科亞太、日本及
程序記憶降低人工智能代理成本和複雜性 程序記憶降低人工智能代理成本和複雜性 由浙江大學和阿里巴巴集團共同研發的一項新技術為大型語言模型(LLM)代理提供了動態記憶,從而提高其處理複雜任務的效率和效能。這種方法被命名為 Memp,它為代理提供了一種 「程序記憶」,這種記憶會隨著代理積累的經驗不斷更新,這與人類通過重複練習學習的方式類似。 Memp 建立了一個終身學習的系統,在這個系統中,代理不再需要從零開始處理每一項新任務。當他們在真實世界環境中面對新的情境時,他們會穩步改
相關專題推薦
漫畫創作 少年漫畫頂尖 AI 生成器:打造高張力動作場面與能量特效
少年漫畫頂尖 AI 生成器:打造高張力動作場面與能量特效

立即前往 XIX.AI,探索 2026 年最優秀的少年漫畫 AI 生成工具。我們精心挑選的頂級清單,匯集了能打造高張力動作場面與動態能量特效的強大工具。透過實際測試,比較免費與付費選項的差異。釋放您的創作潛能,今天就開始打造史詩級漫畫吧!

15 個工具
xix.ai
商業 最佳 AI 支出追蹤工具:掃描收據並自動分類公司開支
最佳 AI 支出追蹤工具:掃描收據並自動分類公司開支

2026 年最新最佳 AI 報銷管理工具:備受好評的解決方案,可自動掃描收據並分類企業支出。探索強大且顛覆傳統的解決方案,助您輕鬆管理報銷、精準追蹤財務,並簡化合規流程。我們精心整理並每週更新的免費與付費方案比較指南,將協助您找到最合適的選擇。透過 XIX.AI 的專家精選,釋放您的 AI 優勢。

10 個工具
xix.ai
商業 最佳 AI 招聘工具:篩選履歷與自動化安排候選人面試
最佳 AI 招聘工具:篩選履歷與自動化安排候選人面試

在 XIX.AI 探索 2026 年最新且評價最高的 AI 招聘工具。我們精心挑選的清單收錄了強大且具顛覆性的解決方案,可協助篩選履歷並自動化安排候選人面試。透過實際測試與每週更新的排行榜,比較免費與付費選項。立即找到最適合您的招聘助手,並優化您的招聘流程!

10 個工具
xix.ai
生產率 AI 個人健康與專注力教練:管理倦怠感並提升精神能量
AI 個人健康與專注力教練:管理倦怠感並提升精神能量

立即在 XIX.AI 探索 2026 年最佳 AI 個人健康與專注力教練。我們精心策劃的排行榜收錄了備受好評、能帶來革命性改變的工具,助您管理倦怠感並提升精神能量。透過實際使用心得,比較免費與付費方案的差異。立即開啟通往巔峰生產力與身心健康的道路。

10 個工具
xix.ai
聊天機器人 最受好評的 AI 浪漫聊天機器人:透過一貫的個性建立長期關係
最受好評的 AI 浪漫聊天機器人:透過一貫的個性建立長期關係

探索 2026 年最新、評價最高的 AI 浪漫聊天機器人,助您建立真摯且長久的連結。我們精心整理的清單包含功能強大且性格鮮明的聊天機器人、免費與付費版本的比較,以及實際測試結果。立即前往 XIX.AI 尋找您的完美伴侶,並開始建立這段關係吧。

10 個工具
xix.ai
教育與學習 最佳AI資料科學導師:精通SQL、Pandas及機器學習工作流程
最佳AI資料科學導師:精通SQL、Pandas及機器學習工作流程

探索2026年最優秀的人工智慧資料科學導師,幫助他們掌握SQL、Pandas以及機器學習工作流程。在XIX.AI上檢視我們精心挑選的頂級導師名單,獲得強大而具有變革性的指導。透過對比免費和付費選項,並結合實際應用案例進行了解,今天就開啟你的資料科學精通之路吧。

10 個工具
xix.ai
評論 (36)
0/500
WalterKing
WalterKing 2026-04-28 20:01:22

Interessant, aber ich bin skeptisch. Diese 'Skalierungsgesetze' klingen oft nach einer selbsterfüllenden Prophezeiung der großen Tech-Firmen. Mehr Daten, mehr Rechenleistung – klar wird das Modell 'besser', aber zu welchem Preis? Die Umweltkosten sind enorm, und am Ende bekommen wir vielleicht nur bessere Halluzinationen. Die Experten haben recht, vorsichtig zu sein. 🤔

DanielThomas
DanielThomas 2025-04-24 07:49:41

AI 스케일링 돌파구는 멋지게 들리지만, 전문가들은 회의적이에요. 🤔 이제 뭘 믿어야 할지 모르겠어요. 그냥 과대광고일까요? 지켜볼게요, 하지만 기대는 하지 않을게요. 😴

BenRoberts
BenRoberts 2025-04-24 02:12:49

This AI scaling law thing sounds cool, but it's hard to get excited when experts are so skeptical. It's like they're saying, 'Sure, it's interesting, but let's not get carried away.' I guess we'll see if it's the real deal or just another hype train. 🤔

PatrickMartinez
PatrickMartinez 2025-04-22 03:31:56

Essa história de lei de escalabilidade de IA parece legal, mas é difícil se empolgar quando os especialistas são tão céticos. Parece que eles estão dizendo, 'Sim, é interessante, mas não vamos nos empolgar muito'. Vamos ver se é verdade ou só mais um hype. 🤔

JohnYoung
JohnYoung 2025-04-20 08:36:43

AI 스케일링 법칙에 대한 소식은 흥미롭지만, 전문가들이 회의적이라서 흥분하기 어려워. '재미있지만 너무 기대하지 마세요'라는 느낌이야. 실제로 어떻게 될지 지켜봐야겠네. 🤔

HaroldMoore
HaroldMoore 2025-04-17 19:24:24

AIのスケーリングブレイクスルーは面白そうだけど、専門家は懐疑的。🤔 もう何を信じればいいのかわからない。ただの誇大広告かも?注目はするけど、期待はしないよ。😴

OR