AI擴展突破由專家質疑

社交媒體上有些關於研究人員發現新AI「縮放法則」的討論,但專家們對此持保留態度。AI縮放三法則,更像是非正式指南,顯示AI模型在投入更多數據和計算能力時性能提升。直到大約一年前,主流趨勢是「預訓練」——基本上是使用更大數據集訓練更大模型。這仍然存在,但現在又多了兩種縮放法則:後訓練縮放,專注於調整模型行為;以及測試時縮放,涉及在推理時使用更多計算能力來提升模型的「推理」能力(例如R1模型)。
最近,來自Google和UC Berkeley的研究人員發表了一篇論文,網上一些人稱之為第四法則:「推理時搜索」。這種方法讓模型同時生成多個可能的答案,然後選出最佳答案。研究人員聲稱,這能提升舊模型(如Google的Gemini 1.5 Pro)的性能,在科學和數學基準測試中擊敗OpenAI的o1-preview「推理」模型。
Google博士研究員、論文共同作者之一Eric Zhao在X上分享,通過隨機採樣200個回答並讓模型自我驗證,Gemini 1.5——他開玩笑稱之為「古老的2024年初模型」——能超越o1-preview,甚至接近o1。他指出,隨著規模擴大,自我驗證變得更容易,這有些違反直覺但很酷。
但並非所有人都信服。阿爾伯塔大學AI研究員兼助理教授Matthew Guzdial告訴TechCrunch,這種方法在有可靠答案評判方式時效果最佳。但大多數問題並不簡單。他說:「如果我們無法編寫代碼來定義我們想要的,就無法使用[推理時]搜索。對於一般語言交互,我們做不到這一點……這通常不是解決大多數問題的好方法。」
Zhao回應說,他們的論文實際上探討了沒有明確評判方式的情況,模型必須自行解決。他認為,隨著規模擴大,有無明確評判方式之間的差距會縮小。
倫敦國王學院研究員Mike Cook支持Guzdial的觀點,認為推理時搜索並未真正提升模型的推理能力,更像是彌補模型自信錯誤的權宜之計。他指出,如果模型有5%的錯誤率,檢查200次嘗試應能更容易發現錯誤。
這對AI行業可能有些令人失望,該行業一直在尋找提升模型「推理」能力而不燒錢的方法。論文作者指出,推理模型解決一個數學問題可能花費數千美元的計算成本。
看來尋找新縮放技術的道路還遠未結束。
更新於3/20 太平洋時間上午5:12:新增了論文共同作者Eric Zhao的評論,他對一位獨立研究員的批評意見提出異議。
相關文章
以優化為驅動的人工智慧,正成為通用的模型發展新途徑
伊利諾大學厄巴納-香檳分校與維吉尼亞大學的研究人員開發出一種新型模型架構,有望為具備更強推理能力且更具韌性的AI系統鋪平道路。名為「能量基變壓器」(EBT)的架構,能自然運用推論時間擴展性來解決複雜挑戰。對企業而言,這意味著能以成本效益方式部署人工智慧應用,無需專門調校模型即可適應新情境。系統二思維的挑戰在心理學中,人類認知通常分為兩種模式:快速直覺的系統一,以及較緩慢、更刻意且具分析性的系統二。
人工智慧熱潮引發網路泡沫時期的泡沫憂慮
數十億美元湧入人工智慧領域的投資熱潮,引發一場激烈辯論:該產業是否正走向網路泡沫式的泡沫?投資者正密切關注熱潮是否降溫,或巨額晶片與基礎建設支出未能帶來預期回報的跡象。美銀全球研究近期調查凸顯此種謹慎態度:54%基金經理人認為人工智慧股票已處泡沫期,38%持反對意見。與網路泡沫的相似之處儘管樂觀情緒蔓延,質疑者仍質疑人工智慧的實質影響力,部分人士更直指其為虛張聲勢或即將破裂的泡沫。思科亞太、日本及
程序記憶降低人工智能代理成本和複雜性
由浙江大學和阿里巴巴集團共同研發的一項新技術為大型語言模型(LLM)代理提供了動態記憶,從而提高其處理複雜任務的效率和效能。這種方法被命名為 Memp,它為代理提供了一種 「程序記憶」,這種記憶會隨著代理積累的經驗不斷更新,這與人類通過重複練習學習的方式類似。 Memp 建立了一個終身學習的系統,在這個系統中,代理不再需要從零開始處理每一項新任務。當他們在真實世界環境中面對新的情境時,他們會穩步改
相關專題推薦
評論 (36)
0/500
Interessant, aber ich bin skeptisch. Diese 'Skalierungsgesetze' klingen oft nach einer selbsterfüllenden Prophezeiung der großen Tech-Firmen. Mehr Daten, mehr Rechenleistung – klar wird das Modell 'besser', aber zu welchem Preis? Die Umweltkosten sind enorm, und am Ende bekommen wir vielleicht nur bessere Halluzinationen. Die Experten haben recht, vorsichtig zu sein. 🤔
This AI scaling law thing sounds cool, but it's hard to get excited when experts are so skeptical. It's like they're saying, 'Sure, it's interesting, but let's not get carried away.' I guess we'll see if it's the real deal or just another hype train. 🤔
Essa história de lei de escalabilidade de IA parece legal, mas é difícil se empolgar quando os especialistas são tão céticos. Parece que eles estão dizendo, 'Sim, é interessante, mas não vamos nos empolgar muito'. Vamos ver se é verdade ou só mais um hype. 🤔

社交媒體上有些關於研究人員發現新AI「縮放法則」的討論,但專家們對此持保留態度。AI縮放三法則,更像是非正式指南,顯示AI模型在投入更多數據和計算能力時性能提升。直到大約一年前,主流趨勢是「預訓練」——基本上是使用更大數據集訓練更大模型。這仍然存在,但現在又多了兩種縮放法則:後訓練縮放,專注於調整模型行為;以及測試時縮放,涉及在推理時使用更多計算能力來提升模型的「推理」能力(例如R1模型)。
最近,來自Google和UC Berkeley的研究人員發表了一篇論文,網上一些人稱之為第四法則:「推理時搜索」。這種方法讓模型同時生成多個可能的答案,然後選出最佳答案。研究人員聲稱,這能提升舊模型(如Google的Gemini 1.5 Pro)的性能,在科學和數學基準測試中擊敗OpenAI的o1-preview「推理」模型。
Google博士研究員、論文共同作者之一Eric Zhao在X上分享,通過隨機採樣200個回答並讓模型自我驗證,Gemini 1.5——他開玩笑稱之為「古老的2024年初模型」——能超越o1-preview,甚至接近o1。他指出,隨著規模擴大,自我驗證變得更容易,這有些違反直覺但很酷。
但並非所有人都信服。阿爾伯塔大學AI研究員兼助理教授Matthew Guzdial告訴TechCrunch,這種方法在有可靠答案評判方式時效果最佳。但大多數問題並不簡單。他說:「如果我們無法編寫代碼來定義我們想要的,就無法使用[推理時]搜索。對於一般語言交互,我們做不到這一點……這通常不是解決大多數問題的好方法。」
Zhao回應說,他們的論文實際上探討了沒有明確評判方式的情況,模型必須自行解決。他認為,隨著規模擴大,有無明確評判方式之間的差距會縮小。
倫敦國王學院研究員Mike Cook支持Guzdial的觀點,認為推理時搜索並未真正提升模型的推理能力,更像是彌補模型自信錯誤的權宜之計。他指出,如果模型有5%的錯誤率,檢查200次嘗試應能更容易發現錯誤。
這對AI行業可能有些令人失望,該行業一直在尋找提升模型「推理」能力而不燒錢的方法。論文作者指出,推理模型解決一個數學問題可能花費數千美元的計算成本。
看來尋找新縮放技術的道路還遠未結束。
更新於3/20 太平洋時間上午5:12:新增了論文共同作者Eric Zhao的評論,他對一位獨立研究員的批評意見提出異議。
以優化為驅動的人工智慧,正成為通用的模型發展新途徑
伊利諾大學厄巴納-香檳分校與維吉尼亞大學的研究人員開發出一種新型模型架構,有望為具備更強推理能力且更具韌性的AI系統鋪平道路。名為「能量基變壓器」(EBT)的架構,能自然運用推論時間擴展性來解決複雜挑戰。對企業而言,這意味著能以成本效益方式部署人工智慧應用,無需專門調校模型即可適應新情境。系統二思維的挑戰在心理學中,人類認知通常分為兩種模式:快速直覺的系統一,以及較緩慢、更刻意且具分析性的系統二。
人工智慧熱潮引發網路泡沫時期的泡沫憂慮
數十億美元湧入人工智慧領域的投資熱潮,引發一場激烈辯論:該產業是否正走向網路泡沫式的泡沫?投資者正密切關注熱潮是否降溫,或巨額晶片與基礎建設支出未能帶來預期回報的跡象。美銀全球研究近期調查凸顯此種謹慎態度:54%基金經理人認為人工智慧股票已處泡沫期,38%持反對意見。與網路泡沫的相似之處儘管樂觀情緒蔓延,質疑者仍質疑人工智慧的實質影響力,部分人士更直指其為虛張聲勢或即將破裂的泡沫。思科亞太、日本及
程序記憶降低人工智能代理成本和複雜性
由浙江大學和阿里巴巴集團共同研發的一項新技術為大型語言模型(LLM)代理提供了動態記憶,從而提高其處理複雜任務的效率和效能。這種方法被命名為 Memp,它為代理提供了一種 「程序記憶」,這種記憶會隨著代理積累的經驗不斷更新,這與人類通過重複練習學習的方式類似。 Memp 建立了一個終身學習的系統,在這個系統中,代理不再需要從零開始處理每一項新任務。當他們在真實世界環境中面對新的情境時,他們會穩步改
Interessant, aber ich bin skeptisch. Diese 'Skalierungsgesetze' klingen oft nach einer selbsterfüllenden Prophezeiung der großen Tech-Firmen. Mehr Daten, mehr Rechenleistung – klar wird das Modell 'besser', aber zu welchem Preis? Die Umweltkosten sind enorm, und am Ende bekommen wir vielleicht nur bessere Halluzinationen. Die Experten haben recht, vorsichtig zu sein. 🤔
This AI scaling law thing sounds cool, but it's hard to get excited when experts are so skeptical. It's like they're saying, 'Sure, it's interesting, but let's not get carried away.' I guess we'll see if it's the real deal or just another hype train. 🤔
Essa história de lei de escalabilidade de IA parece legal, mas é difícil se empolgar quando os especialistas são tão céticos. Parece que eles estão dizendo, 'Sim, é interessante, mas não vamos nos empolgar muito'. Vamos ver se é verdade ou só mais um hype. 🤔





首頁






