AI擴展突破由專家質疑

社交媒體上有些關於研究人員發現新AI「縮放法則」的討論,但專家們對此持保留態度。AI縮放三法則,更像是非正式指南,顯示AI模型在投入更多數據和計算能力時性能提升。直到大約一年前,主流趨勢是「預訓練」——基本上是使用更大數據集訓練更大模型。這仍然存在,但現在又多了兩種縮放法則:後訓練縮放,專注於調整模型行為;以及測試時縮放,涉及在推理時使用更多計算能力來提升模型的「推理」能力(例如R1模型)。
最近,來自Google和UC Berkeley的研究人員發表了一篇論文,網上一些人稱之為第四法則:「推理時搜索」。這種方法讓模型同時生成多個可能的答案,然後選出最佳答案。研究人員聲稱,這能提升舊模型(如Google的Gemini 1.5 Pro)的性能,在科學和數學基準測試中擊敗OpenAI的o1-preview「推理」模型。
Google博士研究員、論文共同作者之一Eric Zhao在X上分享,通過隨機採樣200個回答並讓模型自我驗證,Gemini 1.5——他開玩笑稱之為「古老的2024年初模型」——能超越o1-preview,甚至接近o1。他指出,隨著規模擴大,自我驗證變得更容易,這有些違反直覺但很酷。
但並非所有人都信服。阿爾伯塔大學AI研究員兼助理教授Matthew Guzdial告訴TechCrunch,這種方法在有可靠答案評判方式時效果最佳。但大多數問題並不簡單。他說:「如果我們無法編寫代碼來定義我們想要的,就無法使用[推理時]搜索。對於一般語言交互,我們做不到這一點……這通常不是解決大多數問題的好方法。」
Zhao回應說,他們的論文實際上探討了沒有明確評判方式的情況,模型必須自行解決。他認為,隨著規模擴大,有無明確評判方式之間的差距會縮小。
倫敦國王學院研究員Mike Cook支持Guzdial的觀點,認為推理時搜索並未真正提升模型的推理能力,更像是彌補模型自信錯誤的權宜之計。他指出,如果模型有5%的錯誤率,檢查200次嘗試應能更容易發現錯誤。
這對AI行業可能有些令人失望,該行業一直在尋找提升模型「推理」能力而不燒錢的方法。論文作者指出,推理模型解決一個數學問題可能花費數千美元的計算成本。
看來尋找新縮放技術的道路還遠未結束。
更新於3/20 太平洋時間上午5:12:新增了論文共同作者Eric Zhao的評論,他對一位獨立研究員的批評意見提出異議。
相關文章
Google Cloud 為科學研究與發現的突破提供動力
數位革命正透過前所未有的計算能力改變科學方法。尖端技術現在可增強理論框架和實驗室實驗,透過精密模擬和大數據分析,推動各學科的突破。透過策略性地投資於基礎研究、可擴充的雲端架構和人工智慧開發,我們建立了一個加速科學進步的生態系統。我們的貢獻橫跨醫藥研究、氣候建模和奈米技術等領域的突破性創新,並輔以世界級的運算基礎架構、雲端原生軟體解決方案和新一代的生成式人工智慧平台。Google DeepMind
人工智能加速科學研究,帶來更大的現實世界影響力
Google 持續利用 AI 作為科學進步的催化劑,如今的發現速度已達到非凡的新水準。這種加速度改變了研究週期,以前所未有的速度將基本突破轉化為實際應用。AI 遠遠沒有取代人類的創造力,反而成為人類潛力的強大放大器。我們的研究人員運用 AI 來處理基礎科學的探究,擴展我們的集體知識,同時開發創新的解決方案,以應對全球性的挑戰。透過與學術機構和產業夥伴的密切合作,我們致力於透過與更廣泛的研究社群分享
人工智慧中的道德:應對自動化中的偏見與合規挑戰
隨著自動化深入各行各業,倫理考量逐漸成為重要的優先考量。決策演算法現在影響著社會的重要層面,包括就業機會、金融服務、醫療照護和法律程序,這些都需要嚴格的倫理框架。如果沒有適當的治理,這些強大的系統有可能擴大現有的不平等,並造成廣泛的傷害。瞭解 AI 系統中的偏見演算法偏見的根源往往在於有瑕疵的訓練資料。歷史上的歧視模式可能會在機器學習模型中延續下去,例如根據過去決定中反映出的受保護特徵而使申請人處
評論 (35)
0/200
DanielThomas
2025-04-24 07:49:41
AI 스케일링 돌파구는 멋지게 들리지만, 전문가들은 회의적이에요. 🤔 이제 뭘 믿어야 할지 모르겠어요. 그냥 과대광고일까요? 지켜볼게요, 하지만 기대는 하지 않을게요. 😴
0
BenRoberts
2025-04-24 02:12:49
This AI scaling law thing sounds cool, but it's hard to get excited when experts are so skeptical. It's like they're saying, 'Sure, it's interesting, but let's not get carried away.' I guess we'll see if it's the real deal or just another hype train. 🤔
0
PatrickMartinez
2025-04-22 03:31:56
Essa história de lei de escalabilidade de IA parece legal, mas é difícil se empolgar quando os especialistas são tão céticos. Parece que eles estão dizendo, 'Sim, é interessante, mas não vamos nos empolgar muito'. Vamos ver se é verdade ou só mais um hype. 🤔
0
JohnYoung
2025-04-20 08:36:43
AI 스케일링 법칙에 대한 소식은 흥미롭지만, 전문가들이 회의적이라서 흥분하기 어려워. '재미있지만 너무 기대하지 마세요'라는 느낌이야. 실제로 어떻게 될지 지켜봐야겠네. 🤔
0
HaroldMoore
2025-04-17 19:24:24
AIのスケーリングブレイクスルーは面白そうだけど、専門家は懐疑的。🤔 もう何を信じればいいのかわからない。ただの誇大広告かも?注目はするけど、期待はしないよ。😴
0
AlbertLee
2025-04-16 23:25:29
El avance en la escala de IA suena genial, pero todavía no lo compro. Es todo un hype en las redes sociales, pero los expertos son escépticos. Esperaré más pruebas sólidas antes de subirme al carro. 🤔
0
社交媒體上有些關於研究人員發現新AI「縮放法則」的討論,但專家們對此持保留態度。AI縮放三法則,更像是非正式指南,顯示AI模型在投入更多數據和計算能力時性能提升。直到大約一年前,主流趨勢是「預訓練」——基本上是使用更大數據集訓練更大模型。這仍然存在,但現在又多了兩種縮放法則:後訓練縮放,專注於調整模型行為;以及測試時縮放,涉及在推理時使用更多計算能力來提升模型的「推理」能力(例如R1模型)。
最近,來自Google和UC Berkeley的研究人員發表了一篇論文,網上一些人稱之為第四法則:「推理時搜索」。這種方法讓模型同時生成多個可能的答案,然後選出最佳答案。研究人員聲稱,這能提升舊模型(如Google的Gemini 1.5 Pro)的性能,在科學和數學基準測試中擊敗OpenAI的o1-preview「推理」模型。
Google博士研究員、論文共同作者之一Eric Zhao在X上分享,通過隨機採樣200個回答並讓模型自我驗證,Gemini 1.5——他開玩笑稱之為「古老的2024年初模型」——能超越o1-preview,甚至接近o1。他指出,隨著規模擴大,自我驗證變得更容易,這有些違反直覺但很酷。
但並非所有人都信服。阿爾伯塔大學AI研究員兼助理教授Matthew Guzdial告訴TechCrunch,這種方法在有可靠答案評判方式時效果最佳。但大多數問題並不簡單。他說:「如果我們無法編寫代碼來定義我們想要的,就無法使用[推理時]搜索。對於一般語言交互,我們做不到這一點……這通常不是解決大多數問題的好方法。」
Zhao回應說,他們的論文實際上探討了沒有明確評判方式的情況,模型必須自行解決。他認為,隨著規模擴大,有無明確評判方式之間的差距會縮小。
倫敦國王學院研究員Mike Cook支持Guzdial的觀點,認為推理時搜索並未真正提升模型的推理能力,更像是彌補模型自信錯誤的權宜之計。他指出,如果模型有5%的錯誤率,檢查200次嘗試應能更容易發現錯誤。
這對AI行業可能有些令人失望,該行業一直在尋找提升模型「推理」能力而不燒錢的方法。論文作者指出,推理模型解決一個數學問題可能花費數千美元的計算成本。
看來尋找新縮放技術的道路還遠未結束。
更新於3/20 太平洋時間上午5:12:新增了論文共同作者Eric Zhao的評論,他對一位獨立研究員的批評意見提出異議。



AI 스케일링 돌파구는 멋지게 들리지만, 전문가들은 회의적이에요. 🤔 이제 뭘 믿어야 할지 모르겠어요. 그냥 과대광고일까요? 지켜볼게요, 하지만 기대는 하지 않을게요. 😴




This AI scaling law thing sounds cool, but it's hard to get excited when experts are so skeptical. It's like they're saying, 'Sure, it's interesting, but let's not get carried away.' I guess we'll see if it's the real deal or just another hype train. 🤔




Essa história de lei de escalabilidade de IA parece legal, mas é difícil se empolgar quando os especialistas são tão céticos. Parece que eles estão dizendo, 'Sim, é interessante, mas não vamos nos empolgar muito'. Vamos ver se é verdade ou só mais um hype. 🤔




AI 스케일링 법칙에 대한 소식은 흥미롭지만, 전문가들이 회의적이라서 흥분하기 어려워. '재미있지만 너무 기대하지 마세요'라는 느낌이야. 실제로 어떻게 될지 지켜봐야겠네. 🤔




AIのスケーリングブレイクスルーは面白そうだけど、専門家は懐疑的。🤔 もう何を信じればいいのかわからない。ただの誇大広告かも?注目はするけど、期待はしないよ。😴




El avance en la escala de IA suena genial, pero todavía no lo compro. Es todo un hype en las redes sociales, pero los expertos son escépticos. Esperaré más pruebas sólidas antes de subirme al carro. 🤔












