選項
首頁
新聞
人類聲稱AI並不停滯,它超出了基準測試

人類聲稱AI並不停滯,它超出了基準測試

2025-04-17
108

人類聲稱AI並不停滯,它超出了基準測試

大型語言模型(LLMs)和其他生成式AI技術在自我修正方面取得顯著進展,這為新應用鋪平了道路,包括所謂的「代理AI」,根據領先AI模型開發商Anthropic的副總裁Michael Gerstenhaber表示。

「它在自我修正、自我推理方面表現得非常好,」在Anthropic領導API技術的Gerstenhaber,在紐約接受彭博情報分析師Anurag Rana採訪時分享道。Anthropic是Claude系列LLMs的創造者,與OpenAI的GPT模型直接競爭。「每隔幾個月,我們就發布一個新模型,擴展了LLMs的能力,」他補充說,強調了該行業的動態特性,每一次模型修訂都解鎖了新的潛在用途。

AI模型的新能力

Anthropic的最新模型引入了任務規劃等能力,使它們能像人類一樣在電腦上執行任務,例如線上訂購披薩。「規劃中間步驟,這在昨天還不可行,現在已觸手可及,」Gerstenhaber談到這種逐步執行任務的能力時指出。

這場討論還邀請了AI新創公司Scale AI的首席技術專家Vijay Karunamurthy參加,是彭博情報主辦的為期一天的會議的一部分,會議主題為「生成式AI:能否兌現生產力承諾?」

挑戰AI懷疑論

Gerstenhaber的見解挑戰了AI懷疑論者的觀點,這些人認為生成式AI及更廣泛的AI領域「正面臨瓶頸」,認為每個新模型迭代的回報正在減少。例如,AI學者Gary Marcus自2022年以來一直直言不諱地表達他的擔憂,警告僅僅增加AI模型的規模(更多參數)不會成比例地提升其性能。

然而,Gerstenhaber堅稱Anthropic正在突破當前AI基準所能衡量的範圍。「即使某些領域的進展看似放緩,那是因為我們正在解鎖全新功能,但我們已經飽和了基準以及執行舊任務的能力,」他解釋道。這使得越來越難以全面評估當前生成式AI模型所能實現的全部潛力。

規模擴展與學習

Gerstenhaber和Karunamurthy都強調了擴展生成式AI模型以增強其自我修正能力的重要性。「我們確實看到智能的規模越來越大,」Gerstenhaber評論道。Karunamurthy補充說:「我們相信在規劃和推理方面沒有遇到瓶頸的原因之一,是我們仍在學習如何結構化這些任務,以便模型能適應新的多樣環境。」

Gerstenhaber同意這一觀點,說道:「我們正處於早期階段,從應用開發者那裡學習他們的需求以及模型的不足之處,然後將這些反饋整合回語言模型中。」

實時學習與適應

根據Gerstenhaber的說法,這種進展很大程度上是由Anthropic的基礎研究快速進展以及來自業界的實時反饋驅動的。「我們正在適應業界告訴我們的需求,實時學習,」他說。

客戶通常從較大的模型開始,然後縮減到更簡單的模型以適應特定用途。「最初,他們評估一個模型是否足夠智能以良好執行任務,然後是否足夠快以滿足應用需求,最後是否能盡可能具有成本效益,」Gerstenhaber解釋道。

相關文章
Qodo與Google Cloud合作為開發者提供免費AI程式碼審查工具 Qodo與Google Cloud合作為開發者提供免費AI程式碼審查工具 Qodo,一家專注於程式碼品質的以色列AI編碼新創公司,與Google Cloud合作推出夥伴關係,以提升AI生成軟體的完整性。隨著企業越來越依賴AI進行編碼,對強大監督和品質保證工具的需求日益增長。Qodo執行長Itamar Friedman指出,AI生成程式碼現已成為現代開發的核心。「想像一個未來,AI撰寫所有程式碼;人類無法全部審查,」Friedman說。「我們需要系統確保程式碼符合預期價值
DeepMind的AI在2025年數學奧林匹克奪金 DeepMind的AI在2025年數學奧林匹克奪金 DeepMind的AI在數學推理上實現驚人突破,在2025年國際數學奧林匹克(IMO)奪得金牌,僅一年後即從2024年的銀牌躍升。此突破凸顯AI在解決需要人類創意的複雜抽象問題上的成長實力。本文探討DeepMind的轉型歷程、關鍵技術進展及此里程碑的廣泛影響。國際數學奧林匹克的重要性自1959年起,國際數學奧林匹克一直是全球頂尖的高中生數學競賽。它以代數、幾何、數論及組合數學的六道複雜題目挑戰參賽
AI驅動的視差製作工具:打造動態2.5D動畫 AI驅動的視差製作工具:打造動態2.5D動畫 將靜態圖像轉化為引人入勝的2.5D動畫,使用Parallax Maker。此開源工具賦予藝術家和遊戲開發者為其作品注入深度與動態的能力。透過利用Stability AI API,Parallax Maker確保即使在普通硬體上也能實現流暢的工作流程。探索此工具的功能以及如何提升您的創意項目。主要亮點Parallax Maker是一個用於製作2.5D動畫的開源解決方案。它將圖像轉化為與Blender
評論 (8)
0/200
JoseRoberts
JoseRoberts 2025-08-12 23:00:59

This self-correction stuff is wild! 😮 It's like AI is learning to double-check its own homework. Wonder how far this 'agentic AI' will go—could it outsmart us at our own jobs soon?

WalterAnderson
WalterAnderson 2025-07-31 19:35:39

It's wild to think AI can now self-correct! 😮 Makes me wonder how soon we'll see these 'agentic AI' systems running our lives—hope they don’t outsmart us too much!

RonaldMartinez
RonaldMartinez 2025-07-22 15:39:52

This article really opened my eyes to how fast AI is evolving! Self-correcting LLMs sound like a game-changer for agentic AI. Can’t wait to see what new apps come out of this! 😄

WillieJackson
WillieJackson 2025-04-18 15:00:28

La perspectiva de Anthropic sobre que la IA no se estanca sino que supera los benchmarks es bastante genial. Es como si la IA estuviera jugando ajedrez mientras nosotros aún estamos tratando de entender las damas. Lo de la autocorrección suena prometedor, pero aún estoy un poco escéptico. 🤔

GeorgeWilson
GeorgeWilson 2025-04-18 01:45:24

Anthropic의 AI가 정체되지 않고 벤치마크를 뛰어넘는다는 생각이 멋지네요. AI는 체스를 하고 있는데, 우리는 아직 체커를 이해하는 단계예요. 자기 교정 이야기는 유망하지만, 아직 조금 회의적이에요. 🤔

NicholasCarter
NicholasCarter 2025-04-17 19:27:31

Anthropic's take on AI not stalling but outsmarting benchmarks is pretty cool. It's like AI is playing chess while we're still figuring out checkers. The self-correction stuff sounds promising, but I'm still a bit skeptical. 🤔

回到頂部
OR