選項
首頁
新聞
人類聲稱AI並不停滯,它超出了基準測試

人類聲稱AI並不停滯,它超出了基準測試

2025-04-17
161

人類聲稱AI並不停滯,它超出了基準測試

大型語言模型(LLMs)和其他生成式AI技術在自我修正方面取得顯著進展,這為新應用鋪平了道路,包括所謂的「代理AI」,根據領先AI模型開發商Anthropic的副總裁Michael Gerstenhaber表示。

「它在自我修正、自我推理方面表現得非常好,」在Anthropic領導API技術的Gerstenhaber,在紐約接受彭博情報分析師Anurag Rana採訪時分享道。Anthropic是Claude系列LLMs的創造者,與OpenAI的GPT模型直接競爭。「每隔幾個月,我們就發布一個新模型,擴展了LLMs的能力,」他補充說,強調了該行業的動態特性,每一次模型修訂都解鎖了新的潛在用途。

AI模型的新能力

Anthropic的最新模型引入了任務規劃等能力,使它們能像人類一樣在電腦上執行任務,例如線上訂購披薩。「規劃中間步驟,這在昨天還不可行,現在已觸手可及,」Gerstenhaber談到這種逐步執行任務的能力時指出。

這場討論還邀請了AI新創公司Scale AI的首席技術專家Vijay Karunamurthy參加,是彭博情報主辦的為期一天的會議的一部分,會議主題為「生成式AI:能否兌現生產力承諾?」

挑戰AI懷疑論

Gerstenhaber的見解挑戰了AI懷疑論者的觀點,這些人認為生成式AI及更廣泛的AI領域「正面臨瓶頸」,認為每個新模型迭代的回報正在減少。例如,AI學者Gary Marcus自2022年以來一直直言不諱地表達他的擔憂,警告僅僅增加AI模型的規模(更多參數)不會成比例地提升其性能。

然而,Gerstenhaber堅稱Anthropic正在突破當前AI基準所能衡量的範圍。「即使某些領域的進展看似放緩,那是因為我們正在解鎖全新功能,但我們已經飽和了基準以及執行舊任務的能力,」他解釋道。這使得越來越難以全面評估當前生成式AI模型所能實現的全部潛力。

規模擴展與學習

Gerstenhaber和Karunamurthy都強調了擴展生成式AI模型以增強其自我修正能力的重要性。「我們確實看到智能的規模越來越大,」Gerstenhaber評論道。Karunamurthy補充說:「我們相信在規劃和推理方面沒有遇到瓶頸的原因之一,是我們仍在學習如何結構化這些任務,以便模型能適應新的多樣環境。」

Gerstenhaber同意這一觀點,說道:「我們正處於早期階段,從應用開發者那裡學習他們的需求以及模型的不足之處,然後將這些反饋整合回語言模型中。」

實時學習與適應

根據Gerstenhaber的說法,這種進展很大程度上是由Anthropic的基礎研究快速進展以及來自業界的實時反饋驅動的。「我們正在適應業界告訴我們的需求,實時學習,」他說。

客戶通常從較大的模型開始,然後縮減到更簡單的模型以適應特定用途。「最初,他們評估一個模型是否足夠智能以良好執行任務,然後是否足夠快以滿足應用需求,最後是否能盡可能具有成本效益,」Gerstenhaber解釋道。

相關文章
Talat 的人工智慧會議筆記儲存在您的裝置上,而非雲端 Talat 的人工智慧會議筆記儲存在您的裝置上,而非雲端 估值達 2.5 億美元的人工智慧筆記應用程式 Granola,已在科技創辦人和風險投資人之間引起熱烈迴響。但有位開發者認為,市場需要一款更注重隱私、完全在本地運行的替代方案,且僅需支付一次費用,無需訂閱。這項願景催生了一款名為 Talat 的新 Mac 應用程式。來自英國約克郡、自稱電腦宅男的尼克·佩恩(Nick Payne)表示,開發這款本地化 AI 筆記應用程式的靈感,很大程度上源自一連串幸運
全新榮威i6以65.9萬人民幣上市,搭載高通驍龍8155處理器與「斗寶」大模型 全新榮威i6以65.9萬人民幣上市,搭載高通驍龍8155處理器與「斗寶」大模型 上汽榮威今日推出全新榮威i6,這款緊湊型轎車全面採用了榮威D7的設計語言。其獨特的大型直立式水箱護罩與橫向環形燈帶貫穿車頭,營造出強烈的科技感與視覺寬度。 車尾部分,上翹的鴨尾式尾翼與全寬尾燈相得益彰,賦予整車更顯活力的年輕氣息。全新榮威i6車身長4767毫米、寬1828毫米、高1498毫米,軸距為2755毫米。 得益於寬敞的車內空間,它躋身A+級轎車之列,在後排頭部空間與膝部空間方面具備顯著優
如何保護資產、建築物及個人健康? 如何保護資產、建築物及個人健康? 在這個充滿變數的世界裡,保障已不再僅是選項,而是戰略上的必要之舉。無論是守護財務、強化建築結構,還是關注個人健康,長期的穩定都仰賴於主動規劃。真正的安全是多層次的,取決於財務管理、結構韌性與明智的健康意識三者相輔相成。守護最重要的事物,意味著必須未雨綢繆,而非僅在損害發生後才做出反應。財務保障:第一道防線每個人與每家企業都運作於財務架構之中。收入、支出、負債與投資構成了穩定的基石。若缺乏有條不紊的
相關專題推薦
商業 頂尖 AI 定價優化軟體:追蹤競爭對手並自動調整商店價格
頂尖 AI 定價優化軟體:追蹤競爭對手並自動調整商店價格

立即在 XIX.AI 探索 2026 年最佳 AI 定價優化軟體。我們精心挑選的清單收錄了備受好評、能徹底改變遊戲規則的工具,這些工具不僅能追蹤競爭對手,還能自動調整您的商店價格,以實現利潤最大化。透過實際測試,比較免費與付費方案的差異。立即掌握您的定價優勢。

10 個工具
xix.ai
代碼 最佳 AI 程式碼審查工具:自動化確保程式碼整潔度,並重構舊版儲存庫檔案
最佳 AI 程式碼審查工具:自動化確保程式碼整潔度,並重構舊版儲存庫檔案

立即在 XIX.AI 探索 2026 年最佳 AI 程式碼審查工具。我們精心挑選的清單收錄了備受好評、能徹底改變遊戲規則的工具,可自動確保程式碼符合規範,並重構舊版儲存庫檔案。透過實際測試與每週更新的排行榜,比較免費與付費選項。立即掌握您的 AI 競爭優勢。

10 個工具
xix.ai
文字轉語音 專為閱讀障礙設計的頂尖 AI 語音合成應用程式:協助學生提升學習與閱讀效率
專為閱讀障礙設計的頂尖 AI 語音合成應用程式:協助學生提升學習與閱讀效率

探索 2026 年最新精選、專為閱讀障礙者設計的頂級 AI 語音合成(TTS)應用程式。我們的專家評比將免費與付費工具進行對照,重點介紹能提升閱讀效率與學習成效的強大功能。發掘這些必試且能帶來革命性改變的解決方案,釋放學生的潛能。立即前往 XIX.AI 展開您的探索之旅。

10 個工具
xix.ai
漫畫創作 少年漫畫頂尖 AI 生成器:打造高張力動作場面與能量特效
少年漫畫頂尖 AI 生成器:打造高張力動作場面與能量特效

立即前往 XIX.AI,探索 2026 年最優秀的少年漫畫 AI 生成工具。我們精心挑選的頂級清單,匯集了能打造高張力動作場面與動態能量特效的強大工具。透過實際測試,比較免費與付費選項的差異。釋放您的創作潛能,今天就開始打造史詩級漫畫吧!

15 個工具
xix.ai
商業 最佳 AI 支出追蹤工具:掃描收據並自動分類公司開支
最佳 AI 支出追蹤工具:掃描收據並自動分類公司開支

2026 年最新最佳 AI 報銷管理工具:備受好評的解決方案,可自動掃描收據並分類企業支出。探索強大且顛覆傳統的解決方案,助您輕鬆管理報銷、精準追蹤財務,並簡化合規流程。我們精心整理並每週更新的免費與付費方案比較指南,將協助您找到最合適的選擇。透過 XIX.AI 的專家精選,釋放您的 AI 優勢。

10 個工具
xix.ai
商業 最佳 AI 招聘工具:篩選履歷與自動化安排候選人面試
最佳 AI 招聘工具:篩選履歷與自動化安排候選人面試

在 XIX.AI 探索 2026 年最新且評價最高的 AI 招聘工具。我們精心挑選的清單收錄了強大且具顛覆性的解決方案,可協助篩選履歷並自動化安排候選人面試。透過實際測試與每週更新的排行榜,比較免費與付費選項。立即找到最適合您的招聘助手,並優化您的招聘流程!

10 個工具
xix.ai
評論 (8)
0/500
JoseRoberts
JoseRoberts 2025-08-12 23:00:59

This self-correction stuff is wild! 😮 It's like AI is learning to double-check its own homework. Wonder how far this 'agentic AI' will go—could it outsmart us at our own jobs soon?

WalterAnderson
WalterAnderson 2025-07-31 19:35:39

It's wild to think AI can now self-correct! 😮 Makes me wonder how soon we'll see these 'agentic AI' systems running our lives—hope they don’t outsmart us too much!

RonaldMartinez
RonaldMartinez 2025-07-22 15:39:52

This article really opened my eyes to how fast AI is evolving! Self-correcting LLMs sound like a game-changer for agentic AI. Can’t wait to see what new apps come out of this! 😄

WillieJackson
WillieJackson 2025-04-18 15:00:28

La perspectiva de Anthropic sobre que la IA no se estanca sino que supera los benchmarks es bastante genial. Es como si la IA estuviera jugando ajedrez mientras nosotros aún estamos tratando de entender las damas. Lo de la autocorrección suena prometedor, pero aún estoy un poco escéptico. 🤔

GeorgeWilson
GeorgeWilson 2025-04-18 01:45:24

Anthropic의 AI가 정체되지 않고 벤치마크를 뛰어넘는다는 생각이 멋지네요. AI는 체스를 하고 있는데, 우리는 아직 체커를 이해하는 단계예요. 자기 교정 이야기는 유망하지만, 아직 조금 회의적이에요. 🤔

NicholasCarter
NicholasCarter 2025-04-17 19:27:31

Anthropic's take on AI not stalling but outsmarting benchmarks is pretty cool. It's like AI is playing chess while we're still figuring out checkers. The self-correction stuff sounds promising, but I'm still a bit skeptical. 🤔

OR