人類聲稱AI並不停滯,它超出了基準測試

大型語言模型(LLMs)和其他生成式AI技術在自我修正方面取得顯著進展,這為新應用鋪平了道路,包括所謂的「代理AI」,根據領先AI模型開發商Anthropic的副總裁Michael Gerstenhaber表示。
「它在自我修正、自我推理方面表現得非常好,」在Anthropic領導API技術的Gerstenhaber,在紐約接受彭博情報分析師Anurag Rana採訪時分享道。Anthropic是Claude系列LLMs的創造者,與OpenAI的GPT模型直接競爭。「每隔幾個月,我們就發布一個新模型,擴展了LLMs的能力,」他補充說,強調了該行業的動態特性,每一次模型修訂都解鎖了新的潛在用途。
AI模型的新能力
Anthropic的最新模型引入了任務規劃等能力,使它們能像人類一樣在電腦上執行任務,例如線上訂購披薩。「規劃中間步驟,這在昨天還不可行,現在已觸手可及,」Gerstenhaber談到這種逐步執行任務的能力時指出。
這場討論還邀請了AI新創公司Scale AI的首席技術專家Vijay Karunamurthy參加,是彭博情報主辦的為期一天的會議的一部分,會議主題為「生成式AI:能否兌現生產力承諾?」
挑戰AI懷疑論
Gerstenhaber的見解挑戰了AI懷疑論者的觀點,這些人認為生成式AI及更廣泛的AI領域「正面臨瓶頸」,認為每個新模型迭代的回報正在減少。例如,AI學者Gary Marcus自2022年以來一直直言不諱地表達他的擔憂,警告僅僅增加AI模型的規模(更多參數)不會成比例地提升其性能。
然而,Gerstenhaber堅稱Anthropic正在突破當前AI基準所能衡量的範圍。「即使某些領域的進展看似放緩,那是因為我們正在解鎖全新功能,但我們已經飽和了基準以及執行舊任務的能力,」他解釋道。這使得越來越難以全面評估當前生成式AI模型所能實現的全部潛力。
規模擴展與學習
Gerstenhaber和Karunamurthy都強調了擴展生成式AI模型以增強其自我修正能力的重要性。「我們確實看到智能的規模越來越大,」Gerstenhaber評論道。Karunamurthy補充說:「我們相信在規劃和推理方面沒有遇到瓶頸的原因之一,是我們仍在學習如何結構化這些任務,以便模型能適應新的多樣環境。」
Gerstenhaber同意這一觀點,說道:「我們正處於早期階段,從應用開發者那裡學習他們的需求以及模型的不足之處,然後將這些反饋整合回語言模型中。」
實時學習與適應
根據Gerstenhaber的說法,這種進展很大程度上是由Anthropic的基礎研究快速進展以及來自業界的實時反饋驅動的。「我們正在適應業界告訴我們的需求,實時學習,」他說。
客戶通常從較大的模型開始,然後縮減到更簡單的模型以適應特定用途。「最初,他們評估一個模型是否足夠智能以良好執行任務,然後是否足夠快以滿足應用需求,最後是否能盡可能具有成本效益,」Gerstenhaber解釋道。
相關文章
全新榮威i6以65.9萬人民幣上市,搭載高通驍龍8155處理器與「斗寶」大模型
上汽榮威今日推出全新榮威i6,這款緊湊型轎車全面採用了榮威D7的設計語言。其獨特的大型直立式水箱護罩與橫向環形燈帶貫穿車頭,營造出強烈的科技感與視覺寬度。 車尾部分,上翹的鴨尾式尾翼與全寬尾燈相得益彰,賦予整車更顯活力的年輕氣息。全新榮威i6車身長4767毫米、寬1828毫米、高1498毫米,軸距為2755毫米。 得益於寬敞的車內空間,它躋身A+級轎車之列,在後排頭部空間與膝部空間方面具備顯著優
如何保護資產、建築物及個人健康?
在這個充滿變數的世界裡,保障已不再僅是選項,而是戰略上的必要之舉。無論是守護財務、強化建築結構,還是關注個人健康,長期的穩定都仰賴於主動規劃。真正的安全是多層次的,取決於財務管理、結構韌性與明智的健康意識三者相輔相成。守護最重要的事物,意味著必須未雨綢繆,而非僅在損害發生後才做出反應。財務保障:第一道防線每個人與每家企業都運作於財務架構之中。收入、支出、負債與投資構成了穩定的基石。若缺乏有條不紊的
AI 瀏覽器 Comet 正式上線,在 iPad 上全面支援多工處理
Perplexity 的 AI 瀏覽器 Comet 已正式推出 iPad 版本,現已全面相容於 iPadOS。此次更新導入多視窗瀏覽功能、多工處理支援,並與 OpenAI 和 Anthropic 等頂尖 AI 模型深度整合,帶來更智能的網路體驗。Comet 瀏覽器拓展了使用者探索網路及與 AI 聊天機器人互動的方式,提供直觀的管道存取 OpenAI 和 Anthropic 等頂尖 AI 模型,以進
相關專題推薦
評論 (8)
0/500
This self-correction stuff is wild! 😮 It's like AI is learning to double-check its own homework. Wonder how far this 'agentic AI' will go—could it outsmart us at our own jobs soon?
It's wild to think AI can now self-correct! 😮 Makes me wonder how soon we'll see these 'agentic AI' systems running our lives—hope they don’t outsmart us too much!
This article really opened my eyes to how fast AI is evolving! Self-correcting LLMs sound like a game-changer for agentic AI. Can’t wait to see what new apps come out of this! 😄
La perspectiva de Anthropic sobre que la IA no se estanca sino que supera los benchmarks es bastante genial. Es como si la IA estuviera jugando ajedrez mientras nosotros aún estamos tratando de entender las damas. Lo de la autocorrección suena prometedor, pero aún estoy un poco escéptico. 🤔
Anthropic의 AI가 정체되지 않고 벤치마크를 뛰어넘는다는 생각이 멋지네요. AI는 체스를 하고 있는데, 우리는 아직 체커를 이해하는 단계예요. 자기 교정 이야기는 유망하지만, 아직 조금 회의적이에요. 🤔

大型語言模型(LLMs)和其他生成式AI技術在自我修正方面取得顯著進展,這為新應用鋪平了道路,包括所謂的「代理AI」,根據領先AI模型開發商Anthropic的副總裁Michael Gerstenhaber表示。
「它在自我修正、自我推理方面表現得非常好,」在Anthropic領導API技術的Gerstenhaber,在紐約接受彭博情報分析師Anurag Rana採訪時分享道。Anthropic是Claude系列LLMs的創造者,與OpenAI的GPT模型直接競爭。「每隔幾個月,我們就發布一個新模型,擴展了LLMs的能力,」他補充說,強調了該行業的動態特性,每一次模型修訂都解鎖了新的潛在用途。
AI模型的新能力
Anthropic的最新模型引入了任務規劃等能力,使它們能像人類一樣在電腦上執行任務,例如線上訂購披薩。「規劃中間步驟,這在昨天還不可行,現在已觸手可及,」Gerstenhaber談到這種逐步執行任務的能力時指出。
這場討論還邀請了AI新創公司Scale AI的首席技術專家Vijay Karunamurthy參加,是彭博情報主辦的為期一天的會議的一部分,會議主題為「生成式AI:能否兌現生產力承諾?」
挑戰AI懷疑論
Gerstenhaber的見解挑戰了AI懷疑論者的觀點,這些人認為生成式AI及更廣泛的AI領域「正面臨瓶頸」,認為每個新模型迭代的回報正在減少。例如,AI學者Gary Marcus自2022年以來一直直言不諱地表達他的擔憂,警告僅僅增加AI模型的規模(更多參數)不會成比例地提升其性能。
然而,Gerstenhaber堅稱Anthropic正在突破當前AI基準所能衡量的範圍。「即使某些領域的進展看似放緩,那是因為我們正在解鎖全新功能,但我們已經飽和了基準以及執行舊任務的能力,」他解釋道。這使得越來越難以全面評估當前生成式AI模型所能實現的全部潛力。
規模擴展與學習
Gerstenhaber和Karunamurthy都強調了擴展生成式AI模型以增強其自我修正能力的重要性。「我們確實看到智能的規模越來越大,」Gerstenhaber評論道。Karunamurthy補充說:「我們相信在規劃和推理方面沒有遇到瓶頸的原因之一,是我們仍在學習如何結構化這些任務,以便模型能適應新的多樣環境。」
Gerstenhaber同意這一觀點,說道:「我們正處於早期階段,從應用開發者那裡學習他們的需求以及模型的不足之處,然後將這些反饋整合回語言模型中。」
實時學習與適應
根據Gerstenhaber的說法,這種進展很大程度上是由Anthropic的基礎研究快速進展以及來自業界的實時反饋驅動的。「我們正在適應業界告訴我們的需求,實時學習,」他說。
客戶通常從較大的模型開始,然後縮減到更簡單的模型以適應特定用途。「最初,他們評估一個模型是否足夠智能以良好執行任務,然後是否足夠快以滿足應用需求,最後是否能盡可能具有成本效益,」Gerstenhaber解釋道。
全新榮威i6以65.9萬人民幣上市,搭載高通驍龍8155處理器與「斗寶」大模型
上汽榮威今日推出全新榮威i6,這款緊湊型轎車全面採用了榮威D7的設計語言。其獨特的大型直立式水箱護罩與橫向環形燈帶貫穿車頭,營造出強烈的科技感與視覺寬度。 車尾部分,上翹的鴨尾式尾翼與全寬尾燈相得益彰,賦予整車更顯活力的年輕氣息。全新榮威i6車身長4767毫米、寬1828毫米、高1498毫米,軸距為2755毫米。 得益於寬敞的車內空間,它躋身A+級轎車之列,在後排頭部空間與膝部空間方面具備顯著優
如何保護資產、建築物及個人健康?
在這個充滿變數的世界裡,保障已不再僅是選項,而是戰略上的必要之舉。無論是守護財務、強化建築結構,還是關注個人健康,長期的穩定都仰賴於主動規劃。真正的安全是多層次的,取決於財務管理、結構韌性與明智的健康意識三者相輔相成。守護最重要的事物,意味著必須未雨綢繆,而非僅在損害發生後才做出反應。財務保障:第一道防線每個人與每家企業都運作於財務架構之中。收入、支出、負債與投資構成了穩定的基石。若缺乏有條不紊的
AI 瀏覽器 Comet 正式上線,在 iPad 上全面支援多工處理
Perplexity 的 AI 瀏覽器 Comet 已正式推出 iPad 版本,現已全面相容於 iPadOS。此次更新導入多視窗瀏覽功能、多工處理支援,並與 OpenAI 和 Anthropic 等頂尖 AI 模型深度整合,帶來更智能的網路體驗。Comet 瀏覽器拓展了使用者探索網路及與 AI 聊天機器人互動的方式,提供直觀的管道存取 OpenAI 和 Anthropic 等頂尖 AI 模型,以進
This self-correction stuff is wild! 😮 It's like AI is learning to double-check its own homework. Wonder how far this 'agentic AI' will go—could it outsmart us at our own jobs soon?
It's wild to think AI can now self-correct! 😮 Makes me wonder how soon we'll see these 'agentic AI' systems running our lives—hope they don’t outsmart us too much!
This article really opened my eyes to how fast AI is evolving! Self-correcting LLMs sound like a game-changer for agentic AI. Can’t wait to see what new apps come out of this! 😄
La perspectiva de Anthropic sobre que la IA no se estanca sino que supera los benchmarks es bastante genial. Es como si la IA estuviera jugando ajedrez mientras nosotros aún estamos tratando de entender las damas. Lo de la autocorrección suena prometedor, pero aún estoy un poco escéptico. 🤔
Anthropic의 AI가 정체되지 않고 벤치마크를 뛰어넘는다는 생각이 멋지네요. AI는 체스를 하고 있는데, 우리는 아직 체커를 이해하는 단계예요. 자기 교정 이야기는 유망하지만, 아직 조금 회의적이에요. 🤔





首頁






