人類聲稱AI並不停滯,它超出了基準測試

大型語言模型(LLMs)和其他生成式AI技術在自我修正方面取得顯著進展,這為新應用鋪平了道路,包括所謂的「代理AI」,根據領先AI模型開發商Anthropic的副總裁Michael Gerstenhaber表示。
「它在自我修正、自我推理方面表現得非常好,」在Anthropic領導API技術的Gerstenhaber,在紐約接受彭博情報分析師Anurag Rana採訪時分享道。Anthropic是Claude系列LLMs的創造者,與OpenAI的GPT模型直接競爭。「每隔幾個月,我們就發布一個新模型,擴展了LLMs的能力,」他補充說,強調了該行業的動態特性,每一次模型修訂都解鎖了新的潛在用途。
AI模型的新能力
Anthropic的最新模型引入了任務規劃等能力,使它們能像人類一樣在電腦上執行任務,例如線上訂購披薩。「規劃中間步驟,這在昨天還不可行,現在已觸手可及,」Gerstenhaber談到這種逐步執行任務的能力時指出。
這場討論還邀請了AI新創公司Scale AI的首席技術專家Vijay Karunamurthy參加,是彭博情報主辦的為期一天的會議的一部分,會議主題為「生成式AI:能否兌現生產力承諾?」
挑戰AI懷疑論
Gerstenhaber的見解挑戰了AI懷疑論者的觀點,這些人認為生成式AI及更廣泛的AI領域「正面臨瓶頸」,認為每個新模型迭代的回報正在減少。例如,AI學者Gary Marcus自2022年以來一直直言不諱地表達他的擔憂,警告僅僅增加AI模型的規模(更多參數)不會成比例地提升其性能。
然而,Gerstenhaber堅稱Anthropic正在突破當前AI基準所能衡量的範圍。「即使某些領域的進展看似放緩,那是因為我們正在解鎖全新功能,但我們已經飽和了基準以及執行舊任務的能力,」他解釋道。這使得越來越難以全面評估當前生成式AI模型所能實現的全部潛力。
規模擴展與學習
Gerstenhaber和Karunamurthy都強調了擴展生成式AI模型以增強其自我修正能力的重要性。「我們確實看到智能的規模越來越大,」Gerstenhaber評論道。Karunamurthy補充說:「我們相信在規劃和推理方面沒有遇到瓶頸的原因之一,是我們仍在學習如何結構化這些任務,以便模型能適應新的多樣環境。」
Gerstenhaber同意這一觀點,說道:「我們正處於早期階段,從應用開發者那裡學習他們的需求以及模型的不足之處,然後將這些反饋整合回語言模型中。」
實時學習與適應
根據Gerstenhaber的說法,這種進展很大程度上是由Anthropic的基礎研究快速進展以及來自業界的實時反饋驅動的。「我們正在適應業界告訴我們的需求,實時學習,」他說。
客戶通常從較大的模型開始,然後縮減到更簡單的模型以適應特定用途。「最初,他們評估一個模型是否足夠智能以良好執行任務,然後是否足夠快以滿足應用需求,最後是否能盡可能具有成本效益,」Gerstenhaber解釋道。
相關文章
Master Emerald Kaizo Nuzlocke:終極生存與策略指南
Emerald Kaizo 是有史以來最強大的 Pokémon ROM hacks 之一。雖然嘗試執行 Nuzlocke 會使挑戰成倍增加,但透過縝密的規劃和策略執行,勝利仍然是可以實現的。這本權威指南提供在 Hardcore Nuzlocke 規則下征服 Emerald Kaizo 的必要工具、經過實戰考驗的戰術以及深入的 AI 分析。準備好迎接 Pokémon 精通的終極考驗吧!基本策略收集關
AI Powered Cover Letters:期刊投稿專家指南
在現今競爭激烈的學術出版環境中,撰寫一封有效的求職信對您的稿件能否被接受起著舉足輕重的作用。探索像 ChatGPT 之類的人工智能工具如何簡化這項重要任務,幫助您撰寫出精緻、專業的求職信,吸引期刊編輯的注意。我們的全面指南揭示了逐步優化您的投稿包並最大化出版成功率的策略。重點必要的研究準備:彙整所有稿件細節和期刊規格。AI 輔助撰稿:使用 ChatGPT 生成初始求職信模板。個人客製化:完善 AI
美國將因社交媒體法規制裁外國官員
美國站出來反對全球數位內容法規美國國務院本周針對歐洲的數位治理政策發出尖銳的外交譴責,顯示在網路平台控制權上的緊張關係正不斷升級。國務卿 Marco Rubio 公布了一項新的簽證限制政策,針對參與美國認為影響美國數位空間的過度審查的外國官員。新簽證限制說明根據週三公佈的政策,美國將拒絕被判定為正在執行影響美國受保護言論的海外內容規定的外國公民入境。Rubio 強調兩項主要的違法行為:
評論 (8)
0/200
JoseRoberts
2025-08-12 23:00:59
This self-correction stuff is wild! 😮 It's like AI is learning to double-check its own homework. Wonder how far this 'agentic AI' will go—could it outsmart us at our own jobs soon?
0
WalterAnderson
2025-07-31 19:35:39
It's wild to think AI can now self-correct! 😮 Makes me wonder how soon we'll see these 'agentic AI' systems running our lives—hope they don’t outsmart us too much!
0
RonaldMartinez
2025-07-22 15:39:52
This article really opened my eyes to how fast AI is evolving! Self-correcting LLMs sound like a game-changer for agentic AI. Can’t wait to see what new apps come out of this! 😄
0
WillieJackson
2025-04-18 15:00:28
La perspectiva de Anthropic sobre que la IA no se estanca sino que supera los benchmarks es bastante genial. Es como si la IA estuviera jugando ajedrez mientras nosotros aún estamos tratando de entender las damas. Lo de la autocorrección suena prometedor, pero aún estoy un poco escéptico. 🤔
0
GeorgeWilson
2025-04-18 01:45:24
Anthropic의 AI가 정체되지 않고 벤치마크를 뛰어넘는다는 생각이 멋지네요. AI는 체스를 하고 있는데, 우리는 아직 체커를 이해하는 단계예요. 자기 교정 이야기는 유망하지만, 아직 조금 회의적이에요. 🤔
0
NicholasCarter
2025-04-17 19:27:31
Anthropic's take on AI not stalling but outsmarting benchmarks is pretty cool. It's like AI is playing chess while we're still figuring out checkers. The self-correction stuff sounds promising, but I'm still a bit skeptical. 🤔
0
大型語言模型(LLMs)和其他生成式AI技術在自我修正方面取得顯著進展,這為新應用鋪平了道路,包括所謂的「代理AI」,根據領先AI模型開發商Anthropic的副總裁Michael Gerstenhaber表示。
「它在自我修正、自我推理方面表現得非常好,」在Anthropic領導API技術的Gerstenhaber,在紐約接受彭博情報分析師Anurag Rana採訪時分享道。Anthropic是Claude系列LLMs的創造者,與OpenAI的GPT模型直接競爭。「每隔幾個月,我們就發布一個新模型,擴展了LLMs的能力,」他補充說,強調了該行業的動態特性,每一次模型修訂都解鎖了新的潛在用途。
AI模型的新能力
Anthropic的最新模型引入了任務規劃等能力,使它們能像人類一樣在電腦上執行任務,例如線上訂購披薩。「規劃中間步驟,這在昨天還不可行,現在已觸手可及,」Gerstenhaber談到這種逐步執行任務的能力時指出。
這場討論還邀請了AI新創公司Scale AI的首席技術專家Vijay Karunamurthy參加,是彭博情報主辦的為期一天的會議的一部分,會議主題為「生成式AI:能否兌現生產力承諾?」
挑戰AI懷疑論
Gerstenhaber的見解挑戰了AI懷疑論者的觀點,這些人認為生成式AI及更廣泛的AI領域「正面臨瓶頸」,認為每個新模型迭代的回報正在減少。例如,AI學者Gary Marcus自2022年以來一直直言不諱地表達他的擔憂,警告僅僅增加AI模型的規模(更多參數)不會成比例地提升其性能。
然而,Gerstenhaber堅稱Anthropic正在突破當前AI基準所能衡量的範圍。「即使某些領域的進展看似放緩,那是因為我們正在解鎖全新功能,但我們已經飽和了基準以及執行舊任務的能力,」他解釋道。這使得越來越難以全面評估當前生成式AI模型所能實現的全部潛力。
規模擴展與學習
Gerstenhaber和Karunamurthy都強調了擴展生成式AI模型以增強其自我修正能力的重要性。「我們確實看到智能的規模越來越大,」Gerstenhaber評論道。Karunamurthy補充說:「我們相信在規劃和推理方面沒有遇到瓶頸的原因之一,是我們仍在學習如何結構化這些任務,以便模型能適應新的多樣環境。」
Gerstenhaber同意這一觀點,說道:「我們正處於早期階段,從應用開發者那裡學習他們的需求以及模型的不足之處,然後將這些反饋整合回語言模型中。」
實時學習與適應
根據Gerstenhaber的說法,這種進展很大程度上是由Anthropic的基礎研究快速進展以及來自業界的實時反饋驅動的。「我們正在適應業界告訴我們的需求,實時學習,」他說。
客戶通常從較大的模型開始,然後縮減到更簡單的模型以適應特定用途。「最初,他們評估一個模型是否足夠智能以良好執行任務,然後是否足夠快以滿足應用需求,最後是否能盡可能具有成本效益,」Gerstenhaber解釋道。




This self-correction stuff is wild! 😮 It's like AI is learning to double-check its own homework. Wonder how far this 'agentic AI' will go—could it outsmart us at our own jobs soon?




It's wild to think AI can now self-correct! 😮 Makes me wonder how soon we'll see these 'agentic AI' systems running our lives—hope they don’t outsmart us too much!




This article really opened my eyes to how fast AI is evolving! Self-correcting LLMs sound like a game-changer for agentic AI. Can’t wait to see what new apps come out of this! 😄




La perspectiva de Anthropic sobre que la IA no se estanca sino que supera los benchmarks es bastante genial. Es como si la IA estuviera jugando ajedrez mientras nosotros aún estamos tratando de entender las damas. Lo de la autocorrección suena prometedor, pero aún estoy un poco escéptico. 🤔




Anthropic의 AI가 정체되지 않고 벤치마크를 뛰어넘는다는 생각이 멋지네요. AI는 체스를 하고 있는데, 우리는 아직 체커를 이해하는 단계예요. 자기 교정 이야기는 유망하지만, 아직 조금 회의적이에요. 🤔




Anthropic's take on AI not stalling but outsmarting benchmarks is pretty cool. It's like AI is playing chess while we're still figuring out checkers. The self-correction stuff sounds promising, but I'm still a bit skeptical. 🤔












