OpenAI倡導特定於行業的AI基準:這就是為什麼重要的

基準性能結果是新AI模型發布時的常見特點,展示其在各種通用任務上的能力,如小學數學(GSM8K)或研究生級推理(GPQA)。然而,這些基準通常無法滿足各行業的特定需求。
另訊:ChatGPT現在將記住你告訴它的每一件事——就像一個真正的個人助理
OpenAI先鋒計劃
為彌補這一差距,OpenAI推出了OpenAI先鋒計劃,旨在增強針對特定行業和實際應用的AI模型開發。此計劃是一個雙重聚焦的努力,企業與OpenAI的研究人員合作,創建更具針對性的評估,並優化模型以適應特定領域。
我們正在推出OpenAI先鋒計劃——OpenAI與打造先進AI產品的企業之間的合作,旨在(a)深度微調模型,使其在高價值的特定領域任務中表現出色,以及(b)建立更好的現實世界評估,使各行業能夠更好地… https://t.co/cCvkGmYqJd
— Brad Lightcap (@bradlightcap) 2025年4月9日
在最近的一篇博客文章中,OpenAI指出,法律、金融、保險、醫療和會計等行業缺乏全面的基準來源。為了解決這一問題,OpenAI計劃與每個行業內的多家企業合作,開發這些評估。這種方法不僅旨在增強模型開發,還旨在促進公眾與AI技術之間的更大信任。
另訊:Anthropic表示,AI並未遇到瓶頸,只是變得太聰明,超出了基準的評估能力
研究發現,缺乏行業特定基準是AI在企業環境中的重大挑戰。例如,領導Salesforce AI Research的Silvio Savarese在一篇博客文章中討論了企業通用智能(EGI)的概念。EGI專注於為特定業務領域量身定制的高級AI解決方案。在與ZDNET的討論中,他強調了開發評估特定領域功能的基準作為實現EGI的關鍵一步。
優化現有模型
除了創建新評估外,OpenAI還將與企業合作,通過一種名為強化微調(RFT)的方法,針對三個特定行業用例優化現有模型。OpenAI將提供實施RFT的指導,允許企業自行決定如何最佳部署這些模型,據OpenAI表示,這些模型預計將準備好進行大規模使用。
另訊:史丹佛學者表示,AI模型競賽突然變得更加激烈
參與該計劃的首批企業將包括專注於具有重大現實世界影響的用例的少數初創公司。如果您的企業符合這些標準,您可以通過OpenAI先鋒計劃網頁提交基本企業資訊進行申請。
透過我們的Tech Today通訊,每天早晨獲取頭條新聞至您的收件匣。
相關文章
Notion 將其工作區轉變為人工智慧代理的樞紐
生產力軟體公司 Notion 正邁入「代理時代」。在週三的直播產品發布會上,以協作式筆記應用程式聞名的 Notion 揭曉了一套全新的開發者平台,該平台不僅擴展了其自訂 AI 代理程式的能力,還能與外部代理程式串接,並讓團隊建立自動化多步驟工作流程,從任何資料庫中擷取資料。透過建立一個「協調層」——一個能在多個工具和資料來源之間協調 AI 工作的系統——Notion 將自身定位為不僅僅是一款具備
請問能否提供要改寫的文章標題?
過去要拍一張專業的頭像照,意味著必須聘請攝影師、租用攝影棚,並預留至少一個小時的時間。如今,越來越多由人工智慧驅動的平台聲稱,您可以省去這些步驟,依然能獲得一張精緻且可直接發布的影像。有些平台確實兌現了承諾,但更多則不然。究竟什麼樣的AI人像值得投資,哪些只是浪費金錢?關鍵往往取決於一個問題:最終成像是否真的像你本人?解析度、背景和處理速度固然重要,但如果螢幕上凝視著你的那個人,只是個與你膚色相近
ElevenLabs 宣布 BlackRock、傑米·福克斯與伊娃·朗格莉亞成為新投資人
語音人工智慧公司 ElevenLabs 已公布其 5 億美元 D 輪融資的更多投資者名單,該輪融資最初於二月宣布。 投資者陣容包括黑石集團(BlackRock)、威靈頓管理(Wellington)、D.E. Shaw及施羅德(Schroders)等機構投資者;NVIDIA、Salesforce、桑坦德銀行(Santander)、KPN及德國電信(Deutsche Telekom)等企業;以及傑米·
相關專題推薦
評論 (23)
0/500
산업별 AI 벤치마크라... 솔직히 말해서 이미 늦은 감이 있죠. ㅋㅋ 의료나 금융 같은 분야에선 어제도 벤치마크 필요하다고 했는데, OpenAI가 이제서야 주장하다니. 뒤쳐지는 걸 인정한 건가? 🧐
This article really opened my eyes to how generic AI benchmarks miss the mark for specific industries! It’s like trying to judge a chef by how fast they run. Industry-tailored tests make so much sense for real-world applications. Excited to see where this goes! 😄
This article really opened my eyes to how generic AI benchmarks miss the mark for specific industries! It's like trying to judge a chef by how fast they can run. Excited to see tailored benchmarks evolve! 😄
OpenAI's push for industry-specific AI benchmarks is a breath of fresh air! Finally, someone's addressing the real-world needs of different sectors, not just generic tasks. It's about time we see AI models tailored to specific industries. Can't wait to see how this evolves! 🚀

基準性能結果是新AI模型發布時的常見特點,展示其在各種通用任務上的能力,如小學數學(GSM8K)或研究生級推理(GPQA)。然而,這些基準通常無法滿足各行業的特定需求。
另訊:ChatGPT現在將記住你告訴它的每一件事——就像一個真正的個人助理
OpenAI先鋒計劃
為彌補這一差距,OpenAI推出了OpenAI先鋒計劃,旨在增強針對特定行業和實際應用的AI模型開發。此計劃是一個雙重聚焦的努力,企業與OpenAI的研究人員合作,創建更具針對性的評估,並優化模型以適應特定領域。
我們正在推出OpenAI先鋒計劃——OpenAI與打造先進AI產品的企業之間的合作,旨在(a)深度微調模型,使其在高價值的特定領域任務中表現出色,以及(b)建立更好的現實世界評估,使各行業能夠更好地… https://t.co/cCvkGmYqJd
— Brad Lightcap (@bradlightcap) 2025年4月9日
在最近的一篇博客文章中,OpenAI指出,法律、金融、保險、醫療和會計等行業缺乏全面的基準來源。為了解決這一問題,OpenAI計劃與每個行業內的多家企業合作,開發這些評估。這種方法不僅旨在增強模型開發,還旨在促進公眾與AI技術之間的更大信任。
另訊:Anthropic表示,AI並未遇到瓶頸,只是變得太聰明,超出了基準的評估能力
研究發現,缺乏行業特定基準是AI在企業環境中的重大挑戰。例如,領導Salesforce AI Research的Silvio Savarese在一篇博客文章中討論了企業通用智能(EGI)的概念。EGI專注於為特定業務領域量身定制的高級AI解決方案。在與ZDNET的討論中,他強調了開發評估特定領域功能的基準作為實現EGI的關鍵一步。
優化現有模型
除了創建新評估外,OpenAI還將與企業合作,通過一種名為強化微調(RFT)的方法,針對三個特定行業用例優化現有模型。OpenAI將提供實施RFT的指導,允許企業自行決定如何最佳部署這些模型,據OpenAI表示,這些模型預計將準備好進行大規模使用。
另訊:史丹佛學者表示,AI模型競賽突然變得更加激烈
參與該計劃的首批企業將包括專注於具有重大現實世界影響的用例的少數初創公司。如果您的企業符合這些標準,您可以通過OpenAI先鋒計劃網頁提交基本企業資訊進行申請。
透過我們的Tech Today通訊,每天早晨獲取頭條新聞至您的收件匣。
Notion 將其工作區轉變為人工智慧代理的樞紐
生產力軟體公司 Notion 正邁入「代理時代」。在週三的直播產品發布會上,以協作式筆記應用程式聞名的 Notion 揭曉了一套全新的開發者平台,該平台不僅擴展了其自訂 AI 代理程式的能力,還能與外部代理程式串接,並讓團隊建立自動化多步驟工作流程,從任何資料庫中擷取資料。透過建立一個「協調層」——一個能在多個工具和資料來源之間協調 AI 工作的系統——Notion 將自身定位為不僅僅是一款具備
請問能否提供要改寫的文章標題?
過去要拍一張專業的頭像照,意味著必須聘請攝影師、租用攝影棚,並預留至少一個小時的時間。如今,越來越多由人工智慧驅動的平台聲稱,您可以省去這些步驟,依然能獲得一張精緻且可直接發布的影像。有些平台確實兌現了承諾,但更多則不然。究竟什麼樣的AI人像值得投資,哪些只是浪費金錢?關鍵往往取決於一個問題:最終成像是否真的像你本人?解析度、背景和處理速度固然重要,但如果螢幕上凝視著你的那個人,只是個與你膚色相近
ElevenLabs 宣布 BlackRock、傑米·福克斯與伊娃·朗格莉亞成為新投資人
語音人工智慧公司 ElevenLabs 已公布其 5 億美元 D 輪融資的更多投資者名單,該輪融資最初於二月宣布。 投資者陣容包括黑石集團(BlackRock)、威靈頓管理(Wellington)、D.E. Shaw及施羅德(Schroders)等機構投資者;NVIDIA、Salesforce、桑坦德銀行(Santander)、KPN及德國電信(Deutsche Telekom)等企業;以及傑米·
산업별 AI 벤치마크라... 솔직히 말해서 이미 늦은 감이 있죠. ㅋㅋ 의료나 금융 같은 분야에선 어제도 벤치마크 필요하다고 했는데, OpenAI가 이제서야 주장하다니. 뒤쳐지는 걸 인정한 건가? 🧐
This article really opened my eyes to how generic AI benchmarks miss the mark for specific industries! It’s like trying to judge a chef by how fast they run. Industry-tailored tests make so much sense for real-world applications. Excited to see where this goes! 😄
This article really opened my eyes to how generic AI benchmarks miss the mark for specific industries! It's like trying to judge a chef by how fast they can run. Excited to see tailored benchmarks evolve! 😄
OpenAI's push for industry-specific AI benchmarks is a breath of fresh air! Finally, someone's addressing the real-world needs of different sectors, not just generic tasks. It's about time we see AI models tailored to specific industries. Can't wait to see how this evolves! 🚀





首頁






