OpenAI倡導特定於行業的AI基準:這就是為什麼重要的

基準性能結果是新AI模型發布時的常見特點,展示其在各種通用任務上的能力,如小學數學(GSM8K)或研究生級推理(GPQA)。然而,這些基準通常無法滿足各行業的特定需求。
另訊:ChatGPT現在將記住你告訴它的每一件事——就像一個真正的個人助理
OpenAI先鋒計劃
為彌補這一差距,OpenAI推出了OpenAI先鋒計劃,旨在增強針對特定行業和實際應用的AI模型開發。此計劃是一個雙重聚焦的努力,企業與OpenAI的研究人員合作,創建更具針對性的評估,並優化模型以適應特定領域。
我們正在推出OpenAI先鋒計劃——OpenAI與打造先進AI產品的企業之間的合作,旨在(a)深度微調模型,使其在高價值的特定領域任務中表現出色,以及(b)建立更好的現實世界評估,使各行業能夠更好地… https://t.co/cCvkGmYqJd
— Brad Lightcap (@bradlightcap) 2025年4月9日
在最近的一篇博客文章中,OpenAI指出,法律、金融、保險、醫療和會計等行業缺乏全面的基準來源。為了解決這一問題,OpenAI計劃與每個行業內的多家企業合作,開發這些評估。這種方法不僅旨在增強模型開發,還旨在促進公眾與AI技術之間的更大信任。
另訊:Anthropic表示,AI並未遇到瓶頸,只是變得太聰明,超出了基準的評估能力
研究發現,缺乏行業特定基準是AI在企業環境中的重大挑戰。例如,領導Salesforce AI Research的Silvio Savarese在一篇博客文章中討論了企業通用智能(EGI)的概念。EGI專注於為特定業務領域量身定制的高級AI解決方案。在與ZDNET的討論中,他強調了開發評估特定領域功能的基準作為實現EGI的關鍵一步。
優化現有模型
除了創建新評估外,OpenAI還將與企業合作,通過一種名為強化微調(RFT)的方法,針對三個特定行業用例優化現有模型。OpenAI將提供實施RFT的指導,允許企業自行決定如何最佳部署這些模型,據OpenAI表示,這些模型預計將準備好進行大規模使用。
另訊:史丹佛學者表示,AI模型競賽突然變得更加激烈
參與該計劃的首批企業將包括專注於具有重大現實世界影響的用例的少數初創公司。如果您的企業符合這些標準,您可以通過OpenAI先鋒計劃網頁提交基本企業資訊進行申請。
透過我們的Tech Today通訊,每天早晨獲取頭條新聞至您的收件匣。
相關文章
ElevenLabs 宣布 BlackRock、傑米·福克斯與伊娃·朗格莉亞成為新投資人
語音人工智慧公司 ElevenLabs 已公布其 5 億美元 D 輪融資的更多投資者名單,該輪融資最初於二月宣布。 投資者陣容包括黑石集團(BlackRock)、威靈頓管理(Wellington)、D.E. Shaw及施羅德(Schroders)等機構投資者;NVIDIA、Salesforce、桑坦德銀行(Santander)、KPN及德國電信(Deutsche Telekom)等企業;以及傑米·
OpenAI 執行長阿爾特曼抨擊 Anthropic 採取恐慌式行銷策略
人工智慧領域的兩大龍頭 OpenAI 與 Anthropic 之間的公開爭執持續升溫。OpenAI 執行長山姆·奧特曼(Sam Altman)近日在一檔播客節目中,對競爭對手的最新安全模型提出質疑。奧特曼主張,Anthropic 利用大眾對科技的恐懼,誇大了其產品的實際能力。他認為這種做法更像是行銷手段,而非真正的安全措施。僅限精英階層使用引發「築起技術壁壘」的指控這場爭議源於Anthropic本
在獲得 SpaceX 的大筆投資後,人工智慧編程新創公司 Cursor 將在亞太地區招聘 200 名員工
人工智慧編碼新創公司 Cursor 宣布了一項重大的全球擴張計畫,預計在未來六個月內於亞太地區招聘 200 名員工。主要職位包括行銷工程師、現場工程師及人工智慧部署工程師。此舉彰顯了這家總部位於舊金山的獨角獸企業,正積極將其核心技術推向國際市場。目前,Cursor 已在新加坡設立辦公室,由資深技術高管 Simon Green 領軍,招聘範圍將涵蓋日本、雪梨、墨爾本及印度等關鍵市場。除了亞太地區的
相關專題推薦
評論 (23)
0/500
산업별 AI 벤치마크라... 솔직히 말해서 이미 늦은 감이 있죠. ㅋㅋ 의료나 금융 같은 분야에선 어제도 벤치마크 필요하다고 했는데, OpenAI가 이제서야 주장하다니. 뒤쳐지는 걸 인정한 건가? 🧐
This article really opened my eyes to how generic AI benchmarks miss the mark for specific industries! It’s like trying to judge a chef by how fast they run. Industry-tailored tests make so much sense for real-world applications. Excited to see where this goes! 😄
This article really opened my eyes to how generic AI benchmarks miss the mark for specific industries! It's like trying to judge a chef by how fast they can run. Excited to see tailored benchmarks evolve! 😄
OpenAI's push for industry-specific AI benchmarks is a breath of fresh air! Finally, someone's addressing the real-world needs of different sectors, not just generic tasks. It's about time we see AI models tailored to specific industries. Can't wait to see how this evolves! 🚀

基準性能結果是新AI模型發布時的常見特點,展示其在各種通用任務上的能力,如小學數學(GSM8K)或研究生級推理(GPQA)。然而,這些基準通常無法滿足各行業的特定需求。
另訊:ChatGPT現在將記住你告訴它的每一件事——就像一個真正的個人助理
OpenAI先鋒計劃
為彌補這一差距,OpenAI推出了OpenAI先鋒計劃,旨在增強針對特定行業和實際應用的AI模型開發。此計劃是一個雙重聚焦的努力,企業與OpenAI的研究人員合作,創建更具針對性的評估,並優化模型以適應特定領域。
我們正在推出OpenAI先鋒計劃——OpenAI與打造先進AI產品的企業之間的合作,旨在(a)深度微調模型,使其在高價值的特定領域任務中表現出色,以及(b)建立更好的現實世界評估,使各行業能夠更好地… https://t.co/cCvkGmYqJd
— Brad Lightcap (@bradlightcap) 2025年4月9日
在最近的一篇博客文章中,OpenAI指出,法律、金融、保險、醫療和會計等行業缺乏全面的基準來源。為了解決這一問題,OpenAI計劃與每個行業內的多家企業合作,開發這些評估。這種方法不僅旨在增強模型開發,還旨在促進公眾與AI技術之間的更大信任。
另訊:Anthropic表示,AI並未遇到瓶頸,只是變得太聰明,超出了基準的評估能力
研究發現,缺乏行業特定基準是AI在企業環境中的重大挑戰。例如,領導Salesforce AI Research的Silvio Savarese在一篇博客文章中討論了企業通用智能(EGI)的概念。EGI專注於為特定業務領域量身定制的高級AI解決方案。在與ZDNET的討論中,他強調了開發評估特定領域功能的基準作為實現EGI的關鍵一步。
優化現有模型
除了創建新評估外,OpenAI還將與企業合作,通過一種名為強化微調(RFT)的方法,針對三個特定行業用例優化現有模型。OpenAI將提供實施RFT的指導,允許企業自行決定如何最佳部署這些模型,據OpenAI表示,這些模型預計將準備好進行大規模使用。
另訊:史丹佛學者表示,AI模型競賽突然變得更加激烈
參與該計劃的首批企業將包括專注於具有重大現實世界影響的用例的少數初創公司。如果您的企業符合這些標準,您可以通過OpenAI先鋒計劃網頁提交基本企業資訊進行申請。
透過我們的Tech Today通訊,每天早晨獲取頭條新聞至您的收件匣。
ElevenLabs 宣布 BlackRock、傑米·福克斯與伊娃·朗格莉亞成為新投資人
語音人工智慧公司 ElevenLabs 已公布其 5 億美元 D 輪融資的更多投資者名單,該輪融資最初於二月宣布。 投資者陣容包括黑石集團(BlackRock)、威靈頓管理(Wellington)、D.E. Shaw及施羅德(Schroders)等機構投資者;NVIDIA、Salesforce、桑坦德銀行(Santander)、KPN及德國電信(Deutsche Telekom)等企業;以及傑米·
OpenAI 執行長阿爾特曼抨擊 Anthropic 採取恐慌式行銷策略
人工智慧領域的兩大龍頭 OpenAI 與 Anthropic 之間的公開爭執持續升溫。OpenAI 執行長山姆·奧特曼(Sam Altman)近日在一檔播客節目中,對競爭對手的最新安全模型提出質疑。奧特曼主張,Anthropic 利用大眾對科技的恐懼,誇大了其產品的實際能力。他認為這種做法更像是行銷手段,而非真正的安全措施。僅限精英階層使用引發「築起技術壁壘」的指控這場爭議源於Anthropic本
在獲得 SpaceX 的大筆投資後,人工智慧編程新創公司 Cursor 將在亞太地區招聘 200 名員工
人工智慧編碼新創公司 Cursor 宣布了一項重大的全球擴張計畫,預計在未來六個月內於亞太地區招聘 200 名員工。主要職位包括行銷工程師、現場工程師及人工智慧部署工程師。此舉彰顯了這家總部位於舊金山的獨角獸企業,正積極將其核心技術推向國際市場。目前,Cursor 已在新加坡設立辦公室,由資深技術高管 Simon Green 領軍,招聘範圍將涵蓋日本、雪梨、墨爾本及印度等關鍵市場。除了亞太地區的
산업별 AI 벤치마크라... 솔직히 말해서 이미 늦은 감이 있죠. ㅋㅋ 의료나 금융 같은 분야에선 어제도 벤치마크 필요하다고 했는데, OpenAI가 이제서야 주장하다니. 뒤쳐지는 걸 인정한 건가? 🧐
This article really opened my eyes to how generic AI benchmarks miss the mark for specific industries! It’s like trying to judge a chef by how fast they run. Industry-tailored tests make so much sense for real-world applications. Excited to see where this goes! 😄
This article really opened my eyes to how generic AI benchmarks miss the mark for specific industries! It's like trying to judge a chef by how fast they can run. Excited to see tailored benchmarks evolve! 😄
OpenAI's push for industry-specific AI benchmarks is a breath of fresh air! Finally, someone's addressing the real-world needs of different sectors, not just generic tasks. It's about time we see AI models tailored to specific industries. Can't wait to see how this evolves! 🚀





首頁






