OpenAI倡导特定于行业的AI基准:这就是为什么重要的

基准性能结果是新AI模型发布时的常见特性,展示了它们在各种通用任务上的能力,如小学数学(GSM8K)或研究生级推理(GPQA)。然而,这些基准往往无法满足各行业的具体需求。
另:ChatGPT现在会记住你告诉它的所有内容——就像一个真正的个人助理
OpenAI先锋计划
为了弥补这一差距,OpenAI推出了OpenAI先锋计划,旨在增强针对特定行业和实际应用的AI模型开发。这项举措是一项双重聚焦的努力,企业与OpenAI的研究人员合作,创建更具针对性的评估,并优化模型以适应特定领域。
我们正在推出openai先锋计划——OpenAI与构建高级AI产品的公司之间的合作,旨在(a)深入微调模型,使其在高价值领域特定任务上表现优异,以及(b)构建更好的现实世界评估,使各行业能够更好地… https://t.co/cCvkGmYqJd
— Brad Lightcap (@bradlightcap) 2025年4月9日
在最近的一篇博客文章中,OpenAI指出,法律、金融、保险、医疗和会计等行业缺乏全面的基准来源。为此,OpenAI计划与每个行业的多家公司合作开发这些评估。这种方法不仅旨在增强模型开发,还旨在促进公众与AI技术之间的更大信任。
另:Anthropic表示,AI并未遇到瓶颈,只是变得过于聪明,超出了基准的评估能力
研究发现,缺乏行业特定基准是AI在企业环境中面临的重要挑战。例如,Salesforce AI Research负责人Silvio Savarese在一篇博客文章中讨论了企业通用智能(EGI)的概念。EGI专注于为特定业务领域定制的高级AI解决方案。在与ZDNET的讨论中,他强调了开发评估特定领域功能的基准作为实现EGI的关键步骤。
优化现有模型
除了创建新的评估外,OpenAI还将与公司合作,通过一种称为强化微调(RFT)的方法优化现有模型,针对三个特定行业用例。OpenAI将提供实施RFT的指导,允许公司随后决定如何最好地部署这些模型,据OpenAI称,这些模型预计将准备好进行大规模使用。
另:斯坦福学者表示,AI模型竞赛突然变得更加激烈
参与该计划的首批群体将包括专注于具有重大现实世界影响的用例的少数初创公司。如果您的公司符合这些标准,您可以通过OpenAI先锋计划网页提交基本公司信息进行申请。
通过我们的Tech Today通讯,每天在您的收件箱中获取当天的头条新闻。
相关文章
中国网络空间管理局要求对人工智能生成和虚构的短视频进行标注
中国国家互联网信息办公室出台了一项全面计划,旨在规范短视频内容标注,要求各平台提供六项必备标签——包括“AI生成内容”——这标志着短视频治理进入了一个强制透明化的新时代。为解决内容来源不明、难以区分真伪等问题,监管部门在此前与抖音、快手、腾讯、百度等主要平台开展试点的基础上,现已将内容标注作为短视频发布流程中的强制性环节。 发布者必须从六种选项中选择其一:“虚构演绎”、“AI生成”、“含营销信息”
以文本翻译著称的DeepL,如今将目光投向了语音翻译
以文本翻译工具闻名的翻译公司DeepL今日推出了一套语音到语音翻译解决方案,通过定制应用程序,为一线工作人员在会议、移动端和网页对话以及小组讨论等场景中提供支持。 该公司还推出了一款API,允许外部开发者和企业基于DeepL的技术构建定制化解决方案,例如呼叫中心应用。“在专注于文本翻译多年后,语音翻译对我们来说是水到渠成的下一步,”DeepL首席执行官Jarek Kutylowski在接受Tech
Talat 的 AI 会议记录存储在您的设备上,而非云端
估值达2.5亿美元的AI笔记应用Granola在科技创业者和风险投资家群体中备受追捧。但一位开发者认为,市场需要一款更注重隐私、完全本地化、只需一次性付费且无需订阅的替代方案。这一构想催生了一款名为Talat的新Mac应用。来自英国约克郡的尼克·佩恩(Nick Payne)自称是位计算机极客,他表示开发本地化AI笔记应用的灵感,很大程度上源于一系列幸运的偶然。“我认为Granola非常出色;它充分
相关专题推荐
评论 (23)
0/500
산업별 AI 벤치마크라... 솔직히 말해서 이미 늦은 감이 있죠. ㅋㅋ 의료나 금융 같은 분야에선 어제도 벤치마크 필요하다고 했는데, OpenAI가 이제서야 주장하다니. 뒤쳐지는 걸 인정한 건가? 🧐
This article really opened my eyes to how generic AI benchmarks miss the mark for specific industries! It’s like trying to judge a chef by how fast they run. Industry-tailored tests make so much sense for real-world applications. Excited to see where this goes! 😄
This article really opened my eyes to how generic AI benchmarks miss the mark for specific industries! It's like trying to judge a chef by how fast they can run. Excited to see tailored benchmarks evolve! 😄
OpenAI's push for industry-specific AI benchmarks is a breath of fresh air! Finally, someone's addressing the real-world needs of different sectors, not just generic tasks. It's about time we see AI models tailored to specific industries. Can't wait to see how this evolves! 🚀

基准性能结果是新AI模型发布时的常见特性,展示了它们在各种通用任务上的能力,如小学数学(GSM8K)或研究生级推理(GPQA)。然而,这些基准往往无法满足各行业的具体需求。
另:ChatGPT现在会记住你告诉它的所有内容——就像一个真正的个人助理
OpenAI先锋计划
为了弥补这一差距,OpenAI推出了OpenAI先锋计划,旨在增强针对特定行业和实际应用的AI模型开发。这项举措是一项双重聚焦的努力,企业与OpenAI的研究人员合作,创建更具针对性的评估,并优化模型以适应特定领域。
我们正在推出openai先锋计划——OpenAI与构建高级AI产品的公司之间的合作,旨在(a)深入微调模型,使其在高价值领域特定任务上表现优异,以及(b)构建更好的现实世界评估,使各行业能够更好地… https://t.co/cCvkGmYqJd
— Brad Lightcap (@bradlightcap) 2025年4月9日
在最近的一篇博客文章中,OpenAI指出,法律、金融、保险、医疗和会计等行业缺乏全面的基准来源。为此,OpenAI计划与每个行业的多家公司合作开发这些评估。这种方法不仅旨在增强模型开发,还旨在促进公众与AI技术之间的更大信任。
另:Anthropic表示,AI并未遇到瓶颈,只是变得过于聪明,超出了基准的评估能力
研究发现,缺乏行业特定基准是AI在企业环境中面临的重要挑战。例如,Salesforce AI Research负责人Silvio Savarese在一篇博客文章中讨论了企业通用智能(EGI)的概念。EGI专注于为特定业务领域定制的高级AI解决方案。在与ZDNET的讨论中,他强调了开发评估特定领域功能的基准作为实现EGI的关键步骤。
优化现有模型
除了创建新的评估外,OpenAI还将与公司合作,通过一种称为强化微调(RFT)的方法优化现有模型,针对三个特定行业用例。OpenAI将提供实施RFT的指导,允许公司随后决定如何最好地部署这些模型,据OpenAI称,这些模型预计将准备好进行大规模使用。
另:斯坦福学者表示,AI模型竞赛突然变得更加激烈
参与该计划的首批群体将包括专注于具有重大现实世界影响的用例的少数初创公司。如果您的公司符合这些标准,您可以通过OpenAI先锋计划网页提交基本公司信息进行申请。
通过我们的Tech Today通讯,每天在您的收件箱中获取当天的头条新闻。
中国网络空间管理局要求对人工智能生成和虚构的短视频进行标注
中国国家互联网信息办公室出台了一项全面计划,旨在规范短视频内容标注,要求各平台提供六项必备标签——包括“AI生成内容”——这标志着短视频治理进入了一个强制透明化的新时代。为解决内容来源不明、难以区分真伪等问题,监管部门在此前与抖音、快手、腾讯、百度等主要平台开展试点的基础上,现已将内容标注作为短视频发布流程中的强制性环节。 发布者必须从六种选项中选择其一:“虚构演绎”、“AI生成”、“含营销信息”
以文本翻译著称的DeepL,如今将目光投向了语音翻译
以文本翻译工具闻名的翻译公司DeepL今日推出了一套语音到语音翻译解决方案,通过定制应用程序,为一线工作人员在会议、移动端和网页对话以及小组讨论等场景中提供支持。 该公司还推出了一款API,允许外部开发者和企业基于DeepL的技术构建定制化解决方案,例如呼叫中心应用。“在专注于文本翻译多年后,语音翻译对我们来说是水到渠成的下一步,”DeepL首席执行官Jarek Kutylowski在接受Tech
Talat 的 AI 会议记录存储在您的设备上,而非云端
估值达2.5亿美元的AI笔记应用Granola在科技创业者和风险投资家群体中备受追捧。但一位开发者认为,市场需要一款更注重隐私、完全本地化、只需一次性付费且无需订阅的替代方案。这一构想催生了一款名为Talat的新Mac应用。来自英国约克郡的尼克·佩恩(Nick Payne)自称是位计算机极客,他表示开发本地化AI笔记应用的灵感,很大程度上源于一系列幸运的偶然。“我认为Granola非常出色;它充分
산업별 AI 벤치마크라... 솔직히 말해서 이미 늦은 감이 있죠. ㅋㅋ 의료나 금융 같은 분야에선 어제도 벤치마크 필요하다고 했는데, OpenAI가 이제서야 주장하다니. 뒤쳐지는 걸 인정한 건가? 🧐
This article really opened my eyes to how generic AI benchmarks miss the mark for specific industries! It’s like trying to judge a chef by how fast they run. Industry-tailored tests make so much sense for real-world applications. Excited to see where this goes! 😄
This article really opened my eyes to how generic AI benchmarks miss the mark for specific industries! It's like trying to judge a chef by how fast they can run. Excited to see tailored benchmarks evolve! 😄
OpenAI's push for industry-specific AI benchmarks is a breath of fresh air! Finally, someone's addressing the real-world needs of different sectors, not just generic tasks. It's about time we see AI models tailored to specific industries. Can't wait to see how this evolves! 🚀





首页






