优化AI模型选择以实现现实世界性能
企业必须确保其驱动应用的AI模型在现实世界场景中有效运行。预测这些场景可能具有挑战性,使评估复杂化。更新后的RewardBench 2基准为组织提供了更清晰的模型实际性能洞察。
艾伦人工智能研究所(Ai2)推出了RewardBench 2,这是其RewardBench基准的增强版,旨在全面评估模型性能以及与企业目标的契合度。
Ai2开发了RewardBench,包含分类任务,通过推理时计算和下游训练评估相关性。RewardBench专注于奖励模型(RMs),这些模型通过分配分数或“奖励”来判断大型语言模型输出,以指导基于人类反馈的强化学习(RHLF)。
RewardBench 2来了!我们花了很长时间从首个奖励模型评估工具中学习,打造了一个难度大幅提升、与下游RLHF和推理时扩展更相关的工具。pic.twitter.com/NGetvNrOQV
— Ai2 (@allen_ai) 2025年6月2日
Ai2高级研究科学家Nathan Lambert对VentureBeat表示,最初的RewardBench表现良好,但模型环境的演变要求更新基准。
“随着奖励模型变得更复杂,用例更复杂,我们与社区一起发现,第一版未能完全解决现实世界中人类偏好的复杂性,”他解释道。
Lambert指出,RewardBench 2改进了评估范围和深度,纳入了多样化、具有挑战性的提示和优化方法,以更好地反映人类对AI输出的判断。它包括新的人类提示、更严格的评分系统和额外领域。
利用评估进行模型评估
奖励模型评估模型性能,但与公司价值观的契合至关重要。未对齐的奖励模型可能放大幻觉、降低泛化能力或在微调和强化学习中过度偏向有害响应。
RewardBench 2涵盖六个领域:事实性、精确指令遵循、数学、安全性、专注度和关联性。
“企业可根据需求以两种方式使用RewardBench 2。对于RLHF,应将顶级模型的最佳实践和数据集整合到其流程中,因为奖励模型需要在线训练。对于推理时扩展或数据过滤,RewardBench 2帮助选择与其领域性能相关的最佳模型,”Lambert说。
Lambert强调,像RewardBench这样的基准允许用户根据最相关的优先级评估模型,而非通用分数。他指出,性能是主观的,与用户背景和目标密切相关,人类偏好往往非常微妙。
Ai2于2024年3月推出原始RewardBench,称其为首个奖励模型基准和排行榜。此后,出现了Meta的FAIR reWordBench和DeepSeek的自我原则批判调优等新方法,用于更智能、可扩展的奖励模型。
非常兴奋我们的第二个奖励模型评估发布。它难度大幅提升,更清晰,与下游PPO/BoN采样高度相关。
祝爬坡愉快!
衷心祝贺@saumyamalik44,她以卓越的承诺领导了这个项目。https://t.co/c0b6rHTXY5
— Nathan Lambert (@natolambert) 2025年6月2日
模型性能洞察
通过RewardBench 2,Ai2测试了现有和新训练的模型,包括Gemini、Claude、GPT-4.1和Llama-3.1的变体,以及Qwen、Skywork和Tulu等数据集和模型。
结果显示,较大的奖励模型因更强大的基础模型而表现优异。Llama-3.1 Instruct变体在基准测试中名列前茅,Skywork数据有助于专注度和安全性,Tulu在事实性方面表现良好。

Ai2指出,虽然RewardBench 2推动了多领域、注重准确性的奖励模型评估,但企业应主要用它来选择最适合其特定需求的模型。
相关文章
小红书进行组织架构调整:柯南出任总裁,新设AI主营部门Dots及海外业务部门Rednote
4月30日,小红书向全体员工发布内部通告,宣布启动新一轮组织架构调整。此次调整的核心在于将社区、电商和商业化三大业务线与公司的技术系统全面整合。 公司新设了名为“Dots”的AI优先部门,这标志着小红书已正式将AI提升为最高战略优先级,旨在使其从工具性功能转变为核心生产力。在人事任命方面,南(丁玲)被任命为小红书总裁,负责公司核心业务运营,并直接向CEO邢宇汇报。 各业务板块负责人也已明确:智恒将
腾讯旗下“小龙虾”表现远超预期,团队将运力扩大10倍,并致歉及提供补偿
腾讯正式推出全场景AI智能助手“WorkBuddy”,凭借高度集成和低部署门槛,标志着大型模型应用层竞争进入新阶段。该产品在发布当天便引发了业界广泛关注。 用户流量远超预期,导致相关产品腾讯云代码助手(CodeBuddy)出现登录故障及服务不稳定。腾讯云团队随后发布致歉声明,表示技术团队已紧急将容量扩容十倍,目前服务已全面恢复。受影响用户获得了5,000腾讯云代金券作为补偿。业界观察人士将Work
Suno领投方:删除帖子无法填补版权诉讼的漏洞
备受瞩目的AI音乐生成平台Suno正面临一场艰难的版权诉讼,而其领投投资人的坦率言论,可能恰恰为对方提供了他们梦寐以求的证据。 Menlo Ventures(Suno的核心投资者)合伙人C.C. Gong近日删除了一个推文,该推文与公司当前的法律辩护策略直接相悖。在之前的版权诉讼中,Suno的辩护主要依赖“合理使用”的论点,声称AI生成的音乐仅仅是一种“工具”,既不会直接与受版权保护的原创作品竞争
相关专题推荐
评论 (3)
0/500
Como usuario que solo tiene conocimientos básicos, elegir el modelo adecuado es un dolor de cabeza. Este artículo menciona problemas prácticos que son ciertos; a veces, el modelo parece brillar en la prueba, pero en la práctica simplemente falla. Me pregunto si el RewardBench actualizado ayuda a predecir cuándo un modelo se 'descompone' de manera realista. Si las empresas confían demasiado en las métricas, podrían terminar con un fiasco en producción 😅. ¿Habrá herramientas más accesibles para los equipos pequeños?
この記事、実運用でのAIモデルの難しさをしっかり分析してますね。特にリアルワールドでの性能評価の課題は興味深い。AI導入が進む中で、本当に役立つモデル選びができる企業が勝ち残るのかも。ユーザー体験を考えると、ベンチマークだけで選ぶのは危険かもしれない... 😅
企业必须确保其驱动应用的AI模型在现实世界场景中有效运行。预测这些场景可能具有挑战性,使评估复杂化。更新后的RewardBench 2基准为组织提供了更清晰的模型实际性能洞察。
艾伦人工智能研究所(Ai2)推出了RewardBench 2,这是其RewardBench基准的增强版,旨在全面评估模型性能以及与企业目标的契合度。
Ai2开发了RewardBench,包含分类任务,通过推理时计算和下游训练评估相关性。RewardBench专注于奖励模型(RMs),这些模型通过分配分数或“奖励”来判断大型语言模型输出,以指导基于人类反馈的强化学习(RHLF)。
RewardBench 2来了!我们花了很长时间从首个奖励模型评估工具中学习,打造了一个难度大幅提升、与下游RLHF和推理时扩展更相关的工具。pic.twitter.com/NGetvNrOQV
— Ai2 (@allen_ai) 2025年6月2日
Ai2高级研究科学家Nathan Lambert对VentureBeat表示,最初的RewardBench表现良好,但模型环境的演变要求更新基准。
“随着奖励模型变得更复杂,用例更复杂,我们与社区一起发现,第一版未能完全解决现实世界中人类偏好的复杂性,”他解释道。
Lambert指出,RewardBench 2改进了评估范围和深度,纳入了多样化、具有挑战性的提示和优化方法,以更好地反映人类对AI输出的判断。它包括新的人类提示、更严格的评分系统和额外领域。
利用评估进行模型评估
奖励模型评估模型性能,但与公司价值观的契合至关重要。未对齐的奖励模型可能放大幻觉、降低泛化能力或在微调和强化学习中过度偏向有害响应。
RewardBench 2涵盖六个领域:事实性、精确指令遵循、数学、安全性、专注度和关联性。
“企业可根据需求以两种方式使用RewardBench 2。对于RLHF,应将顶级模型的最佳实践和数据集整合到其流程中,因为奖励模型需要在线训练。对于推理时扩展或数据过滤,RewardBench 2帮助选择与其领域性能相关的最佳模型,”Lambert说。
Lambert强调,像RewardBench这样的基准允许用户根据最相关的优先级评估模型,而非通用分数。他指出,性能是主观的,与用户背景和目标密切相关,人类偏好往往非常微妙。
Ai2于2024年3月推出原始RewardBench,称其为首个奖励模型基准和排行榜。此后,出现了Meta的FAIR reWordBench和DeepSeek的自我原则批判调优等新方法,用于更智能、可扩展的奖励模型。
非常兴奋我们的第二个奖励模型评估发布。它难度大幅提升,更清晰,与下游PPO/BoN采样高度相关。
— Nathan Lambert (@natolambert) 2025年6月2日
祝爬坡愉快!
衷心祝贺@saumyamalik44,她以卓越的承诺领导了这个项目。https://t.co/c0b6rHTXY5
模型性能洞察
通过RewardBench 2,Ai2测试了现有和新训练的模型,包括Gemini、Claude、GPT-4.1和Llama-3.1的变体,以及Qwen、Skywork和Tulu等数据集和模型。
结果显示,较大的奖励模型因更强大的基础模型而表现优异。Llama-3.1 Instruct变体在基准测试中名列前茅,Skywork数据有助于专注度和安全性,Tulu在事实性方面表现良好。

Ai2指出,虽然RewardBench 2推动了多领域、注重准确性的奖励模型评估,但企业应主要用它来选择最适合其特定需求的模型。
小红书进行组织架构调整:柯南出任总裁,新设AI主营部门Dots及海外业务部门Rednote
4月30日,小红书向全体员工发布内部通告,宣布启动新一轮组织架构调整。此次调整的核心在于将社区、电商和商业化三大业务线与公司的技术系统全面整合。 公司新设了名为“Dots”的AI优先部门,这标志着小红书已正式将AI提升为最高战略优先级,旨在使其从工具性功能转变为核心生产力。在人事任命方面,南(丁玲)被任命为小红书总裁,负责公司核心业务运营,并直接向CEO邢宇汇报。 各业务板块负责人也已明确:智恒将
腾讯旗下“小龙虾”表现远超预期,团队将运力扩大10倍,并致歉及提供补偿
腾讯正式推出全场景AI智能助手“WorkBuddy”,凭借高度集成和低部署门槛,标志着大型模型应用层竞争进入新阶段。该产品在发布当天便引发了业界广泛关注。 用户流量远超预期,导致相关产品腾讯云代码助手(CodeBuddy)出现登录故障及服务不稳定。腾讯云团队随后发布致歉声明,表示技术团队已紧急将容量扩容十倍,目前服务已全面恢复。受影响用户获得了5,000腾讯云代金券作为补偿。业界观察人士将Work
Suno领投方:删除帖子无法填补版权诉讼的漏洞
备受瞩目的AI音乐生成平台Suno正面临一场艰难的版权诉讼,而其领投投资人的坦率言论,可能恰恰为对方提供了他们梦寐以求的证据。 Menlo Ventures(Suno的核心投资者)合伙人C.C. Gong近日删除了一个推文,该推文与公司当前的法律辩护策略直接相悖。在之前的版权诉讼中,Suno的辩护主要依赖“合理使用”的论点,声称AI生成的音乐仅仅是一种“工具”,既不会直接与受版权保护的原创作品竞争
Como usuario que solo tiene conocimientos básicos, elegir el modelo adecuado es un dolor de cabeza. Este artículo menciona problemas prácticos que son ciertos; a veces, el modelo parece brillar en la prueba, pero en la práctica simplemente falla. Me pregunto si el RewardBench actualizado ayuda a predecir cuándo un modelo se 'descompone' de manera realista. Si las empresas confían demasiado en las métricas, podrían terminar con un fiasco en producción 😅. ¿Habrá herramientas más accesibles para los equipos pequeños?
この記事、実運用でのAIモデルの難しさをしっかり分析してますね。特にリアルワールドでの性能評価の課題は興味深い。AI導入が進む中で、本当に役立つモデル選びができる企業が勝ち残るのかも。ユーザー体験を考えると、ベンチマークだけで選ぶのは危険かもしれない... 😅





首页






