優化AI模型選擇以提升現實世界表現
企業必須確保其應用驅動的AI模型在現實世界場景中有效運作。預測這些場景可能具有挑戰性,進而使評估變得複雜。更新後的RewardBench 2基準為組織提供了更清晰的模型實際表現洞察。
Allen Institute for AI (Ai2) 推出了RewardBench 2,這是其RewardBench基準的增強版本,旨在提供對模型表現和企業目標一致性的全面評估。
Ai2開發的RewardBench包含分類任務,通過推理時計算和下游訓練來評估相關性。RewardBench專注於獎勵模型(RMs),這些模型通過為大型語言模型輸出分配分數或“獎勵”來指導基於人類反饋的強化學習(RHLF)。
RewardBench 2 is here! We took a long time to learn from our first reward model evaluation tool to make one that is substantially harder and more correlated with both downstream RLHF and inference-time scaling. pic.twitter.com/NGetvNrOQV
— Ai2 (@allen_ai) June 2, 2025
Ai2的高級研究科學家Nathan Lambert向VentureBeat表示,原始的RewardBench最初表現良好,但隨著模型環境的演進,需求更新基準。
“隨著獎勵模型變得更加複雜以及使用場景更為繁雜,我們與社群一同觀察到,第一版無法完全應對現實世界中人類偏好的複雜性,”他解釋道。
Lambert指出,RewardBench 2提升了評估範圍和深度,納入了多樣化且具挑戰性的提示,以及改進的方法,以更好地反映人類對AI輸出的判斷。它包含新的人類提示、更嚴格的評分系統和額外的領域。
利用評估進行模型評估
獎勵模型評估模型表現,但與公司價值觀的一致性至關重要。未對齊的RMs可能會放大幻覺問題,降低泛化能力,或在微調和強化學習期間過分偏向有害回應。
RewardBench 2涵蓋六個領域:事實性、精確指令遵循、數學、安全性、焦點和平衡。
“企業可以根據需求以兩種方式使用RewardBench 2。對於RHLF,他們應將頂尖模型的最佳實踐和數據集整合到其流程中,因為獎勵模型需要策略性訓練。對於推理時擴展或數據過濾,RewardBench 2有助於選擇最適合其領域的模型,並具有相關的表現,”Lambert說道。
Lambert強調,像RewardBench這樣的基準允許用戶根據對他們最重要的優先級來評估模型,而不是通用的分數。他指出,表現是主觀的,與用戶情境和目標密切相關,人類偏好往往極其細緻。
Ai2於2024年3月推出了原始的RewardBench,稱其為首個獎勵模型基準和排行榜。此後,出現了如Meta的FAIR reWordBench和DeepSeek的Self-Principled Critique Tuning等新方法,用於更智能、可擴展的RMs。
Super excited that our second reward model evaluation is out. It's substantially harder, much cleaner, and well correlated with downstream PPO/BoN sampling.
Happy hillclimbing!
Huge congrats to @saumyamalik44 who lead the project with a total commitment to excellence. https://t.co/c0b6rHTXY5
— Nathan Lambert (@natolambert) June 2, 2025
模型表現洞察
通過RewardBench 2,Ai2測試了現有和新訓練的模型,包括Gemini、Claude、GPT-4.1和Llama-3.1的變體,以及Qwen、Skywork和Tulu等數據集和模型。
結果顯示,較大的獎勵模型因其更強大的基礎模型而表現出色。Llama-3.1 Instruct變體在基準中名列前茅,Skywork數據有助於提升焦點和安全性,Tulu在事實性方面表現良好。

Ai2指出,雖然RewardBench 2推進了多領域、精確度導向的獎勵模型評估,但它主要應指導企業選擇最適合其特定需求的模型。
相關文章
如何保護資產、建築物及個人健康?
在這個充滿變數的世界裡,保障已不再僅是選項,而是戰略上的必要之舉。無論是守護財務、強化建築結構,還是關注個人健康,長期的穩定都仰賴於主動規劃。真正的安全是多層次的,取決於財務管理、結構韌性與明智的健康意識三者相輔相成。守護最重要的事物,意味著必須未雨綢繆,而非僅在損害發生後才做出反應。財務保障:第一道防線每個人與每家企業都運作於財務架構之中。收入、支出、負債與投資構成了穩定的基石。若缺乏有條不紊的
AI 瀏覽器 Comet 正式上線,在 iPad 上全面支援多工處理
Perplexity 的 AI 瀏覽器 Comet 已正式推出 iPad 版本,現已全面相容於 iPadOS。此次更新導入多視窗瀏覽功能、多工處理支援,並與 OpenAI 和 Anthropic 等頂尖 AI 模型深度整合,帶來更智能的網路體驗。Comet 瀏覽器拓展了使用者探索網路及與 AI 聊天機器人互動的方式,提供直觀的管道存取 OpenAI 和 Anthropic 等頂尖 AI 模型,以進
Trace籌集了300萬美元,用於解決企業採用AI智慧助手時所遇到的各種障礙。
儘管人工智慧代理具有巨大潛力,但它們在企業中仍難以取得實質性進展。一家新興的初創企業認為,根本問題在於缺乏上下文資訊。Trace是一家專注於工作流程協作的初創企業,它作為Y Combinator 2025年夏季培訓專案的一部分誕生,旨在彌補這一空白。該公司能夠梳理複雜的企業環境和業務流程,為人工智慧代理提供所需的上下文資訊,從而幫助它們快速發展。“OpenAI和Anthropic培養出了非常優秀的人工智慧實習生,企業完全可以利用這些資源,”Trace的執行長Tim Cherkasov解釋
相關專題推薦
評論 (3)
0/500
Como usuario que solo tiene conocimientos básicos, elegir el modelo adecuado es un dolor de cabeza. Este artículo menciona problemas prácticos que son ciertos; a veces, el modelo parece brillar en la prueba, pero en la práctica simplemente falla. Me pregunto si el RewardBench actualizado ayuda a predecir cuándo un modelo se 'descompone' de manera realista. Si las empresas confían demasiado en las métricas, podrían terminar con un fiasco en producción 😅. ¿Habrá herramientas más accesibles para los equipos pequeños?
この記事、実運用でのAIモデルの難しさをしっかり分析してますね。特にリアルワールドでの性能評価の課題は興味深い。AI導入が進む中で、本当に役立つモデル選びができる企業が勝ち残るのかも。ユーザー体験を考えると、ベンチマークだけで選ぶのは危険かもしれない... 😅
企業必須確保其應用驅動的AI模型在現實世界場景中有效運作。預測這些場景可能具有挑戰性,進而使評估變得複雜。更新後的RewardBench 2基準為組織提供了更清晰的模型實際表現洞察。
Allen Institute for AI (Ai2) 推出了RewardBench 2,這是其RewardBench基準的增強版本,旨在提供對模型表現和企業目標一致性的全面評估。
Ai2開發的RewardBench包含分類任務,通過推理時計算和下游訓練來評估相關性。RewardBench專注於獎勵模型(RMs),這些模型通過為大型語言模型輸出分配分數或“獎勵”來指導基於人類反饋的強化學習(RHLF)。
RewardBench 2 is here! We took a long time to learn from our first reward model evaluation tool to make one that is substantially harder and more correlated with both downstream RLHF and inference-time scaling. pic.twitter.com/NGetvNrOQV
— Ai2 (@allen_ai) June 2, 2025
Ai2的高級研究科學家Nathan Lambert向VentureBeat表示,原始的RewardBench最初表現良好,但隨著模型環境的演進,需求更新基準。
“隨著獎勵模型變得更加複雜以及使用場景更為繁雜,我們與社群一同觀察到,第一版無法完全應對現實世界中人類偏好的複雜性,”他解釋道。
Lambert指出,RewardBench 2提升了評估範圍和深度,納入了多樣化且具挑戰性的提示,以及改進的方法,以更好地反映人類對AI輸出的判斷。它包含新的人類提示、更嚴格的評分系統和額外的領域。
利用評估進行模型評估
獎勵模型評估模型表現,但與公司價值觀的一致性至關重要。未對齊的RMs可能會放大幻覺問題,降低泛化能力,或在微調和強化學習期間過分偏向有害回應。
RewardBench 2涵蓋六個領域:事實性、精確指令遵循、數學、安全性、焦點和平衡。
“企業可以根據需求以兩種方式使用RewardBench 2。對於RHLF,他們應將頂尖模型的最佳實踐和數據集整合到其流程中,因為獎勵模型需要策略性訓練。對於推理時擴展或數據過濾,RewardBench 2有助於選擇最適合其領域的模型,並具有相關的表現,”Lambert說道。
Lambert強調,像RewardBench這樣的基準允許用戶根據對他們最重要的優先級來評估模型,而不是通用的分數。他指出,表現是主觀的,與用戶情境和目標密切相關,人類偏好往往極其細緻。
Ai2於2024年3月推出了原始的RewardBench,稱其為首個獎勵模型基準和排行榜。此後,出現了如Meta的FAIR reWordBench和DeepSeek的Self-Principled Critique Tuning等新方法,用於更智能、可擴展的RMs。
Super excited that our second reward model evaluation is out. It's substantially harder, much cleaner, and well correlated with downstream PPO/BoN sampling.
— Nathan Lambert (@natolambert) June 2, 2025
Happy hillclimbing!
Huge congrats to @saumyamalik44 who lead the project with a total commitment to excellence. https://t.co/c0b6rHTXY5
模型表現洞察
通過RewardBench 2,Ai2測試了現有和新訓練的模型,包括Gemini、Claude、GPT-4.1和Llama-3.1的變體,以及Qwen、Skywork和Tulu等數據集和模型。
結果顯示,較大的獎勵模型因其更強大的基礎模型而表現出色。Llama-3.1 Instruct變體在基準中名列前茅,Skywork數據有助於提升焦點和安全性,Tulu在事實性方面表現良好。

Ai2指出,雖然RewardBench 2推進了多領域、精確度導向的獎勵模型評估,但它主要應指導企業選擇最適合其特定需求的模型。
如何保護資產、建築物及個人健康?
在這個充滿變數的世界裡,保障已不再僅是選項,而是戰略上的必要之舉。無論是守護財務、強化建築結構,還是關注個人健康,長期的穩定都仰賴於主動規劃。真正的安全是多層次的,取決於財務管理、結構韌性與明智的健康意識三者相輔相成。守護最重要的事物,意味著必須未雨綢繆,而非僅在損害發生後才做出反應。財務保障:第一道防線每個人與每家企業都運作於財務架構之中。收入、支出、負債與投資構成了穩定的基石。若缺乏有條不紊的
AI 瀏覽器 Comet 正式上線,在 iPad 上全面支援多工處理
Perplexity 的 AI 瀏覽器 Comet 已正式推出 iPad 版本,現已全面相容於 iPadOS。此次更新導入多視窗瀏覽功能、多工處理支援,並與 OpenAI 和 Anthropic 等頂尖 AI 模型深度整合,帶來更智能的網路體驗。Comet 瀏覽器拓展了使用者探索網路及與 AI 聊天機器人互動的方式,提供直觀的管道存取 OpenAI 和 Anthropic 等頂尖 AI 模型,以進
Trace籌集了300萬美元,用於解決企業採用AI智慧助手時所遇到的各種障礙。
儘管人工智慧代理具有巨大潛力,但它們在企業中仍難以取得實質性進展。一家新興的初創企業認為,根本問題在於缺乏上下文資訊。Trace是一家專注於工作流程協作的初創企業,它作為Y Combinator 2025年夏季培訓專案的一部分誕生,旨在彌補這一空白。該公司能夠梳理複雜的企業環境和業務流程,為人工智慧代理提供所需的上下文資訊,從而幫助它們快速發展。“OpenAI和Anthropic培養出了非常優秀的人工智慧實習生,企業完全可以利用這些資源,”Trace的執行長Tim Cherkasov解釋
Como usuario que solo tiene conocimientos básicos, elegir el modelo adecuado es un dolor de cabeza. Este artículo menciona problemas prácticos que son ciertos; a veces, el modelo parece brillar en la prueba, pero en la práctica simplemente falla. Me pregunto si el RewardBench actualizado ayuda a predecir cuándo un modelo se 'descompone' de manera realista. Si las empresas confían demasiado en las métricas, podrían terminar con un fiasco en producción 😅. ¿Habrá herramientas más accesibles para los equipos pequeños?
この記事、実運用でのAIモデルの難しさをしっかり分析してますね。特にリアルワールドでの性能評価の課題は興味深い。AI導入が進む中で、本当に役立つモデル選びができる企業が勝ち残るのかも。ユーザー体験を考えると、ベンチマークだけで選ぶのは危険かもしれない... 😅





首頁






