Optimisation de la sélection de modèles d'IA pour des performances réelles
Les entreprises doivent s'assurer que leurs modèles d'IA, qui pilotent les applications, fonctionnent efficacement dans des scénarios réels. Prédire ces scénarios peut être difficile, compliquant les évaluations. Le benchmark RewardBench 2 mis à jour offre aux organisations des informations plus claires sur les performances pratiques d'un modèle.
L’Institut Allen pour l’IA (Ai2) a introduit RewardBench 2, une version améliorée de son benchmark RewardBench, conçue pour fournir une évaluation complète des performances des modèles et de leur alignement avec les objectifs des entreprises.
Ai2 a développé RewardBench avec des tâches de classification évaluant les corrélations via le calcul au moment de l'inférence et l'entraînement en aval. RewardBench se concentre sur les modèles de récompense (RMs), qui jugent les sorties des grands modèles de langage en attribuant des scores ou « récompenses » pour guider l'apprentissage par renforcement avec retour humain (RHLF).
RewardBench 2 est là ! Nous avons pris le temps d’apprendre de notre premier outil d’évaluation de modèle de récompense pour en créer un nettement plus difficile et plus corrélé avec l’RLHF en aval et l’échelle au moment de l’inférence. pic.twitter.com/NGetvNrOQV
— Ai2 (@allen_ai) 2 juin 2025
Nathan Lambert, chercheur senior chez Ai2, a déclaré à VentureBeat que le RewardBench original fonctionnait bien initialement, mais l’évolution des environnements des modèles exigeait des benchmarks actualisés.
« À mesure que les modèles de récompense devenaient plus sophistiqués et les cas d’utilisation plus complexes, nous avons constaté, avec la communauté, que la première version ne répondait pas pleinement aux complexités des préférences humaines en conditions réelles », a-t-il expliqué.
Lambert a noté que RewardBench 2 améliore la portée et la profondeur des évaluations, intégrant des invites variées et exigeantes ainsi que des méthodes affinées pour mieux refléter le jugement humain des sorties d’IA. Il inclut de nouvelles invites humaines, un système de notation plus strict et des domaines supplémentaires.
Utilisation des évaluations pour l'évaluation des modèles
Les modèles de récompense évaluent les performances des modèles, mais l’alignement avec les valeurs de l’entreprise est crucial. Des RMs mal alignés peuvent amplifier des problèmes comme les hallucinations, réduire la généralisation ou favoriser excessivement des réponses nuisibles pendant l’ajustement fin et l’apprentissage par renforcement.
RewardBench 2 couvre six domaines : factualité, respect précis des instructions, mathématiques, sécurité, concentration et égalités.
« Les entreprises peuvent utiliser RewardBench 2 de deux manières selon leurs besoins. Pour l’RLHF, elles doivent intégrer les meilleures pratiques et ensembles de données des meilleurs modèles dans leurs pipelines, car les modèles de récompense nécessitent un entraînement sur politique. Pour l’échelle au moment de l’inférence ou le filtrage des données, RewardBench 2 aide à sélectionner le meilleur modèle pour leur domaine avec des performances corrélées », a déclaré Lambert.
Lambert a souligné que des benchmarks comme RewardBench permettent aux utilisateurs d’évaluer les modèles en fonction des priorités les plus pertinentes pour eux, plutôt qu’un score générique. Il a noté que les performances sont subjectives, fortement liées au contexte et aux objectifs des utilisateurs, avec des préférences humaines souvent très nuancées.
Ai2 a lancé le RewardBench original en mars 2024, le qualifiant de premier benchmark et classement des modèles de récompense. Depuis, de nouvelles méthodes comme FAIR reWordBench de Meta et Self-Principled Critique Tuning de DeepSeek ont émergé pour des RMs plus intelligents et évolutifs.
Super excité que notre deuxième évaluation de modèle de récompense soit sortie. Elle est nettement plus difficile, beaucoup plus propre et bien corrélée avec l’échantillonnage PPO/BoN en aval.
Joyeuse ascension !
Félicitations énormes à @saumyamalik44 qui a dirigé le projet avec un engagement total pour l’excellence. https://t.co/c0b6rHTXY5
— Nathan Lambert (@natolambert) 2 juin 2025
Perspectives sur les performances des modèles
Avec RewardBench 2, Ai2 a testé des modèles existants et nouvellement entraînés, y compris des variantes de Gemini, Claude, GPT-4.1 et Llama-3.1, ainsi que des ensembles de données et modèles comme Qwen, Skywork et Tulu.
Les résultats ont montré que les modèles de récompense plus grands excellent grâce à des modèles de base plus robustes. Les variantes Instruct de Llama-3.1 ont dominé le benchmark, avec les données Skywork aidant à la concentration et à la sécurité, et Tulu performant bien en factualité.

Ai2 a noté que bien que RewardBench 2 fasse progresser l’évaluation multidomaine axée sur la précision pour les modèles de récompense, il devrait principalement guider les entreprises dans la sélection des modèles les mieux adaptés à leurs besoins spécifiques.
Article connexe
Principal investisseur de Suno : la suppression des publications ne comblera pas les lacunes en matière de poursuites pour violation du droit d'auteur
La plateforme de génération musicale par IA très attendue, Suno, est confrontée à une rude bataille en matière de droits d'auteur, et une remarque sans détours de son principal investisseur pourrait b
Claude Opus 4.7 fait son entrée sur le marché en misant davantage sur la fiabilité que sur l'intelligence
Anthropic a maintenu un rythme soutenu cette année, en déployant de nouvelles fonctionnalités presque tous les deux jours. Le très attendu Claude Opus 4.7 vient d'être officiellement lancé, et il est
Haier lance le robot exosquelette sportif doté d'une intelligence artificielle le plus léger au monde, pesant seulement 1,75 kg
Le groupe Haier a présenté le robot exosquelette sportif doté d'une intelligence artificielle le plus léger au monde : le Haier Exoskeleton Robot W3. Ce lancement établit un nouveau record de légèreté
Recommandations de sujets spéciaux liés
commentaires (3)
Como usuario que solo tiene conocimientos básicos, elegir el modelo adecuado es un dolor de cabeza. Este artículo menciona problemas prácticos que son ciertos; a veces, el modelo parece brillar en la prueba, pero en la práctica simplemente falla. Me pregunto si el RewardBench actualizado ayuda a predecir cuándo un modelo se 'descompone' de manera realista. Si las empresas confían demasiado en las métricas, podrían terminar con un fiasco en producción 😅. ¿Habrá herramientas más accesibles para los equipos pequeños?
この記事、実運用でのAIモデルの難しさをしっかり分析してますね。特にリアルワールドでの性能評価の課題は興味深い。AI導入が進む中で、本当に役立つモデル選びができる企業が勝ち残るのかも。ユーザー体験を考えると、ベンチマークだけで選ぶのは危険かもしれない... 😅
Les entreprises doivent s'assurer que leurs modèles d'IA, qui pilotent les applications, fonctionnent efficacement dans des scénarios réels. Prédire ces scénarios peut être difficile, compliquant les évaluations. Le benchmark RewardBench 2 mis à jour offre aux organisations des informations plus claires sur les performances pratiques d'un modèle.
L’Institut Allen pour l’IA (Ai2) a introduit RewardBench 2, une version améliorée de son benchmark RewardBench, conçue pour fournir une évaluation complète des performances des modèles et de leur alignement avec les objectifs des entreprises.
Ai2 a développé RewardBench avec des tâches de classification évaluant les corrélations via le calcul au moment de l'inférence et l'entraînement en aval. RewardBench se concentre sur les modèles de récompense (RMs), qui jugent les sorties des grands modèles de langage en attribuant des scores ou « récompenses » pour guider l'apprentissage par renforcement avec retour humain (RHLF).
RewardBench 2 est là ! Nous avons pris le temps d’apprendre de notre premier outil d’évaluation de modèle de récompense pour en créer un nettement plus difficile et plus corrélé avec l’RLHF en aval et l’échelle au moment de l’inférence. pic.twitter.com/NGetvNrOQV
— Ai2 (@allen_ai) 2 juin 2025
Nathan Lambert, chercheur senior chez Ai2, a déclaré à VentureBeat que le RewardBench original fonctionnait bien initialement, mais l’évolution des environnements des modèles exigeait des benchmarks actualisés.
« À mesure que les modèles de récompense devenaient plus sophistiqués et les cas d’utilisation plus complexes, nous avons constaté, avec la communauté, que la première version ne répondait pas pleinement aux complexités des préférences humaines en conditions réelles », a-t-il expliqué.
Lambert a noté que RewardBench 2 améliore la portée et la profondeur des évaluations, intégrant des invites variées et exigeantes ainsi que des méthodes affinées pour mieux refléter le jugement humain des sorties d’IA. Il inclut de nouvelles invites humaines, un système de notation plus strict et des domaines supplémentaires.
Utilisation des évaluations pour l'évaluation des modèles
Les modèles de récompense évaluent les performances des modèles, mais l’alignement avec les valeurs de l’entreprise est crucial. Des RMs mal alignés peuvent amplifier des problèmes comme les hallucinations, réduire la généralisation ou favoriser excessivement des réponses nuisibles pendant l’ajustement fin et l’apprentissage par renforcement.
RewardBench 2 couvre six domaines : factualité, respect précis des instructions, mathématiques, sécurité, concentration et égalités.
« Les entreprises peuvent utiliser RewardBench 2 de deux manières selon leurs besoins. Pour l’RLHF, elles doivent intégrer les meilleures pratiques et ensembles de données des meilleurs modèles dans leurs pipelines, car les modèles de récompense nécessitent un entraînement sur politique. Pour l’échelle au moment de l’inférence ou le filtrage des données, RewardBench 2 aide à sélectionner le meilleur modèle pour leur domaine avec des performances corrélées », a déclaré Lambert.
Lambert a souligné que des benchmarks comme RewardBench permettent aux utilisateurs d’évaluer les modèles en fonction des priorités les plus pertinentes pour eux, plutôt qu’un score générique. Il a noté que les performances sont subjectives, fortement liées au contexte et aux objectifs des utilisateurs, avec des préférences humaines souvent très nuancées.
Ai2 a lancé le RewardBench original en mars 2024, le qualifiant de premier benchmark et classement des modèles de récompense. Depuis, de nouvelles méthodes comme FAIR reWordBench de Meta et Self-Principled Critique Tuning de DeepSeek ont émergé pour des RMs plus intelligents et évolutifs.
Super excité que notre deuxième évaluation de modèle de récompense soit sortie. Elle est nettement plus difficile, beaucoup plus propre et bien corrélée avec l’échantillonnage PPO/BoN en aval.
— Nathan Lambert (@natolambert) 2 juin 2025
Joyeuse ascension !
Félicitations énormes à @saumyamalik44 qui a dirigé le projet avec un engagement total pour l’excellence. https://t.co/c0b6rHTXY5
Perspectives sur les performances des modèles
Avec RewardBench 2, Ai2 a testé des modèles existants et nouvellement entraînés, y compris des variantes de Gemini, Claude, GPT-4.1 et Llama-3.1, ainsi que des ensembles de données et modèles comme Qwen, Skywork et Tulu.
Les résultats ont montré que les modèles de récompense plus grands excellent grâce à des modèles de base plus robustes. Les variantes Instruct de Llama-3.1 ont dominé le benchmark, avec les données Skywork aidant à la concentration et à la sécurité, et Tulu performant bien en factualité.

Ai2 a noté que bien que RewardBench 2 fasse progresser l’évaluation multidomaine axée sur la précision pour les modèles de récompense, il devrait principalement guider les entreprises dans la sélection des modèles les mieux adaptés à leurs besoins spécifiques.
Principal investisseur de Suno : la suppression des publications ne comblera pas les lacunes en matière de poursuites pour violation du droit d'auteur
La plateforme de génération musicale par IA très attendue, Suno, est confrontée à une rude bataille en matière de droits d'auteur, et une remarque sans détours de son principal investisseur pourrait b
Claude Opus 4.7 fait son entrée sur le marché en misant davantage sur la fiabilité que sur l'intelligence
Anthropic a maintenu un rythme soutenu cette année, en déployant de nouvelles fonctionnalités presque tous les deux jours. Le très attendu Claude Opus 4.7 vient d'être officiellement lancé, et il est
Haier lance le robot exosquelette sportif doté d'une intelligence artificielle le plus léger au monde, pesant seulement 1,75 kg
Le groupe Haier a présenté le robot exosquelette sportif doté d'une intelligence artificielle le plus léger au monde : le Haier Exoskeleton Robot W3. Ce lancement établit un nouveau record de légèreté
Como usuario que solo tiene conocimientos básicos, elegir el modelo adecuado es un dolor de cabeza. Este artículo menciona problemas prácticos que son ciertos; a veces, el modelo parece brillar en la prueba, pero en la práctica simplemente falla. Me pregunto si el RewardBench actualizado ayuda a predecir cuándo un modelo se 'descompone' de manera realista. Si las empresas confían demasiado en las métricas, podrían terminar con un fiasco en producción 😅. ¿Habrá herramientas más accesibles para los equipos pequeños?
この記事、実運用でのAIモデルの難しさをしっかり分析してますね。特にリアルワールドでの性能評価の課題は興味深い。AI導入が進む中で、本当に役立つモデル選びができる企業が勝ち残るのかも。ユーザー体験を考えると、ベンチマークだけで選ぶのは危険かもしれない... 😅





Maison






