Otimizando a Seleção de Modelos de IA para Desempenho no Mundo Real
As empresas devem garantir que seus modelos de IA que impulsionam aplicações performem efetivamente em cenários do mundo real. Prever esses cenários pode ser desafiador, complicando as avaliações. O benchmark RewardBench 2 atualizado oferece às organizações insights mais claros sobre o desempenho prático de um modelo.
O Allen Institute for AI (Ai2) introduziu o RewardBench 2, uma versão aprimorada do seu benchmark RewardBench, projetada para fornecer uma avaliação abrangente do desempenho do modelo e alinhamento com objetivos empresariais.
O Ai2 desenvolveu o RewardBench com tarefas de classificação que avaliam correlações por meio de computação em tempo de inferência e treinamento downstream. O RewardBench foca em modelos de recompensa (RMs), que julgam saídas de modelos de linguagem amplos atribuindo pontuações ou “recompensas” para guiar o aprendizado por reforço com feedback humano (RHLF).
RewardBench 2 está aqui! Levamos um tempo para aprender com nossa primeira ferramenta de avaliação de modelo de recompensa para criar uma que é substancialmente mais difícil e mais correlacionada com RLHF downstream e escalonamento em tempo de inferência. pic.twitter.com/NGetvNrOQV
— Ai2 (@allen_ai) 2 de junho de 2025
Nathan Lambert, cientista de pesquisa sênior no Ai2, disse ao VentureBeat que o RewardBench original funcionou bem inicialmente, mas ambientes de modelos em evolução exigiram benchmarks atualizados.
“À medida que os modelos de recompensa se tornaram mais sofisticados e os casos de uso mais complexos, vimos, junto com a comunidade, que a primeira versão não abordava completamente as complexidades das preferências humanas no mundo real,” ele explicou.
Lambert observou que o RewardBench 2 melhora o escopo e a profundidade da avaliação, incorporando prompts diversos e desafiadores e métodos refinados para refletir melhor o julgamento humano sobre saídas de IA. Ele apresenta novos prompts humanos, um sistema de pontuação mais rigoroso e domínios adicionais.
Aproveitando Avaliações para Avaliação de Modelos
Modelos de recompensa avaliam o desempenho do modelo, mas o alinhamento com os valores da empresa é crítico. RMs desalinhados podem amplificar problemas como alucinações, reduzir a generalização ou favorecer respostas prejudiciais durante o ajuste fino e o aprendizado por reforço.
O RewardBench 2 abrange seis domínios: factualidade, aderência precisa às instruções, matemática, segurança, foco e empates.
“As empresas podem usar o RewardBench 2 de duas maneiras com base em suas necessidades. Para RLHF, devem integrar as melhores práticas e conjuntos de dados de modelos de ponta em seus pipelines, pois os modelos de recompensa requerem treinamento on-policy. Para escalonamento em tempo de inferência ou filtragem de dados, o RewardBench 2 ajuda a selecionar o melhor modelo para seu domínio com desempenho correlacionado,” disse Lambert.
Lambert enfatizou que benchmarks como o RewardBench permitem que os usuários avaliem modelos com base nas prioridades mais relevantes para eles, em vez de uma pontuação genérica. Ele observou que o desempenho é subjetivo, fortemente ligado ao contexto e objetivos do usuário, com preferências humanas frequentemente muito nuançadas.
O Ai2 lançou o RewardBench original em março de 2024, chamando-o de o primeiro benchmark e leaderboard de modelo de recompensa. Desde então, novos métodos como o FAIR reWordBench da Meta e o Self-Principled Critique Tuning da DeepSeek surgiram para RMs mais inteligentes e escaláveis.
Muito animado que nossa segunda avaliação de modelo de recompensa está disponível. É substancialmente mais difícil, muito mais limpa e bem correlacionada com amostragem PPO/BoN downstream.
Feliz escalada!
Parabéns enormes a @saumyamalik44 que liderou o projeto com total compromisso com a excelência. https://t.co/c0b6rHTXY5
— Nathan Lambert (@natolambert) 2 de junho de 2025
Insights sobre o Desempenho dos Modelos
Com o RewardBench 2, o Ai2 testou modelos existentes e recém-treinados, incluindo variantes de Gemini, Claude, GPT-4.1 e Llama-3.1, ao lado de conjuntos de dados e modelos como Qwen, Skywork e Tulu.
As descobertas mostraram que modelos de recompensa maiores se destacam devido a modelos de base mais fortes. Variantes do Llama-3.1 Instruct lideraram o benchmark, com dados do Skywork ajudando no foco e segurança, e o Tulu performando bem em factualidade.

O Ai2 observou que, embora o RewardBench 2 avance na avaliação multidomínio focada em precisão para modelos de recompensa, ele deve principalmente orientar as empresas na seleção de modelos mais adequados às suas necessidades específicas.
Artigo relacionado
A Haier lança o robô exoesqueleto esportivo com IA mais leve do mundo, pesando apenas 1,75 kg
O Grupo Haier apresentou o robô exoesqueleto com inteligência artificial mais leve do mundo para esportes — o Haier Exoskeleton Robot W3. Este lançamento estabelece um novo recorde do setor em termos
A primeira série dramática com AIGC da Yaoke Media, “O Mistério do Bronze em Qinling”, estreia hoje com protagonistas criados por IA
Hoje marca o lançamento oficial da minissérie de mistério e fantasia com IA da Yaoke Media, “A História Secreta do Bronze de Qinling”. Estrelada pelos dois primeiros atores de IA contratados pela empr
Satya Nadella está pronto para aproveitar o novo acordo com a OpenAI
Na quarta-feira, um analista da Wall Street perguntou diretamente ao CEO da Microsoft, Satya Nadella, como a nova parceria com a OpenAI afetaria os resultados financeiros da empresa.Nadella descreveu o novo acordo como uma vitória para todos. “Estam
Recomendações de tópicos especiais relacionados
Comentários (3)
Como usuario que solo tiene conocimientos básicos, elegir el modelo adecuado es un dolor de cabeza. Este artículo menciona problemas prácticos que son ciertos; a veces, el modelo parece brillar en la prueba, pero en la práctica simplemente falla. Me pregunto si el RewardBench actualizado ayuda a predecir cuándo un modelo se 'descompone' de manera realista. Si las empresas confían demasiado en las métricas, podrían terminar con un fiasco en producción 😅. ¿Habrá herramientas más accesibles para los equipos pequeños?
この記事、実運用でのAIモデルの難しさをしっかり分析してますね。特にリアルワールドでの性能評価の課題は興味深い。AI導入が進む中で、本当に役立つモデル選びができる企業が勝ち残るのかも。ユーザー体験を考えると、ベンチマークだけで選ぶのは危険かもしれない... 😅
As empresas devem garantir que seus modelos de IA que impulsionam aplicações performem efetivamente em cenários do mundo real. Prever esses cenários pode ser desafiador, complicando as avaliações. O benchmark RewardBench 2 atualizado oferece às organizações insights mais claros sobre o desempenho prático de um modelo.
O Allen Institute for AI (Ai2) introduziu o RewardBench 2, uma versão aprimorada do seu benchmark RewardBench, projetada para fornecer uma avaliação abrangente do desempenho do modelo e alinhamento com objetivos empresariais.
O Ai2 desenvolveu o RewardBench com tarefas de classificação que avaliam correlações por meio de computação em tempo de inferência e treinamento downstream. O RewardBench foca em modelos de recompensa (RMs), que julgam saídas de modelos de linguagem amplos atribuindo pontuações ou “recompensas” para guiar o aprendizado por reforço com feedback humano (RHLF).
RewardBench 2 está aqui! Levamos um tempo para aprender com nossa primeira ferramenta de avaliação de modelo de recompensa para criar uma que é substancialmente mais difícil e mais correlacionada com RLHF downstream e escalonamento em tempo de inferência. pic.twitter.com/NGetvNrOQV
— Ai2 (@allen_ai) 2 de junho de 2025
Nathan Lambert, cientista de pesquisa sênior no Ai2, disse ao VentureBeat que o RewardBench original funcionou bem inicialmente, mas ambientes de modelos em evolução exigiram benchmarks atualizados.
“À medida que os modelos de recompensa se tornaram mais sofisticados e os casos de uso mais complexos, vimos, junto com a comunidade, que a primeira versão não abordava completamente as complexidades das preferências humanas no mundo real,” ele explicou.
Lambert observou que o RewardBench 2 melhora o escopo e a profundidade da avaliação, incorporando prompts diversos e desafiadores e métodos refinados para refletir melhor o julgamento humano sobre saídas de IA. Ele apresenta novos prompts humanos, um sistema de pontuação mais rigoroso e domínios adicionais.
Aproveitando Avaliações para Avaliação de Modelos
Modelos de recompensa avaliam o desempenho do modelo, mas o alinhamento com os valores da empresa é crítico. RMs desalinhados podem amplificar problemas como alucinações, reduzir a generalização ou favorecer respostas prejudiciais durante o ajuste fino e o aprendizado por reforço.
O RewardBench 2 abrange seis domínios: factualidade, aderência precisa às instruções, matemática, segurança, foco e empates.
“As empresas podem usar o RewardBench 2 de duas maneiras com base em suas necessidades. Para RLHF, devem integrar as melhores práticas e conjuntos de dados de modelos de ponta em seus pipelines, pois os modelos de recompensa requerem treinamento on-policy. Para escalonamento em tempo de inferência ou filtragem de dados, o RewardBench 2 ajuda a selecionar o melhor modelo para seu domínio com desempenho correlacionado,” disse Lambert.
Lambert enfatizou que benchmarks como o RewardBench permitem que os usuários avaliem modelos com base nas prioridades mais relevantes para eles, em vez de uma pontuação genérica. Ele observou que o desempenho é subjetivo, fortemente ligado ao contexto e objetivos do usuário, com preferências humanas frequentemente muito nuançadas.
O Ai2 lançou o RewardBench original em março de 2024, chamando-o de o primeiro benchmark e leaderboard de modelo de recompensa. Desde então, novos métodos como o FAIR reWordBench da Meta e o Self-Principled Critique Tuning da DeepSeek surgiram para RMs mais inteligentes e escaláveis.
Muito animado que nossa segunda avaliação de modelo de recompensa está disponível. É substancialmente mais difícil, muito mais limpa e bem correlacionada com amostragem PPO/BoN downstream.
— Nathan Lambert (@natolambert) 2 de junho de 2025
Feliz escalada!
Parabéns enormes a @saumyamalik44 que liderou o projeto com total compromisso com a excelência. https://t.co/c0b6rHTXY5
Insights sobre o Desempenho dos Modelos
Com o RewardBench 2, o Ai2 testou modelos existentes e recém-treinados, incluindo variantes de Gemini, Claude, GPT-4.1 e Llama-3.1, ao lado de conjuntos de dados e modelos como Qwen, Skywork e Tulu.
As descobertas mostraram que modelos de recompensa maiores se destacam devido a modelos de base mais fortes. Variantes do Llama-3.1 Instruct lideraram o benchmark, com dados do Skywork ajudando no foco e segurança, e o Tulu performando bem em factualidade.

O Ai2 observou que, embora o RewardBench 2 avance na avaliação multidomínio focada em precisão para modelos de recompensa, ele deve principalmente orientar as empresas na seleção de modelos mais adequados às suas necessidades específicas.
A Haier lança o robô exoesqueleto esportivo com IA mais leve do mundo, pesando apenas 1,75 kg
O Grupo Haier apresentou o robô exoesqueleto com inteligência artificial mais leve do mundo para esportes — o Haier Exoskeleton Robot W3. Este lançamento estabelece um novo recorde do setor em termos
A primeira série dramática com AIGC da Yaoke Media, “O Mistério do Bronze em Qinling”, estreia hoje com protagonistas criados por IA
Hoje marca o lançamento oficial da minissérie de mistério e fantasia com IA da Yaoke Media, “A História Secreta do Bronze de Qinling”. Estrelada pelos dois primeiros atores de IA contratados pela empr
Satya Nadella está pronto para aproveitar o novo acordo com a OpenAI
Na quarta-feira, um analista da Wall Street perguntou diretamente ao CEO da Microsoft, Satya Nadella, como a nova parceria com a OpenAI afetaria os resultados financeiros da empresa.Nadella descreveu o novo acordo como uma vitória para todos. “Estam
Como usuario que solo tiene conocimientos básicos, elegir el modelo adecuado es un dolor de cabeza. Este artículo menciona problemas prácticos que son ciertos; a veces, el modelo parece brillar en la prueba, pero en la práctica simplemente falla. Me pregunto si el RewardBench actualizado ayuda a predecir cuándo un modelo se 'descompone' de manera realista. Si las empresas confían demasiado en las métricas, podrían terminar con un fiasco en producción 😅. ¿Habrá herramientas más accesibles para los equipos pequeños?
この記事、実運用でのAIモデルの難しさをしっかり分析してますね。特にリアルワールドでの性能評価の課題は興味深い。AI導入が進む中で、本当に役立つモデル選びができる企業が勝ち残るのかも。ユーザー体験を考えると、ベンチマークだけで選ぶのは危険かもしれない... 😅





Lar






