Оптимизация выбора модели ИИ для реальной производительности
Предприятия должны обеспечивать эффективную работу моделей ИИ, управляющих приложениями, в реальных сценариях. Предсказание этих сценариев может быть сложным, что затрудняет оценку. Обновленный бенчмарк RewardBench 2 предоставляет организациям более четкое представление о практической производительности модели.
Институт Аллена по искусственному интеллекту (Ai2) представил RewardBench 2, улучшенную версию своего бенчмарка RewardBench, разработанную для всесторонней оценки производительности модели и соответствия целям предприятия.
Ai2 разработал RewardBench с задачами классификации, которые оценивают корреляции через вычисления во время вывода и последующее обучение. RewardBench фокусируется на моделях вознаграждения (RMs), которые оценивают результаты больших языковых моделей, присваивая баллы или «вознаграждения» для управления обучением с подкреплением на основе человеческой обратной связи (RHLF).
RewardBench 2 здесь! Мы потратили много времени, чтобы извлечь уроки из нашего первого инструмента оценки моделей вознаграждения и создать более сложный и коррелирующий с последующим RLHF и масштабированием во время вывода. pic.twitter.com/NGetvNrOQV
— Ai2 (@allen_ai) 2 июня 2025
Натан Ламберт, старший научный сотрудник Ai2, рассказал VentureBeat, что изначально RewardBench работал хорошо, но эволюция модельных сред потребовала обновленных бенчмарков.
«По мере того как модели вознаграждения становились более сложными, а сценарии использования — более комплексными, мы, вместе с сообществом, увидели, что первая версия не полностью учитывала сложности человеческих предпочтений в реальном мире», — объяснил он.
Ламберт отметил, что RewardBench 2 расширяет объем и глубину оценки, включая разнообразные, сложные запросы и усовершенствованные методы, чтобы лучше отражать человеческое суждение о результатах ИИ. Он включает новые человеческие запросы, более строгую систему оценки и дополнительные домены.
Использование оценок для анализа моделей
Модели вознаграждения оценивают производительность моделей, но их соответствие ценностям компании имеет решающее значение. Неправильно выровненные RMs могут усиливать проблемы, такие как галлюцинации, снижать обобщающую способность или чрезмерно благоприятствовать вредным ответам во время тонкой настройки и обучения с подкреплением.
RewardBench 2 охватывает шесть доменов: фактическая точность, точное следование инструкциям, математика, безопасность, фокус и равенство.
«Предприятия могут использовать RewardBench 2 двумя способами в зависимости от их потребностей. Для RLHF они должны интегрировать лучшие практики и наборы данных от топовых моделей в свои процессы, поскольку модели вознаграждения требуют обучения в реальном времени. Для масштабирования во время вывода или фильтрации данных RewardBench 2 помогает выбрать лучшую модель для их домена с коррелирующей производительностью», — сказал Ламберт.
Ламберт подчеркнул, что бенчмарки, такие как RewardBench, позволяют пользователям оценивать модели на основе наиболее важных для них приоритетов, а не общего балла. Он отметил, что производительность субъективна, сильно связана с контекстом и целями пользователя, а человеческие предпочтения часто очень нюансированы.
Ai2 запустил оригинальный RewardBench в марте 2024 года, назвав его первым бенчмарком и таблицей лидеров для моделей вознаграждения. С тех пор появились новые методы, такие как reWordBench от Meta FAIR и Self-Principled Critique Tuning от DeepSeek для более умных и масштабируемых RMs.
Очень рад, что наша вторая оценка моделей вознаграждения вышла. Она значительно сложнее, чище и хорошо коррелирует с последующим PPO/BoN сэмплированием.
Счастливого восхождения на холм!
Огромные поздравления @saumyamalik44, которая руководила проектом с полной приверженностью к совершенству. https://t.co/c0b6rHTXY5
— Nathan Lambert (@natolambert) 2 июня 2025
Инсайты по производительности моделей
С помощью RewardBench 2 Ai2 протестировал как существующие, так и недавно обученные модели, включая варианты Gemini, Claude, GPT-4.1 и Llama-3.1, а также наборы данных и модели, такие как Qwen, Skywork и Tulu.
Результаты показали, что большие модели вознаграждения превосходят благодаря более сильным базовым моделям. Варианты Llama-3.1 Instruct возглавили бенчмарк, при этом данные Skywork помогли в фокусе и безопасности, а Tulu показал хорошие результаты в фактической точности.

Ai2 отметил, что, хотя RewardBench 2 продвигает многодоменную оценку, ориентированную на точность, для моделей вознаграждения, он в первую очередь должен направлять предприятия в выборе моделей, наиболее подходящих для их конкретных потребностей.
Связанная статья
Главный инвестор Suno: удаление постов не устранит лазейку в законодательстве об авторском праве
Долгожданная платформа Suno, создающая музыку с помощью ИИ, столкнулась с серьезной судебной тяжбой по поводу авторских прав, а откровенное замечание ее главного инвестора, возможно, предоставило прот
Выпущена версия Claude Opus 4.7, в которой надежность ценится выше интеллекта
В этом году компания Anthropic сохраняет высокие темпы развития, выпуская новые функции почти каждый день. Долгожданная версия Claude Opus 4.7 только что была официально выпущена, и что интересно, в с
Компания Haier представила самый легкий в мире спортивный робот-экзоскелет с искусственным интеллектом, вес которого составляет всего 1,75 кг
Группа Haier представила самый легкий в мире спортивный робот-экзоскелет с искусственным интеллектом — Haier Exoskeleton Robot W3. Этот запуск устанавливает новый отраслевой рекорд по легкости и знаме
Рекомендации по связанным специальным темам
Комментарии (3)
Como usuario que solo tiene conocimientos básicos, elegir el modelo adecuado es un dolor de cabeza. Este artículo menciona problemas prácticos que son ciertos; a veces, el modelo parece brillar en la prueba, pero en la práctica simplemente falla. Me pregunto si el RewardBench actualizado ayuda a predecir cuándo un modelo se 'descompone' de manera realista. Si las empresas confían demasiado en las métricas, podrían terminar con un fiasco en producción 😅. ¿Habrá herramientas más accesibles para los equipos pequeños?
この記事、実運用でのAIモデルの難しさをしっかり分析してますね。特にリアルワールドでの性能評価の課題は興味深い。AI導入が進む中で、本当に役立つモデル選びができる企業が勝ち残るのかも。ユーザー体験を考えると、ベンチマークだけで選ぶのは危険かもしれない... 😅
Предприятия должны обеспечивать эффективную работу моделей ИИ, управляющих приложениями, в реальных сценариях. Предсказание этих сценариев может быть сложным, что затрудняет оценку. Обновленный бенчмарк RewardBench 2 предоставляет организациям более четкое представление о практической производительности модели.
Институт Аллена по искусственному интеллекту (Ai2) представил RewardBench 2, улучшенную версию своего бенчмарка RewardBench, разработанную для всесторонней оценки производительности модели и соответствия целям предприятия.
Ai2 разработал RewardBench с задачами классификации, которые оценивают корреляции через вычисления во время вывода и последующее обучение. RewardBench фокусируется на моделях вознаграждения (RMs), которые оценивают результаты больших языковых моделей, присваивая баллы или «вознаграждения» для управления обучением с подкреплением на основе человеческой обратной связи (RHLF).
RewardBench 2 здесь! Мы потратили много времени, чтобы извлечь уроки из нашего первого инструмента оценки моделей вознаграждения и создать более сложный и коррелирующий с последующим RLHF и масштабированием во время вывода. pic.twitter.com/NGetvNrOQV
— Ai2 (@allen_ai) 2 июня 2025
Натан Ламберт, старший научный сотрудник Ai2, рассказал VentureBeat, что изначально RewardBench работал хорошо, но эволюция модельных сред потребовала обновленных бенчмарков.
«По мере того как модели вознаграждения становились более сложными, а сценарии использования — более комплексными, мы, вместе с сообществом, увидели, что первая версия не полностью учитывала сложности человеческих предпочтений в реальном мире», — объяснил он.
Ламберт отметил, что RewardBench 2 расширяет объем и глубину оценки, включая разнообразные, сложные запросы и усовершенствованные методы, чтобы лучше отражать человеческое суждение о результатах ИИ. Он включает новые человеческие запросы, более строгую систему оценки и дополнительные домены.
Использование оценок для анализа моделей
Модели вознаграждения оценивают производительность моделей, но их соответствие ценностям компании имеет решающее значение. Неправильно выровненные RMs могут усиливать проблемы, такие как галлюцинации, снижать обобщающую способность или чрезмерно благоприятствовать вредным ответам во время тонкой настройки и обучения с подкреплением.
RewardBench 2 охватывает шесть доменов: фактическая точность, точное следование инструкциям, математика, безопасность, фокус и равенство.
«Предприятия могут использовать RewardBench 2 двумя способами в зависимости от их потребностей. Для RLHF они должны интегрировать лучшие практики и наборы данных от топовых моделей в свои процессы, поскольку модели вознаграждения требуют обучения в реальном времени. Для масштабирования во время вывода или фильтрации данных RewardBench 2 помогает выбрать лучшую модель для их домена с коррелирующей производительностью», — сказал Ламберт.
Ламберт подчеркнул, что бенчмарки, такие как RewardBench, позволяют пользователям оценивать модели на основе наиболее важных для них приоритетов, а не общего балла. Он отметил, что производительность субъективна, сильно связана с контекстом и целями пользователя, а человеческие предпочтения часто очень нюансированы.
Ai2 запустил оригинальный RewardBench в марте 2024 года, назвав его первым бенчмарком и таблицей лидеров для моделей вознаграждения. С тех пор появились новые методы, такие как reWordBench от Meta FAIR и Self-Principled Critique Tuning от DeepSeek для более умных и масштабируемых RMs.
Очень рад, что наша вторая оценка моделей вознаграждения вышла. Она значительно сложнее, чище и хорошо коррелирует с последующим PPO/BoN сэмплированием.
— Nathan Lambert (@natolambert) 2 июня 2025
Счастливого восхождения на холм!
Огромные поздравления @saumyamalik44, которая руководила проектом с полной приверженностью к совершенству. https://t.co/c0b6rHTXY5
Инсайты по производительности моделей
С помощью RewardBench 2 Ai2 протестировал как существующие, так и недавно обученные модели, включая варианты Gemini, Claude, GPT-4.1 и Llama-3.1, а также наборы данных и модели, такие как Qwen, Skywork и Tulu.
Результаты показали, что большие модели вознаграждения превосходят благодаря более сильным базовым моделям. Варианты Llama-3.1 Instruct возглавили бенчмарк, при этом данные Skywork помогли в фокусе и безопасности, а Tulu показал хорошие результаты в фактической точности.

Ai2 отметил, что, хотя RewardBench 2 продвигает многодоменную оценку, ориентированную на точность, для моделей вознаграждения, он в первую очередь должен направлять предприятия в выборе моделей, наиболее подходящих для их конкретных потребностей.
Главный инвестор Suno: удаление постов не устранит лазейку в законодательстве об авторском праве
Долгожданная платформа Suno, создающая музыку с помощью ИИ, столкнулась с серьезной судебной тяжбой по поводу авторских прав, а откровенное замечание ее главного инвестора, возможно, предоставило прот
Выпущена версия Claude Opus 4.7, в которой надежность ценится выше интеллекта
В этом году компания Anthropic сохраняет высокие темпы развития, выпуская новые функции почти каждый день. Долгожданная версия Claude Opus 4.7 только что была официально выпущена, и что интересно, в с
Компания Haier представила самый легкий в мире спортивный робот-экзоскелет с искусственным интеллектом, вес которого составляет всего 1,75 кг
Группа Haier представила самый легкий в мире спортивный робот-экзоскелет с искусственным интеллектом — Haier Exoskeleton Robot W3. Этот запуск устанавливает новый отраслевой рекорд по легкости и знаме
Como usuario que solo tiene conocimientos básicos, elegir el modelo adecuado es un dolor de cabeza. Este artículo menciona problemas prácticos que son ciertos; a veces, el modelo parece brillar en la prueba, pero en la práctica simplemente falla. Me pregunto si el RewardBench actualizado ayuda a predecir cuándo un modelo se 'descompone' de manera realista. Si las empresas confían demasiado en las métricas, podrían terminar con un fiasco en producción 😅. ¿Habrá herramientas más accesibles para los equipos pequeños?
この記事、実運用でのAIモデルの難しさをしっかり分析してますね。特にリアルワールドでの性能評価の課題は興味深い。AI導入が進む中で、本当に役立つモデル選びができる企業が勝ち残るのかも。ユーザー体験を考えると、ベンチマークだけで選ぶのは危険かもしれない... 😅





Дом






