Дом

Новости

Бенчмаркинг корпоративного ИИ упрощен: Рамка RAG с открытым исходным кодом предлагает научные метрики производительности

Бенчмаркинг корпоративного ИИ упрощен: Рамка RAG с открытым исходным кодом предлагает научные метрики производительности

11 ноября 2025 г.

NicholasThomas

109

Компании вкладывают значительные средства в разработку систем Retrieval-Augmented Generation (RAG), стремясь создать точные корпоративные ИИ-решения. Но насколько эффективны эти системы в реальности?

Одним из основных препятствий является отсутствие объективных стандартов измерения эффективности RAG. Эта проблема нашла потенциальное решение благодаря сегодняшнему запуску Open RAG Eval - системы с открытым исходным кодом, разработанной совместно компанией Vectara и исследовательской группой профессора Джимми Лина в Университете Ватерлоо.

Open RAG Eval заменяет субъективные сравнения строгой, измеримой методологией для оценки точности поиска, качества генерации и частоты галлюцинаций в корпоративных реализациях RAG.

Система оценивает производительность системы с помощью двух основных категорий метрик: метрики поиска и метрики генерации. Она работает как с платформой Vectara, так и с пользовательскими решениями RAG, предоставляя техническим командам систематизированные данные для определения возможностей оптимизации.

"Измерения предшествуют улучшениям", - пояснил профессор Джимми Лин в эксклюзивном интервью. "В то время как мы могли измерить такие показатели поиска информации, как NDCG, точность и отзыв, оценка фактической корректности оставалась труднодостижимой, поэтому мы и взялись за этот проект".

Почему оценка RAG остается важнейшим препятствием для корпоративного ИИ

Компания Vectara стала пионером технологии RAG еще до того, как она стала мейнстримом: она начала работать в октябре 2022 года, а в мае 2023 года представила концепции "приземленного ИИ" для борьбы с галлюцинациями.

По мере усложнения реализаций RAG - от простых вопросов и ответов до мультиагентных систем - проблемы с оценкой усиливаются.

"В агентных средах оценка становится вдвойне важнее", - отметил генеральный директор Vectara Ам Авадалла. "Иллюзии на ранних стадиях усугубляются на всех этапах обработки, что может привести к неправильным конечным результатам".

Методология Open RAG Eval: Количественная оценка компонентов системы

В системе используется подход к оценке на основе самородков, который деконструирует ответы на основные фактические элементы.

Лин описывает, как этот метод анализирует способность систем собирать и представлять эти важные информационные элементы.

В основе оценки лежат четыре конкретных показателя:

Обнаружение галлюцинаций - выявление неподтвержденной информации в генерируемом контенте
Точность цитирования - оценка качества исходной документации
Автоматический самородок - измеряет включение важной информации.
UMBRELA - обеспечивает всестороннюю оценку работы ретривера.

Система анализирует все рабочие процессы RAG, показывая, как модели встраивания, поисковые системы, стратегии разбиения на части и LLM совместно создают результаты.

Ключевая инновация: Автоматизация на основе LLM

Прорыв Open RAG Eval заключается в автоматизации ранее ручных процессов за счет сложной интеграции LLM.

"Традиционная оценка основывалась на бинарных сравнениях", - объясняет Лин. "Наш автоматизированный подход революционизирует методологию оценки".

Хотя оценка на основе самородков не нова, фреймворк реализует ее с помощью LLM на базе Python, способных идентифицировать факты и выявлять галлюцинации в рамках структурированных конвейеров оценки.

Позиционирование экосистемы оценки

На фоне развивающихся систем оценки ИИ, таких как Hugging Face's Yourbench и Galileo's Agentic Evaluations, Open RAG Eval фокусируется именно на конвейерах RAG, а не на общих результатах LLM.

Построенная на основе устоявшейся науки об информационном поиске, а не на специальных методах, система расширяет открытый исходный код Vectara, включая широко принятую модель оценки галлюцинаций Хьюза.

"Мы намеренно назвали ее Open RAG Eval, чтобы поощрить сотрудничество в масштабах всей отрасли", - подчеркнул Авадалла. "Эта система удовлетворяет важнейшую потребность рынка в стандартизированной оценке RAG".

Практическая реализация

Среди первых внедрителей - Джефф Хаммел из Anywhere.re, который ожидает упрощения процессов оценки благодаря сотрудничеству с Vectara.

Хаммел отметил проблемы масштабирования, связанные со сложностью инфраструктуры и управлением затратами, подчеркнув при этом возможности предиктивного бенчмаркинга.

"Не имея стандартизированных систем, мы в значительной степени полагались на субъективные отзывы пользователей", - признал Хаммел. "Объективные метрики изменят наш подход к масштабированию".

Оптимизация внедрения RAG

Open RAG Eval помогает лицам, принимающим решения, решать важнейшие вопросы конфигурации:

Подходы, основанные на использовании токенов и семантического куска
Вопросы реализации гибридного поиска
Выбор LLM и оптимизация подсказок
Пороги обнаружения галлюцинаций

Фреймворк позволяет проводить итеративную оптимизацию на основе данных - устанавливать базовые значения, тестировать конфигурации и измерять улучшения. В будущих версиях могут появиться автоматические предложения по оптимизации и инструменты балансировки затрат и производительности.

Для предприятий, находящихся на разных уровнях зрелости ИИ, Open RAG Eval предлагает научные стандарты оценки, которые заменяют догадки и субъективные оценки, помогая предотвратить дорогостоящие ошибки при внедрении и одновременно развивая технологию RAG.

Связанная статья

Сатья Наделла готов использовать новые возможности, предоставляемые соглашением с OpenAI В среду аналитик с Уолл-стрит напрямую спросил генерального директора Microsoft Сатью Наделлу, как изменения в партнерстве с OpenAI повлияют на финансовые результаты компании.Наделла охарактеризовал новое соглашение как выгодное для всех сторон. “Мы

WordPress.com теперь позволяет ИИ-ботам создавать и публиковать посты, а также выполнять другие задачи WordPress.com, популярная платформа для веб-хостинга и публикации контента, теперь внедряет ИИ-агентов — шаг, который может кардинально изменить облик и функциональность Интернета. В пятницу компания

Экспериментальный ИИ Claude от компании Anthropic успешно завершил переговоры и сделки в ходе тестирования в сфере электронной коммерции На фоне стремительного развития искусственного интеллекта компания Anthropic в минувшую пятницу незаметно запустила внутренний эксперимент под названием «Project Deal», продемонстрировав потенциал ИИ

Рекомендации по связанным специальным темам

Бизнес

Лучшие приложения для учета расходов на базе ИИ: сканируйте чеки и автоматически классифицируйте корпоративные расходы

Лучшие программы для учета расходов с ИИ 2026 года: самые популярные инструменты для сканирования чеков и автоматической классификации корпоративных расходов. Откройте для себя мощные, революционные решения для удобного управления расходами, точного финансового мониторинга и оптимизации соблюдения нормативных требований. Наш тщательно составленный и еженедельно обновляемый обзор бесплатных и платных вариантов поможет вам найти идеальный вариант. Воспользуйтесь преимуществами ИИ с помощью рекомендаций экспертов XIX.AI.

10 инструментов

xix.ai

Бизнес

Лучшие инструменты для подбора персонала с помощью ИИ: отбор резюме и автоматизация планирования собеседований с кандидатами

Откройте для себя 20 лучших инструментов для рекрутинга на базе ИИ 2026 года на сайте XIX.AI. В нашем тщательно составленном списке представлены мощные, революционные решения для отбора резюме и автоматизации планирования собеседований с кандидатами. Сравните бесплатные и платные варианты с помощью реальных тестов и еженедельно обновляемого рейтинга. Найдите своего идеального помощника по подбору персонала и оптимизируйте процесс рекрутинга уже сегодня!

10 инструментов

xix.ai

Производительность

Персональные тренеры по благополучию и концентрации на базе ИИ: борьба с выгоранием и повышение уровня умственной энергии

Откройте для себя лучших в 2026 году ИИ-тренеров по личному благополучию и концентрации внимания на сайте XIX.AI. В нашем тщательно составленном рейтинге представлены высокооцененные, революционные инструменты для борьбы с выгоранием и повышения умственной энергии. Сравните бесплатные и платные варианты с помощью реальных отзывов. Откройте для себя путь к максимальной продуктивности и благополучию уже сегодня.

10 инструментов

xix.ai

чат-бот

Лучшие романтические чат-боты на базе ИИ: постройте долгосрочные отношения с помощью чат-ботов с устойчивой индивидуальностью

Откройте для себя лучшие романтические чат-боты с искусственным интеллектом 2026 года, которые помогут вам построить искренние и долгосрочные отношения. В нашем тщательно составленном списке вы найдете чат-ботов с яркими и последовательными личностями, сравнение бесплатных и платных версий, а также результаты реальных тестов. Найдите своего идеального спутника и начните строить отношения уже сегодня на XIX.AI.

10 инструментов

xix.ai

Образование и обучение

Лучшие наставники в области искусственного интеллекта и науки о данных: мастерство работы с SQL, библиотекой Pandas и рабочими процессами машинного обучения

Откройте для себя 20 лучших наставников в области искусственного интеллекта и науки о данных на 2026 год, которые помогут вам овладеть SQL, Pandas и рабочими процессами машинного обучения. Изучите наш тщательно отобранный список на сайте XIX.AI – здесь вы найдете эффективные рекомендации, способные изменить ход ваших работ. Сравните бесплатные и платные варианты с примерами из реальной практики. Освоите науку о данных уже сегодня.

10 инструментов

xix.ai

чат-бот

Лучшие тренажеры по флирту и общению на базе ИИ: повышайте свою харизму и уверенность в себе в режиме реального времени

Откройте для себя 20 лучших тренажеров по флирту и общению с ИИ на сайте XIX.AI. Наша тщательно подобранная подборка самых популярных инструментов поможет вам развить коммуникабельность и уверенность в себе в режиме реального времени. Ознакомьтесь с незаменимыми инструментами, которые кардинально изменят вашу жизнь, — с сравнением бесплатных и платных версий и еженедельно обновляемым рейтингом. Раскройте свой коммуникативный потенциал уже сегодня.

10 инструментов

xix.ai