Дом
Бенчмаркинг корпоративного ИИ упрощен: Рамка RAG с открытым исходным кодом предлагает научные метрики производительности

Компании вкладывают значительные средства в разработку систем Retrieval-Augmented Generation (RAG), стремясь создать точные корпоративные ИИ-решения. Но насколько эффективны эти системы в реальности?
Одним из основных препятствий является отсутствие объективных стандартов измерения эффективности RAG. Эта проблема нашла потенциальное решение благодаря сегодняшнему запуску Open RAG Eval - системы с открытым исходным кодом, разработанной совместно компанией Vectara и исследовательской группой профессора Джимми Лина в Университете Ватерлоо.
Open RAG Eval заменяет субъективные сравнения строгой, измеримой методологией для оценки точности поиска, качества генерации и частоты галлюцинаций в корпоративных реализациях RAG.
Система оценивает производительность системы с помощью двух основных категорий метрик: метрики поиска и метрики генерации. Она работает как с платформой Vectara, так и с пользовательскими решениями RAG, предоставляя техническим командам систематизированные данные для определения возможностей оптимизации.
"Измерения предшествуют улучшениям", - пояснил профессор Джимми Лин в эксклюзивном интервью. "В то время как мы могли измерить такие показатели поиска информации, как NDCG, точность и отзыв, оценка фактической корректности оставалась труднодостижимой, поэтому мы и взялись за этот проект".
Почему оценка RAG остается важнейшим препятствием для корпоративного ИИ
Компания Vectara стала пионером технологии RAG еще до того, как она стала мейнстримом: она начала работать в октябре 2022 года, а в мае 2023 года представила концепции "приземленного ИИ" для борьбы с галлюцинациями.
По мере усложнения реализаций RAG - от простых вопросов и ответов до мультиагентных систем - проблемы с оценкой усиливаются.
"В агентных средах оценка становится вдвойне важнее", - отметил генеральный директор Vectara Ам Авадалла. "Иллюзии на ранних стадиях усугубляются на всех этапах обработки, что может привести к неправильным конечным результатам".
Методология Open RAG Eval: Количественная оценка компонентов системы
В системе используется подход к оценке на основе самородков, который деконструирует ответы на основные фактические элементы.
Лин описывает, как этот метод анализирует способность систем собирать и представлять эти важные информационные элементы.
В основе оценки лежат четыре конкретных показателя:
- Обнаружение галлюцинаций - выявление неподтвержденной информации в генерируемом контенте
- Точность цитирования - оценка качества исходной документации
- Автоматический самородок - измеряет включение важной информации.
- UMBRELA - обеспечивает всестороннюю оценку работы ретривера.
Система анализирует все рабочие процессы RAG, показывая, как модели встраивания, поисковые системы, стратегии разбиения на части и LLM совместно создают результаты.
Ключевая инновация: Автоматизация на основе LLM
Прорыв Open RAG Eval заключается в автоматизации ранее ручных процессов за счет сложной интеграции LLM.
"Традиционная оценка основывалась на бинарных сравнениях", - объясняет Лин. "Наш автоматизированный подход революционизирует методологию оценки".
Хотя оценка на основе самородков не нова, фреймворк реализует ее с помощью LLM на базе Python, способных идентифицировать факты и выявлять галлюцинации в рамках структурированных конвейеров оценки.
Позиционирование экосистемы оценки
На фоне развивающихся систем оценки ИИ, таких как Hugging Face's Yourbench и Galileo's Agentic Evaluations, Open RAG Eval фокусируется именно на конвейерах RAG, а не на общих результатах LLM.
Построенная на основе устоявшейся науки об информационном поиске, а не на специальных методах, система расширяет открытый исходный код Vectara, включая широко принятую модель оценки галлюцинаций Хьюза.
"Мы намеренно назвали ее Open RAG Eval, чтобы поощрить сотрудничество в масштабах всей отрасли", - подчеркнул Авадалла. "Эта система удовлетворяет важнейшую потребность рынка в стандартизированной оценке RAG".
Практическая реализация
Среди первых внедрителей - Джефф Хаммел из Anywhere.re, который ожидает упрощения процессов оценки благодаря сотрудничеству с Vectara.
Хаммел отметил проблемы масштабирования, связанные со сложностью инфраструктуры и управлением затратами, подчеркнув при этом возможности предиктивного бенчмаркинга.
"Не имея стандартизированных систем, мы в значительной степени полагались на субъективные отзывы пользователей", - признал Хаммел. "Объективные метрики изменят наш подход к масштабированию".
Оптимизация внедрения RAG
Open RAG Eval помогает лицам, принимающим решения, решать важнейшие вопросы конфигурации:
- Подходы, основанные на использовании токенов и семантического куска
- Вопросы реализации гибридного поиска
- Выбор LLM и оптимизация подсказок
- Пороги обнаружения галлюцинаций
Фреймворк позволяет проводить итеративную оптимизацию на основе данных - устанавливать базовые значения, тестировать конфигурации и измерять улучшения. В будущих версиях могут появиться автоматические предложения по оптимизации и инструменты балансировки затрат и производительности.
Для предприятий, находящихся на разных уровнях зрелости ИИ, Open RAG Eval предлагает научные стандарты оценки, которые заменяют догадки и субъективные оценки, помогая предотвратить дорогостоящие ошибки при внедрении и одновременно развивая технологию RAG.
Связанная статья
Сатья Наделла готов использовать новые возможности, предоставляемые соглашением с OpenAI
В среду аналитик с Уолл-стрит напрямую спросил генерального директора Microsoft Сатью Наделлу, как изменения в партнерстве с OpenAI повлияют на финансовые результаты компании.Наделла охарактеризовал новое соглашение как выгодное для всех сторон. “Мы
WordPress.com теперь позволяет ИИ-ботам создавать и публиковать посты, а также выполнять другие задачи
WordPress.com, популярная платформа для веб-хостинга и публикации контента, теперь внедряет ИИ-агентов — шаг, который может кардинально изменить облик и функциональность Интернета. В пятницу компания
Экспериментальный ИИ Claude от компании Anthropic успешно завершил переговоры и сделки в ходе тестирования в сфере электронной коммерции
На фоне стремительного развития искусственного интеллекта компания Anthropic в минувшую пятницу незаметно запустила внутренний эксперимент под названием «Project Deal», продемонстрировав потенциал ИИ
Рекомендации по связанным специальным темам
Комментарии (0)

Компании вкладывают значительные средства в разработку систем Retrieval-Augmented Generation (RAG), стремясь создать точные корпоративные ИИ-решения. Но насколько эффективны эти системы в реальности?
Одним из основных препятствий является отсутствие объективных стандартов измерения эффективности RAG. Эта проблема нашла потенциальное решение благодаря сегодняшнему запуску Open RAG Eval - системы с открытым исходным кодом, разработанной совместно компанией Vectara и исследовательской группой профессора Джимми Лина в Университете Ватерлоо.
Open RAG Eval заменяет субъективные сравнения строгой, измеримой методологией для оценки точности поиска, качества генерации и частоты галлюцинаций в корпоративных реализациях RAG.
Система оценивает производительность системы с помощью двух основных категорий метрик: метрики поиска и метрики генерации. Она работает как с платформой Vectara, так и с пользовательскими решениями RAG, предоставляя техническим командам систематизированные данные для определения возможностей оптимизации.
"Измерения предшествуют улучшениям", - пояснил профессор Джимми Лин в эксклюзивном интервью. "В то время как мы могли измерить такие показатели поиска информации, как NDCG, точность и отзыв, оценка фактической корректности оставалась труднодостижимой, поэтому мы и взялись за этот проект".
Почему оценка RAG остается важнейшим препятствием для корпоративного ИИ
Компания Vectara стала пионером технологии RAG еще до того, как она стала мейнстримом: она начала работать в октябре 2022 года, а в мае 2023 года представила концепции "приземленного ИИ" для борьбы с галлюцинациями.
По мере усложнения реализаций RAG - от простых вопросов и ответов до мультиагентных систем - проблемы с оценкой усиливаются.
"В агентных средах оценка становится вдвойне важнее", - отметил генеральный директор Vectara Ам Авадалла. "Иллюзии на ранних стадиях усугубляются на всех этапах обработки, что может привести к неправильным конечным результатам".
Методология Open RAG Eval: Количественная оценка компонентов системы
В системе используется подход к оценке на основе самородков, который деконструирует ответы на основные фактические элементы.
Лин описывает, как этот метод анализирует способность систем собирать и представлять эти важные информационные элементы.
В основе оценки лежат четыре конкретных показателя:
- Обнаружение галлюцинаций - выявление неподтвержденной информации в генерируемом контенте
- Точность цитирования - оценка качества исходной документации
- Автоматический самородок - измеряет включение важной информации.
- UMBRELA - обеспечивает всестороннюю оценку работы ретривера.
Система анализирует все рабочие процессы RAG, показывая, как модели встраивания, поисковые системы, стратегии разбиения на части и LLM совместно создают результаты.
Ключевая инновация: Автоматизация на основе LLM
Прорыв Open RAG Eval заключается в автоматизации ранее ручных процессов за счет сложной интеграции LLM.
"Традиционная оценка основывалась на бинарных сравнениях", - объясняет Лин. "Наш автоматизированный подход революционизирует методологию оценки".
Хотя оценка на основе самородков не нова, фреймворк реализует ее с помощью LLM на базе Python, способных идентифицировать факты и выявлять галлюцинации в рамках структурированных конвейеров оценки.
Позиционирование экосистемы оценки
На фоне развивающихся систем оценки ИИ, таких как Hugging Face's Yourbench и Galileo's Agentic Evaluations, Open RAG Eval фокусируется именно на конвейерах RAG, а не на общих результатах LLM.
Построенная на основе устоявшейся науки об информационном поиске, а не на специальных методах, система расширяет открытый исходный код Vectara, включая широко принятую модель оценки галлюцинаций Хьюза.
"Мы намеренно назвали ее Open RAG Eval, чтобы поощрить сотрудничество в масштабах всей отрасли", - подчеркнул Авадалла. "Эта система удовлетворяет важнейшую потребность рынка в стандартизированной оценке RAG".
Практическая реализация
Среди первых внедрителей - Джефф Хаммел из Anywhere.re, который ожидает упрощения процессов оценки благодаря сотрудничеству с Vectara.
Хаммел отметил проблемы масштабирования, связанные со сложностью инфраструктуры и управлением затратами, подчеркнув при этом возможности предиктивного бенчмаркинга.
"Не имея стандартизированных систем, мы в значительной степени полагались на субъективные отзывы пользователей", - признал Хаммел. "Объективные метрики изменят наш подход к масштабированию".
Оптимизация внедрения RAG
Open RAG Eval помогает лицам, принимающим решения, решать важнейшие вопросы конфигурации:
- Подходы, основанные на использовании токенов и семантического куска
- Вопросы реализации гибридного поиска
- Выбор LLM и оптимизация подсказок
- Пороги обнаружения галлюцинаций
Фреймворк позволяет проводить итеративную оптимизацию на основе данных - устанавливать базовые значения, тестировать конфигурации и измерять улучшения. В будущих версиях могут появиться автоматические предложения по оптимизации и инструменты балансировки затрат и производительности.
Для предприятий, находящихся на разных уровнях зрелости ИИ, Open RAG Eval предлагает научные стандарты оценки, которые заменяют догадки и субъективные оценки, помогая предотвратить дорогостоящие ошибки при внедрении и одновременно развивая технологию RAG.
Сатья Наделла готов использовать новые возможности, предоставляемые соглашением с OpenAI
В среду аналитик с Уолл-стрит напрямую спросил генерального директора Microsoft Сатью Наделлу, как изменения в партнерстве с OpenAI повлияют на финансовые результаты компании.Наделла охарактеризовал новое соглашение как выгодное для всех сторон. “Мы
WordPress.com теперь позволяет ИИ-ботам создавать и публиковать посты, а также выполнять другие задачи
WordPress.com, популярная платформа для веб-хостинга и публикации контента, теперь внедряет ИИ-агентов — шаг, который может кардинально изменить облик и функциональность Интернета. В пятницу компания
Экспериментальный ИИ Claude от компании Anthropic успешно завершил переговоры и сделки в ходе тестирования в сфере электронной коммерции
На фоне стремительного развития искусственного интеллекта компания Anthropic в минувшую пятницу незаметно запустила внутренний эксперимент под названием «Project Deal», продемонстрировав потенциал ИИ











