简化企业人工智能基准测试：开源 RAG 框架提供科学的性能指标

首页

新闻

2025-11-11

NicholasThomas

109

简化企业人工智能基准测试：开源 RAG 框架提供科学的性能指标

企业正在投入大量资源开发检索-增强生成（RAG）系统，旨在创建精确的企业人工智能解决方案。但这些系统的实际效果如何呢？

一个主要障碍是缺乏衡量 RAG 效果的客观标准。今天，Vectara 与滑铁卢大学 Jimmy Lin 教授的研究团队合作开发的开源框架 Open RAG Eval 发布，为这一挑战找到了潜在的解决方案。

Open RAG Eval采用严格、可衡量的方法评估企业RAG实施的检索准确性、生成质量和幻觉率，取代了主观比较。

该框架通过两个主要指标类别评估系统性能：检索和生成指标。它可与 Vectara 的平台和定制 RAG 解决方案配合使用，为技术团队提供系统数据，以确定优化机会。

"衡量先于改进，"Jimmy Lin 教授在接受独家采访时解释道。"虽然我们可以测量信息检索指标，如NDCG、精确度和召回率，但评估事实正确性仍然难以实现--这就是我们开展这个项目的原因"。

为什么 RAG 评估仍然是企业人工智能的关键障碍？

Vectara 在 RAG 技术成为主流之前就率先推出了该技术--于 2022 年 10 月推出，并于 2023 年 5 月推出了 "接地气的人工智能 "概念，以消除幻觉。

随着 RAG 实施变得越来越复杂--从简单的问答发展到多代理系统--评估挑战也随之加剧。

"Vectara 首席执行官阿姆-阿瓦达拉（Am Awadallah）指出："在代理环境中，评估变得加倍重要。"早期阶段的幻觉会在各个处理步骤中复杂化，有可能导致错误的最终输出"。

开放式 RAG 评估方法：量化系统组件

该框架采用基于金块的评估方法，将响应解构为核心事实要素。

Lin 介绍了这种方法如何分析系统捕捉和呈现这些基本信息块的能力。

四项具体指标推动了评估工作：

幻觉检测--识别生成内容中的无据信息
引用准确性--评估源文件质量
自动信息块--衡量重要信息的包含情况
UMBRELA - 提供全面的检索器性能评估

该框架检查了整个 RAG 工作流程，揭示了嵌入模型、检索系统、分块策略和 LLM 如何共同产生产出。

关键创新：由 LLM 驱动的自动化

Open RAG Eval 的突破在于通过复杂的 LLM 集成将以前的人工流程自动化。

"传统的评估依赖于二元比较，"Lin 解释说。"我们的自动化方法彻底改变了评估方法。

虽然基于金块的评估并不新鲜，但该框架通过 Python 驱动的 LLM 实现了它，LLM 能够在结构化的评估管道中识别事实并检测幻觉。

评估生态系统定位

在Hugging Face的Yourbench和Galileo的Agentic Evaluations等人工智能评估框架不断发展的同时，Open RAG Eval特别关注RAG管道，而不是一般的LLM输出。

该框架建立在成熟的信息检索科学而非临时方法的基础上，扩展了 Vectara 的开源贡献，包括被广泛采用的 Hughes 幻觉评估模型。

"Awadallah 强调说："我们特意将其命名为 Open RAG Eval，以鼓励全行业的合作。"该框架满足了标准化 RAG 评估的关键市场需求。

实际实施

早期采用者包括 Anywhere.re 的 Jeff Hummel，他希望通过与 Vectara 的合作简化评估流程。

Hummel 指出了涉及基础设施复杂性和成本管理的扩展挑战，并强调了该框架的预测基准功能。

"没有标准化的框架，我们在很大程度上依赖于用户的主观反馈，"Hummel 承认。"客观指标将改变我们的扩展方法"。

优化 RAG 实施

开放式 RAG Eval 可帮助决策者解决关键的配置问题：

标记分块与语义分块方法
混合搜索实施注意事项
LLM 选择和提示优化
幻觉检测阈值

该框架支持数据驱动的迭代优化--建立基线、测试配置和衡量改进。未来版本可能包括自动优化建议和性价比平衡工具。

对于处于不同人工智能成熟度水平的企业，Open RAG Eval 提供了科学的评估标准，取代了猜测和主观评估，有助于防止代价高昂的实施错误，同时推动 RAG 技术的发展。

海尔推出全球最轻的人工智能运动外骨骼机器人，重量仅为1.75公斤海尔集团推出了全球最轻的运动型人工智能外骨骼机器人——海尔外骨骼机器人W3。此次发布创下了行业轻量化新纪录，标志着在轻量化设计和智能人体运动增强领域取得了重大突破。高端材料成就超轻量化设计W3采用创新的一体化制造工艺，融合全碳纤维与钛合金。这种航空级材料组合将总重量控制在仅1.75公斤，实现了轻量化与高强度的完美平衡，展现出极致的机械性能。为提升舒适度，该机器人融入了非牛顿流体材料，触感柔软亲肤，

耀科传媒首部AIGC剧集《秦岭青铜之谜》今日上线，主演均由AI生成今日，耀科传媒的AIGC奇幻悬疑短剧《秦岭青铜秘闻》正式上线。该剧由公司签约的首批两位AI演员秦凌月和林西妍主演，故事背景设定在神秘的秦岭矿区。剧中，退役情报官秦月率队深入该区域，揭开了一起尘封已久的矿难真相，以及跨越两代人的血祭之谜——这个真相就隐藏在受限的地下区域，那里是科学探索与古代巫术交汇之地。作为中国最早完全由AI数字人支撑的影视作品之一，该剧在筹备阶段便引发了业界热烈讨论，而关于其A

萨提亚·纳德拉准备利用与OpenAI的新合作关系周三，一位华尔街分析师直接询问了微软首席执行官萨蒂亚·纳德拉，修订后的OpenAI合作关系将如何影响公司的财务状况。纳德拉将这一新协议描述为对各方都有利的结果。“我们对与OpenAI的合作感到满意。我始终非常重视任何合作关系，并确保它能够实现双赢。只有这样，双方才能保持良好的合作伙伴关系。” 他强调，微软仍然可以使用OpenAI的知识产权，包括其模型和智能体产品，但不再需要为此向OpenAI支付费用。谈到在2032年之前可以免费使用OpenAI最先进的人工智能技术，纳德拉表示：“

相关专题推荐

商业