选项
首页
新闻
简化企业人工智能基准测试:开源 RAG 框架提供科学的性能指标

简化企业人工智能基准测试:开源 RAG 框架提供科学的性能指标

2025-11-11
109

简化企业人工智能基准测试:开源 RAG 框架提供科学的性能指标

企业正在投入大量资源开发检索-增强生成(RAG)系统,旨在创建精确的企业人工智能解决方案。但这些系统的实际效果如何呢?

一个主要障碍是缺乏衡量 RAG 效果的客观标准。今天,Vectara 与滑铁卢大学 Jimmy Lin 教授的研究团队合作开发的开源框架 Open RAG Eval 发布,为这一挑战找到了潜在的解决方案。

Open RAG Eval采用严格、可衡量的方法评估企业RAG实施的检索准确性、生成质量和幻觉率,取代了主观比较。

该框架通过两个主要指标类别评估系统性能:检索和生成指标。它可与 Vectara 的平台和定制 RAG 解决方案配合使用,为技术团队提供系统数据,以确定优化机会。

"衡量先于改进,"Jimmy Lin 教授在接受独家采访时解释道。"虽然我们可以测量信息检索指标,如NDCG、精确度和召回率,但评估事实正确性仍然难以实现--这就是我们开展这个项目的原因"。

为什么 RAG 评估仍然是企业人工智能的关键障碍?

Vectara 在 RAG 技术成为主流之前就率先推出了该技术--于 2022 年 10 月推出,并于 2023 年 5 月推出了 "接地气的人工智能 "概念,以消除幻觉。

随着 RAG 实施变得越来越复杂--从简单的问答发展到多代理系统--评估挑战也随之加剧。

"Vectara 首席执行官阿姆-阿瓦达拉(Am Awadallah)指出:"在代理环境中,评估变得加倍重要。"早期阶段的幻觉会在各个处理步骤中复杂化,有可能导致错误的最终输出"。

开放式 RAG 评估方法:量化系统组件

该框架采用基于金块的评估方法,将响应解构为核心事实要素。

Lin 介绍了这种方法如何分析系统捕捉和呈现这些基本信息块的能力。

四项具体指标推动了评估工作:

  1. 幻觉检测--识别生成内容中的无据信息
  2. 引用准确性--评估源文件质量
  3. 自动信息块--衡量重要信息的包含情况
  4. UMBRELA - 提供全面的检索器性能评估

该框架检查了整个 RAG 工作流程,揭示了嵌入模型、检索系统、分块策略和 LLM 如何共同产生产出。

关键创新:由 LLM 驱动的自动化

Open RAG Eval 的突破在于通过复杂的 LLM 集成将以前的人工流程自动化。

"传统的评估依赖于二元比较,"Lin 解释说。"我们的自动化方法彻底改变了评估方法。

虽然基于金块的评估并不新鲜,但该框架通过 Python 驱动的 LLM 实现了它,LLM 能够在结构化的评估管道中识别事实并检测幻觉。

评估生态系统定位

在Hugging Face的Yourbench和Galileo的Agentic Evaluations等人工智能评估框架不断发展的同时,Open RAG Eval特别关注RAG管道,而不是一般的LLM输出。

该框架建立在成熟的信息检索科学而非临时方法的基础上,扩展了 Vectara 的开源贡献,包括被广泛采用的 Hughes 幻觉评估模型。

"Awadallah 强调说:"我们特意将其命名为 Open RAG Eval,以鼓励全行业的合作。"该框架满足了标准化 RAG 评估的关键市场需求。

实际实施

早期采用者包括 Anywhere.re 的 Jeff Hummel,他希望通过与 Vectara 的合作简化评估流程。

Hummel 指出了涉及基础设施复杂性和成本管理的扩展挑战,并强调了该框架的预测基准功能。

"没有标准化的框架,我们在很大程度上依赖于用户的主观反馈,"Hummel 承认。"客观指标将改变我们的扩展方法"。

优化 RAG 实施

开放式 RAG Eval 可帮助决策者解决关键的配置问题:

  • 标记分块与语义分块方法
  • 混合搜索实施注意事项
  • LLM 选择和提示优化
  • 幻觉检测阈值

该框架支持数据驱动的迭代优化--建立基线、测试配置和衡量改进。未来版本可能包括自动优化建议和性价比平衡工具。

对于处于不同人工智能成熟度水平的企业,Open RAG Eval 提供了科学的评估标准,取代了猜测和主观评估,有助于防止代价高昂的实施错误,同时推动 RAG 技术的发展。

相关文章
海尔推出全球最轻的人工智能运动外骨骼机器人,重量仅为1.75公斤 海尔推出全球最轻的人工智能运动外骨骼机器人,重量仅为1.75公斤 海尔集团推出了全球最轻的运动型人工智能外骨骼机器人——海尔外骨骼机器人W3。此次发布创下了行业轻量化新纪录,标志着在轻量化设计和智能人体运动增强领域取得了重大突破。高端材料成就超轻量化设计W3采用创新的一体化制造工艺,融合全碳纤维与钛合金。这种航空级材料组合将总重量控制在仅1.75公斤,实现了轻量化与高强度的完美平衡,展现出极致的机械性能。为提升舒适度,该机器人融入了非牛顿流体材料,触感柔软亲肤,
耀科传媒首部AIGC剧集《秦岭青铜之谜》今日上线,主演均由AI生成 耀科传媒首部AIGC剧集《秦岭青铜之谜》今日上线,主演均由AI生成 今日,耀科传媒的AIGC奇幻悬疑短剧《秦岭青铜秘闻》正式上线。该剧由公司签约的首批两位AI演员秦凌月和林西妍主演,故事背景设定在神秘的秦岭矿区。 剧中,退役情报官秦月率队深入该区域,揭开了一起尘封已久的矿难真相,以及跨越两代人的血祭之谜——这个真相就隐藏在受限的地下区域,那里是科学探索与古代巫术交汇之地。作为中国最早完全由AI数字人支撑的影视作品之一,该剧在筹备阶段便引发了业界热烈讨论,而关于其A
萨提亚·纳德拉准备利用与OpenAI的新合作关系 萨提亚·纳德拉准备利用与OpenAI的新合作关系 周三,一位华尔街分析师直接询问了微软首席执行官萨蒂亚·纳德拉,修订后的OpenAI合作关系将如何影响公司的财务状况。 纳德拉将这一新协议描述为对各方都有利的结果。“我们对与OpenAI的合作感到满意。我始终非常重视任何合作关系,并确保它能够实现双赢。只有这样,双方才能保持良好的合作伙伴关系。” 他强调,微软仍然可以使用OpenAI的知识产权,包括其模型和智能体产品,但不再需要为此向OpenAI支付费用。 谈到在2032年之前可以免费使用OpenAI最先进的人工智能技术,纳德拉表示:“
相关专题推荐
商业 最佳 AI 费用追踪工具:扫描收据并自动分类企业开支
最佳 AI 费用追踪工具:扫描收据并自动分类企业开支

2026年最新最佳AI报销管理工具:广受好评的解决方案,可自动扫描收据并分类企业支出。探索这些功能强大、颠覆传统的解决方案,助您轻松管理报销、精准追踪财务并简化合规流程。我们精心整理并每周更新的免费与付费选项对比指南,助您找到最适合的工具。通过XIX.AI的专家精选,释放您的AI优势。

10 个工具
xix.ai
商业 最佳人工智能招聘工具:筛选简历并自动安排候选人面试
最佳人工智能招聘工具:筛选简历并自动安排候选人面试

在 XIX.AI 上探索 2026 年最新、评价最高的人工智能招聘工具。我们精心筛选的清单汇集了功能强大、颠覆传统的解决方案,可帮助您筛选简历并自动安排候选人面试。通过实际测试和每周更新的排名,对比免费与付费选项。立即找到最适合您的招聘助手,优化您的招聘流程!

10 个工具
xix.ai
生产率 AI个人健康与专注力教练:缓解倦怠,提升精神能量
AI个人健康与专注力教练:缓解倦怠,提升精神能量

立即访问 XIX.AI,探索 2026 年最优秀的 AI 个人健康与专注力教练。我们的精选排行榜汇集了广受好评、具有颠覆性意义的工具,助您缓解倦怠、提升精神能量。通过真实案例分析,对比免费与付费选项。立即开启通往巅峰生产力和身心健康的道路。

10 个工具
xix.ai
聊天机器人 备受好评的AI浪漫聊天机器人:凭借稳定的个性建立长期关系
备受好评的AI浪漫聊天机器人:凭借稳定的个性建立长期关系

探索2026年最新、评价最高的人工智能浪漫聊天机器人,助您建立真实而长久的联系。我们的精选清单涵盖了功能强大且性格鲜明的聊天机器人,并提供了免费与付费版本的对比分析以及实际测试结果。在XIX.AI上找到您的完美伴侣,立即开始建立联系吧。

10 个工具
xix.ai
教育与学习 最佳AI数据科学导师:精通SQL、Pandas及机器学习工作流程
最佳AI数据科学导师:精通SQL、Pandas及机器学习工作流程

探索2026年最优秀的人工智能数据科学导师,帮助他们掌握SQL、Pandas以及机器学习工作流程。在XIX.AI上查看我们精心挑选的顶级导师名单,获得强大而具有变革性的指导。通过对比免费和付费选项,并结合实际应用案例进行了解,今天就开启你的数据科学精通之路吧。

10 个工具
xix.ai
聊天机器人 最佳AI调情与对话训练工具:实时提升社交魅力与自信
最佳AI调情与对话训练工具:实时提升社交魅力与自信

在 XIX.AI 上探索 2026 年最优秀的 AI 调情与对话训练工具。我们精心挑选的高评分工具助您实时提升社交魅力与自信。探索这些必试的、颠覆性的工具,查看免费版与付费版的对比,并了解每周更新的排行榜。立即开启您的社交优势。

10 个工具
xix.ai
评论 (0)
0/500
OR