选项
首页
新闻
Datagemma使用现实世界数据处理AI幻觉

Datagemma使用现实世界数据处理AI幻觉

2025-04-10
171

Datagemma使用现实世界数据处理AI幻觉

大型语言模型(LLMs)是当今AI突破的核心,能够筛选海量文本数据集,生成摘要、激发创意,甚至编写代码。然而,尽管它们能力强大,这些模型有时会提供完全错误的信息,我们称之为“幻觉”。这是生成式AI领域的一大障碍。

我们很高兴分享一些前沿研究,直接解决这一问题,通过将LLMs与现实世界的统计数据结合,旨在减少幻觉。我们激动地介绍DataGemma,这是首个将LLMs与Google的Data Commons海量现实数据连接的开源模型。

Data Commons:值得信赖的数据宝库

Data Commons就像一个不断扩展的公共数据巨型图书馆,拥有超过2400亿个数据点,涵盖从健康到经济的各个方面。它从联合国、世界卫生组织、疾病控制中心和人口普查局等可靠来源获取信息。通过将这些数据集整合成一个强大的工具集和AI模型,Data Commons帮助政策制定者、研究人员和组织获得所需的准确洞察。

想象一个庞大的数据库,你可以用简单的中文提问,比如哪些非洲国家电力普及率增长最快,或者美国各县的收入与糖尿病的关系如何。这就是Data Commons的魅力。

Data Commons如何帮助对抗幻觉

随着越来越多的人使用生成式AI,我们致力于通过将Data Commons融入Gemma(我们轻量级、顶尖的开源模型家族),使这些体验更加可靠。这些DataGemma模型现已向研究人员和开发者开放。

DataGemma通过利用Data Commons的知识,采用两种独特方法提升LLMs的准确性和推理能力:

  1. RIG(检索交错生成)通过主动对比Data Commons的数据,增强了我们的Gemma 2模型。当你向DataGemma提问时,它会从Data Commons中检索统计数据,提供可靠的答案。虽然RIG不是新概念,但我们在DataGemma中的应用方式相当独特。

    示例查询:“全球可再生能源使用量增加了吗?”应用DataGemma RIG方法利用Data Commons(DC)提供权威数据。
  2. RAG(检索增强生成)让语言模型在训练数据之外引入额外信息,使回答更丰富、更准确。借助DataGemma,我们利用Gemini 1.5 Pro的长上下文窗口,在模型生成回答前从Data Commons获取相关数据,减少幻觉。

    示例查询:“全球可再生能源使用量增加了吗?”应用DataGemma RAG方法展示更强的推理能力和脚注包含。

初步成果与未来展望

我们在RIG和RAG的早期测试表现良好。模型在处理数字时准确性提高,意味着研究、决策或满足好奇心的用户会遇到更少的幻觉。你可以在我们的研究论文中查看这些结果。

RAG查询与响应的示例。支持的真实统计数据以表格形式从Data Commons提供。*为简洁起见,仅显示部分响应。 我们不会止步于此。我们全力以赴优化这些方法,扩大努力,并进行更多测试。最终,我们将把这些改进推广到Gemma和Gemini模型,从有限访问阶段开始。

通过分享研究和开放这一新Gemma模型变体,我们希望广泛推广基于Data Commons的技术。让LLMs更可靠、值得信赖,是将其变成每个人重要工具的关键,有助于构建一个AI提供准确信息、支持明智选择、加深世界理解的未来。

研究人员和开发者可以通过我们的RIG和RAG快速入门笔记本立即使用DataGemma。想深入了解Data Commons与Gemma如何协作,请查看我们的研究帖子。

相关文章
"Dot AI伴侣应用程序宣布关闭,停止个性化服务 Dot 是一款人工智能伴侣应用程序,旨在充当个人朋友和知己,根据其开发者周五发布的公告,Dot 将停止运营。Dot背后的初创公司New Computer在其网站上表示,该服务将持续到10月5日,以便用户有时间导出个人数据。今年早些时候,联合创始人山姆-惠特莫尔(Sam Whitmore)和前苹果设计专家杰森-袁(Jason Yuan)合作推出了这款应用程序。Dot 进入了日益受到关注的情感人工智能
Anthropic 解决了人工智能生成盗版图书的法律案件 Anthropic 解决了人工智能生成盗版图书的法律案件 Anthropic公司与美国作家达成了一项重要的版权纠纷解决方案,同意拟议的集体诉讼和解,避免了可能代价高昂的审判。本周二在法庭文件中提交的这份协议源于对这家人工智能公司使用盗版文学作品训练克劳德模型的指控。尽管此案源于作家安德烈娅-巴茨(Andrea Bartz)、查尔斯-格雷伯(Charles Graeber)和柯克-华莱士-约翰逊(Kirk Wallace Johnson)的指控,但和解细节
Figma 向所有用户发布人工智能驱动的应用程序生成工具 Figma 向所有用户发布人工智能驱动的应用程序生成工具 Figma Make 是今年早些时候推出的创新型提示到应用开发平台,现已正式退出测试版,并向所有用户推出。这一开创性的工具加入了人工智能编码助手的行列,如谷歌的 Gemini Code Assist 和微软的 GitHub Copilot,使创作者能够将自然语言描述转化为功能原型和应用程序,而无需传统的编程专业知识。Figma Make 最初在测试阶段只对高级 "全席 "用户开放,现在对所有账户类
评论 (39)
0/200
WillMitchell
WillMitchell 2025-10-05 02:30:40

Me pregunto si DataGemma realmente podrá resolver el problema de las alucinaciones en IA. Parece prometedor, pero ya hemos visto muchas soluciones 'milagrosas' que luego no cumplen. Ojalá esta vez sea diferente, porque los errores en los modelos actuales pueden ser bastante graves 😅

BillyAdams
BillyAdams 2025-08-25 17:47:02

This article on DataGemma is super intriguing! It's wild how LLMs can churn out so much but still trip up on facts sometimes. 😅 Makes me wonder if grounding them in real-world data could finally make AI as reliable as we hope!

StephenScott
StephenScott 2025-08-08 17:00:59

This article on DataGemma is super intriguing! I love how it dives into fixing AI hallucinations with real-world data. Makes me wonder if we’ll finally get models that don’t spit out random nonsense. 😄 Anyone else excited about this?

ArthurYoung
ArthurYoung 2025-07-29 20:25:16

This article on DataGemma is super intriguing! It's wild how LLMs can churn out so much but still trip over facts. Excited to see how real-world data could make AI less of a fibber! 😄

RalphJohnson
RalphJohnson 2025-04-21 12:26:32

DataGemmaは本当に助かる!AIの幻覚を現実世界のデータで抑えてくれるから、まるでAIにファクトチェッカーが付いているみたい。もう少し処理が早ければ完璧なんだけど、それでも素晴らしいツールだよね!👍

WillieAnderson
WillieAnderson 2025-04-18 05:10:42

DataGemma 정말 도움이 돼! AI의 환각을 현실 세계 데이터로 줄여주니까, 마치 AI에 팩트체커가 있는 것 같아. 처리 속도가 조금 더 빨랐으면 좋겠지만, 그래도 훌륭한 도구야! 👍

返回顶部
OR