Datagemma使用现实世界数据处理AI幻觉

首页

新闻

2025-04-10

ChristopherAllen

237

# ai

Datagemma使用现实世界数据处理AI幻觉

大型语言模型（LLMs）是当今AI突破的核心，能够筛选海量文本数据集，生成摘要、激发创意，甚至编写代码。然而，尽管它们能力强大，这些模型有时会提供完全错误的信息，我们称之为“幻觉”。这是生成式AI领域的一大障碍。

我们很高兴分享一些前沿研究，直接解决这一问题，通过将LLMs与现实世界的统计数据结合，旨在减少幻觉。我们激动地介绍DataGemma，这是首个将LLMs与Google的Data Commons海量现实数据连接的开源模型。

Data Commons：值得信赖的数据宝库

Data Commons就像一个不断扩展的公共数据巨型图书馆，拥有超过2400亿个数据点，涵盖从健康到经济的各个方面。它从联合国、世界卫生组织、疾病控制中心和人口普查局等可靠来源获取信息。通过将这些数据集整合成一个强大的工具集和AI模型，Data Commons帮助政策制定者、研究人员和组织获得所需的准确洞察。

想象一个庞大的数据库，你可以用简单的中文提问，比如哪些非洲国家电力普及率增长最快，或者美国各县的收入与糖尿病的关系如何。这就是Data Commons的魅力。

Data Commons如何帮助对抗幻觉

随着越来越多的人使用生成式AI，我们致力于通过将Data Commons融入Gemma（我们轻量级、顶尖的开源模型家族），使这些体验更加可靠。这些DataGemma模型现已向研究人员和开发者开放。

DataGemma通过利用Data Commons的知识，采用两种独特方法提升LLMs的准确性和推理能力：

RIG（检索交错生成）通过主动对比Data Commons的数据，增强了我们的Gemma 2模型。当你向DataGemma提问时，它会从Data Commons中检索统计数据，提供可靠的答案。虽然RIG不是新概念，但我们在DataGemma中的应用方式相当独特。
示例查询：“全球可再生能源使用量增加了吗？”应用DataGemma RIG方法利用Data Commons（DC）提供权威数据。
RAG（检索增强生成）让语言模型在训练数据之外引入额外信息，使回答更丰富、更准确。借助DataGemma，我们利用Gemini 1.5 Pro的长上下文窗口，在模型生成回答前从Data Commons获取相关数据，减少幻觉。
示例查询：“全球可再生能源使用量增加了吗？”应用DataGemma RAG方法展示更强的推理能力和脚注包含。

初步成果与未来展望

我们在RIG和RAG的早期测试表现良好。模型在处理数字时准确性提高，意味着研究、决策或满足好奇心的用户会遇到更少的幻觉。你可以在我们的研究论文中查看这些结果。

RAG查询与响应的示例。支持的真实统计数据以表格形式从Data Commons提供。*为简洁起见，仅显示部分响应。我们不会止步于此。我们全力以赴优化这些方法，扩大努力，并进行更多测试。最终，我们将把这些改进推广到Gemma和Gemini模型，从有限访问阶段开始。

通过分享研究和开放这一新Gemma模型变体，我们希望广泛推广基于Data Commons的技术。让LLMs更可靠、值得信赖，是将其变成每个人重要工具的关键，有助于构建一个AI提供准确信息、支持明智选择、加深世界理解的未来。

研究人员和开发者可以通过我们的RIG和RAG快速入门笔记本立即使用DataGemma。想深入了解Data Commons与Gemma如何协作，请查看我们的研究帖子。

WordPress.com 现已支持 AI 助手撰写和发布文章，还有更多功能广受欢迎的网站托管和发布平台 WordPress.com 现已开始引入人工智能助手——这一举措或将重塑网络的呈现方式。该公司于周五宣布，将允许人工智能助手在用户网站上起草、编辑和发布内容，同时还能管理评论、更新和修正元数据，并通过标签和分类对内容进行整理。所有这些操作均通过一个界面进行控制，网站所有者只需使用自然语言命令说明其需求即可。凭借这些新功能，网站几乎可以完全由人工指导的AI代理来创建和运

Kakao Mobility 概述了面向物理人工智能的 L4 级自动驾驶路线图 Kakao Mobility 计划内部自主研发 L4 级自动驾驶技术，作为其物理人工智能战略的一部分。在首尔COEX举行的2026世界IT展上，Kakao Mobility副总裁兼物理AI部门负责人金镇奎（Kim Jin-kyu）介绍了该路线图。他的演讲聚焦于物理AI时代基于出行平台构建的自动驾驶服务。据韩联社报道，这场题为“超越构想，付诸行动：AI驱动现实”的活动汇聚了来自17个国家的460

巴里·迪勒：随着通用人工智能的临近，对萨姆·阿尔特曼的信任已无关紧要尽管近期有报道暗示相反的情况，但亿万富翁、媒体大亨巴里·迪勒并不认为OpenAI首席执行官山姆·阿尔特曼不可信。本周，迪勒在《华尔街日报》举办的“万物未来”峰会上发表演讲时，为阿尔特曼进行了辩护。此前，阿尔特曼曾遭到一些前同事和董事会成员的指责，称其有时会采取操纵和欺骗手段。作为阿尔特曼的朋友，迪勒是在回答一个关于人们是否应该信任阿尔特曼以确保人工智能造福人类的问题时作出上述表态的。具体而言，提问

相关专题推荐

商业

最佳 AI 费用追踪工具：扫描收据并自动分类企业开支

2026年最新最佳AI报销管理工具：广受好评的解决方案，可自动扫描收据并分类企业支出。探索这些功能强大、颠覆传统的解决方案，助您轻松管理报销、精准追踪财务并简化合规流程。我们精心整理并每周更新的免费与付费选项对比指南，助您找到最适合的工具。通过XIX.AI的专家精选，释放您的AI优势。

10 个工具

xix.ai

商业

最佳人工智能招聘工具：筛选简历并自动安排候选人面试

在 XIX.AI 上探索 2026 年最新、评价最高的人工智能招聘工具。我们精心筛选的清单汇集了功能强大、颠覆传统的解决方案，可帮助您筛选简历并自动安排候选人面试。通过实际测试和每周更新的排名，对比免费与付费选项。立即找到最适合您的招聘助手，优化您的招聘流程！

10 个工具

xix.ai

生产率

AI个人健康与专注力教练：缓解倦怠，提升精神能量

立即访问 XIX.AI，探索 2026 年最优秀的 AI 个人健康与专注力教练。我们的精选排行榜汇集了广受好评、具有颠覆性意义的工具，助您缓解倦怠、提升精神能量。通过真实案例分析，对比免费与付费选项。立即开启通往巅峰生产力和身心健康的道路。

10 个工具

xix.ai

聊天机器人

备受好评的AI浪漫聊天机器人：凭借稳定的个性建立长期关系

探索2026年最新、评价最高的人工智能浪漫聊天机器人，助您建立真实而长久的联系。我们的精选清单涵盖了功能强大且性格鲜明的聊天机器人，并提供了免费与付费版本的对比分析以及实际测试结果。在XIX.AI上找到您的完美伴侣，立即开始建立联系吧。

10 个工具

xix.ai

教育与学习

最佳AI数据科学导师：精通SQL、Pandas及机器学习工作流程

探索2026年最优秀的人工智能数据科学导师，帮助他们掌握SQL、Pandas以及机器学习工作流程。在XIX.AI上查看我们精心挑选的顶级导师名单，获得强大而具有变革性的指导。通过对比免费和付费选项，并结合实际应用案例进行了解，今天就开启你的数据科学精通之路吧。

10 个工具

xix.ai

聊天机器人

最佳AI调情与对话训练工具：实时提升社交魅力与自信

在 XIX.AI 上探索 2026 年最优秀的 AI 调情与对话训练工具。我们精心挑选的高评分工具助您实时提升社交魅力与自信。探索这些必试的、颠覆性的工具，查看免费版与付费版的对比，并了解每周更新的排行榜。立即开启您的社交优势。

10 个工具

xix.ai

0/500

请登录后再操作

PaulLopez

2026-05-09 20:00:13

DataGemma這方法聽起來挺實際的，直接用真實數據來對抗AI幻覺，感覺比單純調整演算法更治本。不過好奇它處理的數據範圍有多大？會不會有偏見問題？希望未來能看到更多實測結果！🤔

HarryRoberts

2026-04-12 14:01:14

Interesting approach! Using real-world data to ground the model seems like a practical step beyond just scaling parameters. Hope it doesn't just trade hallucinations for boring, overly-cautious outputs though. The 'Gemma' naming trend continues! 🤔

WilliamRamirez

2025-10-18 18:30:33

Finally! A real solution to AI hallucinations? DataGemma sounds promising, but I'm honestly a bit skeptical. 🤔 How do they ensure the "real-world data" isn't biased itself? Would love to see a breakdown of their methodology compared to other approaches like Retrieval-Augmented Generation.

WillMitchell

2025-10-05 02:30:40

Me pregunto si DataGemma realmente podrá resolver el problema de las alucinaciones en IA. Parece prometedor, pero ya hemos visto muchas soluciones 'milagrosas' que luego no cumplen. Ojalá esta vez sea diferente, porque los errores en los modelos actuales pueden ser bastante graves 😅

BillyAdams

2025-08-25 17:47:02

This article on DataGemma is super intriguing! It's wild how LLMs can churn out so much but still trip up on facts sometimes. 😅 Makes me wonder if grounding them in real-world data could finally make AI as reliable as we hope!

StephenScott

2025-08-08 17:00:59

This article on DataGemma is super intriguing! I love how it dives into fixing AI hallucinations with real-world data. Makes me wonder if we’ll finally get models that don’t spit out random nonsense. 😄 Anyone else excited about this?

头条新闻

AI Builder和Power Automate革新文档摘要 AI寄主Notebooklm播客现已上中国发布人形机器人及具身智能国家标准 Ramp 数据显示企业人工智能应用趋于平稳 Bing图像创建者教程：AI艺术生成指南学习使用您的声音创建AI音乐：逐步Suno教程 iMyFone MagicMic：实时AI变声器评测与教程 2025顶级AI视频生成器：Pika Labs与其他对比 DeepSeek V4 作为多模态人工智能变革者横空出世 Embodied Intelligence 发布首个行业标准，旨在遏制无序增长

精选