Datagemma使用现实世界数据处理AI幻觉

大型语言模型(LLMs)是当今AI突破的核心,能够筛选海量文本数据集,生成摘要、激发创意,甚至编写代码。然而,尽管它们能力强大,这些模型有时会提供完全错误的信息,我们称之为“幻觉”。这是生成式AI领域的一大障碍。
我们很高兴分享一些前沿研究,直接解决这一问题,通过将LLMs与现实世界的统计数据结合,旨在减少幻觉。我们激动地介绍DataGemma,这是首个将LLMs与Google的Data Commons海量现实数据连接的开源模型。
Data Commons:值得信赖的数据宝库
Data Commons就像一个不断扩展的公共数据巨型图书馆,拥有超过2400亿个数据点,涵盖从健康到经济的各个方面。它从联合国、世界卫生组织、疾病控制中心和人口普查局等可靠来源获取信息。通过将这些数据集整合成一个强大的工具集和AI模型,Data Commons帮助政策制定者、研究人员和组织获得所需的准确洞察。
想象一个庞大的数据库,你可以用简单的中文提问,比如哪些非洲国家电力普及率增长最快,或者美国各县的收入与糖尿病的关系如何。这就是Data Commons的魅力。
Data Commons如何帮助对抗幻觉
随着越来越多的人使用生成式AI,我们致力于通过将Data Commons融入Gemma(我们轻量级、顶尖的开源模型家族),使这些体验更加可靠。这些DataGemma模型现已向研究人员和开发者开放。
DataGemma通过利用Data Commons的知识,采用两种独特方法提升LLMs的准确性和推理能力:
RIG(检索交错生成)通过主动对比Data Commons的数据,增强了我们的Gemma 2模型。当你向DataGemma提问时,它会从Data Commons中检索统计数据,提供可靠的答案。虽然RIG不是新概念,但我们在DataGemma中的应用方式相当独特。
示例查询:“全球可再生能源使用量增加了吗?”应用DataGemma RIG方法利用Data Commons(DC)提供权威数据。
RAG(检索增强生成)让语言模型在训练数据之外引入额外信息,使回答更丰富、更准确。借助DataGemma,我们利用Gemini 1.5 Pro的长上下文窗口,在模型生成回答前从Data Commons获取相关数据,减少幻觉。
示例查询:“全球可再生能源使用量增加了吗?”应用DataGemma RAG方法展示更强的推理能力和脚注包含。
初步成果与未来展望
我们在RIG和RAG的早期测试表现良好。模型在处理数字时准确性提高,意味着研究、决策或满足好奇心的用户会遇到更少的幻觉。你可以在我们的研究论文中查看这些结果。
RAG查询与响应的示例。支持的真实统计数据以表格形式从Data Commons提供。*为简洁起见,仅显示部分响应。
我们不会止步于此。我们全力以赴优化这些方法,扩大努力,并进行更多测试。最终,我们将把这些改进推广到Gemma和Gemini模型,从有限访问阶段开始。
通过分享研究和开放这一新Gemma模型变体,我们希望广泛推广基于Data Commons的技术。让LLMs更可靠、值得信赖,是将其变成每个人重要工具的关键,有助于构建一个AI提供准确信息、支持明智选择、加深世界理解的未来。
研究人员和开发者可以通过我们的RIG和RAG快速入门笔记本立即使用DataGemma。想深入了解Data Commons与Gemma如何协作,请查看我们的研究帖子。
相关文章
Salesforce发布Slack AI数字队友对抗Microsoft Copilot
Salesforce推出全新职场AI策略,在Slack对话中引入专业“数字队友”,公司于周一公布。新工具Agentforce in Slack使企业能够创建和部署任务特定AI代理,搜索职场聊天,访问公司数据,并在员工日常使用的消息平台内执行操作。“正如专业员工协作解决问题,我们的客户需要AI代理协同工作,为客户和员工解决问题,”Salesforce Slack首席产品官Rob Seaman在Ven
甲骨文400亿美元英伟达芯片投资助推德克萨斯AI数据中心
据《金融时报》报道,甲骨文计划投资约400亿美元购买英伟达芯片,为OpenAI在德克萨斯州开发的大型新数据中心提供动力。这是迄今为止最大的芯片收购交易之一,凸显了对AI计算资源激增的需求。该设施位于德克萨斯州阿比林,是美国首个“星门”数据中心。由OpenAI和软银支持,这是构建大规模AI基础设施的更广泛计划的一部分。该德克萨斯中心计划于明年完工,将提供1.2吉瓦的计算能力,使其跻身全球最大数据中心
Meta AI应用将引入高级订阅和广告
Meta的AI应用可能很快推出付费订阅服务,效仿OpenAI、Google和Microsoft等竞争对手的做法。在2025年第一季度财报电话会议上,Meta首席执行官马克·扎克伯格概述了高级服务的计划,使用户能够访问增强的计算能力或Meta AI的额外功能。为了与ChatGPT竞争,Meta本周推出了一款独立AI应用,允许用户直接与聊天机器人互动并进行图像生成。该聊天机器人目前拥有近10亿用户,此
评论 (37)
0/200
StephenScott
2025-08-08 17:00:59
This article on DataGemma is super intriguing! I love how it dives into fixing AI hallucinations with real-world data. Makes me wonder if we’ll finally get models that don’t spit out random nonsense. 😄 Anyone else excited about this?
0
ArthurYoung
2025-07-29 20:25:16
This article on DataGemma is super intriguing! It's wild how LLMs can churn out so much but still trip over facts. Excited to see how real-world data could make AI less of a fibber! 😄
0
RalphJohnson
2025-04-21 12:26:32
DataGemmaは本当に助かる!AIの幻覚を現実世界のデータで抑えてくれるから、まるでAIにファクトチェッカーが付いているみたい。もう少し処理が早ければ完璧なんだけど、それでも素晴らしいツールだよね!👍
0
WillieAnderson
2025-04-18 05:10:42
DataGemma 정말 도움이 돼! AI의 환각을 현실 세계 데이터로 줄여주니까, 마치 AI에 팩트체커가 있는 것 같아. 처리 속도가 조금 더 빨랐으면 좋겠지만, 그래도 훌륭한 도구야! 👍
0
JosephGreen
2025-04-17 04:14:53
DataGemma is a lifesaver! It really cuts down on those annoying AI hallucinations by grounding the models in real-world data. It's like having a fact-checker for my AI buddy. Only wish it was a bit faster at processing, but still, it's a solid tool! 👍
0
LeviKing
2025-04-14 04:47:31
DataGemma가 AI의 환각을 해결하기 위한 접근 방식은 정말 멋집니다. 실제 세계의 데이터를 사용하여 AI를 제어하는 것은 훌륭해요. 하지만 정말 문제를 해결하는 건지, 아니면 그저 가리는 건지 궁금해요. 그래도 올바른 방향으로 나아가는 한 걸음이죠. 계속 하세요!
0
大型语言模型(LLMs)是当今AI突破的核心,能够筛选海量文本数据集,生成摘要、激发创意,甚至编写代码。然而,尽管它们能力强大,这些模型有时会提供完全错误的信息,我们称之为“幻觉”。这是生成式AI领域的一大障碍。
我们很高兴分享一些前沿研究,直接解决这一问题,通过将LLMs与现实世界的统计数据结合,旨在减少幻觉。我们激动地介绍DataGemma,这是首个将LLMs与Google的Data Commons海量现实数据连接的开源模型。
Data Commons:值得信赖的数据宝库
Data Commons就像一个不断扩展的公共数据巨型图书馆,拥有超过2400亿个数据点,涵盖从健康到经济的各个方面。它从联合国、世界卫生组织、疾病控制中心和人口普查局等可靠来源获取信息。通过将这些数据集整合成一个强大的工具集和AI模型,Data Commons帮助政策制定者、研究人员和组织获得所需的准确洞察。
想象一个庞大的数据库,你可以用简单的中文提问,比如哪些非洲国家电力普及率增长最快,或者美国各县的收入与糖尿病的关系如何。这就是Data Commons的魅力。
Data Commons如何帮助对抗幻觉
随着越来越多的人使用生成式AI,我们致力于通过将Data Commons融入Gemma(我们轻量级、顶尖的开源模型家族),使这些体验更加可靠。这些DataGemma模型现已向研究人员和开发者开放。
DataGemma通过利用Data Commons的知识,采用两种独特方法提升LLMs的准确性和推理能力:
RIG(检索交错生成)通过主动对比Data Commons的数据,增强了我们的Gemma 2模型。当你向DataGemma提问时,它会从Data Commons中检索统计数据,提供可靠的答案。虽然RIG不是新概念,但我们在DataGemma中的应用方式相当独特。
示例查询:“全球可再生能源使用量增加了吗?”应用DataGemma RIG方法利用Data Commons(DC)提供权威数据。 RAG(检索增强生成)让语言模型在训练数据之外引入额外信息,使回答更丰富、更准确。借助DataGemma,我们利用Gemini 1.5 Pro的长上下文窗口,在模型生成回答前从Data Commons获取相关数据,减少幻觉。
示例查询:“全球可再生能源使用量增加了吗?”应用DataGemma RAG方法展示更强的推理能力和脚注包含。
初步成果与未来展望
我们在RIG和RAG的早期测试表现良好。模型在处理数字时准确性提高,意味着研究、决策或满足好奇心的用户会遇到更少的幻觉。你可以在我们的研究论文中查看这些结果。
通过分享研究和开放这一新Gemma模型变体,我们希望广泛推广基于Data Commons的技术。让LLMs更可靠、值得信赖,是将其变成每个人重要工具的关键,有助于构建一个AI提供准确信息、支持明智选择、加深世界理解的未来。
研究人员和开发者可以通过我们的RIG和RAG快速入门笔记本立即使用DataGemma。想深入了解Data Commons与Gemma如何协作,请查看我们的研究帖子。



This article on DataGemma is super intriguing! I love how it dives into fixing AI hallucinations with real-world data. Makes me wonder if we’ll finally get models that don’t spit out random nonsense. 😄 Anyone else excited about this?




This article on DataGemma is super intriguing! It's wild how LLMs can churn out so much but still trip over facts. Excited to see how real-world data could make AI less of a fibber! 😄




DataGemmaは本当に助かる!AIの幻覚を現実世界のデータで抑えてくれるから、まるでAIにファクトチェッカーが付いているみたい。もう少し処理が早ければ完璧なんだけど、それでも素晴らしいツールだよね!👍




DataGemma 정말 도움이 돼! AI의 환각을 현실 세계 데이터로 줄여주니까, 마치 AI에 팩트체커가 있는 것 같아. 처리 속도가 조금 더 빨랐으면 좋겠지만, 그래도 훌륭한 도구야! 👍




DataGemma is a lifesaver! It really cuts down on those annoying AI hallucinations by grounding the models in real-world data. It's like having a fact-checker for my AI buddy. Only wish it was a bit faster at processing, but still, it's a solid tool! 👍




DataGemma가 AI의 환각을 해결하기 위한 접근 방식은 정말 멋집니다. 실제 세계의 데이터를 사용하여 AI를 제어하는 것은 훌륭해요. 하지만 정말 문제를 해결하는 건지, 아니면 그저 가리는 건지 궁금해요. 그래도 올바른 방향으로 나아가는 한 걸음이죠. 계속 하세요!












