Datagemma使用現實世界數據處理AI幻覺

大型語言模型(LLMs)是當今AI突破的核心,能夠篩選海量文本數據集,生成摘要、激發創意,甚至撰寫程式碼。然而,儘管其能力強大,這些模型有時會提供完全錯誤的資訊,這一問題被稱為「幻覺」。這是生成式AI世界中的一大障礙。
我們很高興分享一些前沿研究,這些研究正面解決此問題,旨在通過將LLMs與現實世界的統計數據結合,減少幻覺。我們也興奮地介紹DataGemma,這是首個將LLMs與Google的Data Commons豐富現實數據連結的開放模型。
Data Commons:可信數據的寶庫
Data Commons就像一個不斷擴展的公共數據巨型圖書館,擁有超過2400億個數據點,涵蓋從健康到經濟的各種主題。它從聯合國、世界衛生組織、疾病控制中心和人口普查局等可靠性來源收集這些資訊。通過將這些數據集整合成單一、強大的工具集和AI模型,Data Commons幫助政策制定者、研究人員和組織獲得所需的精確洞察。
想像一個龐大的數據庫,你可以用簡單的英文提問,例如哪些非洲國家電力普及率增長最快,或美國各郡的收入與糖尿病有何關聯。這就是Data Commons的魅力。
Data Commons如何幫助對抗幻覺
隨著越來越多的人轉向生成式AI,我們致力於通過將Data Commons融入我們的輕量級頂尖開放模型家族Gemma,使這些體驗更加扎實。這些DataGemma模型現已開放供研究人員和開發者使用。
DataGemma通過利用Data Commons的知識,提升了Gemma的能力,使用兩種方法來提高LLMs的準確性和推理能力:
RIG(檢索交錯生成)通過主動對照Data Commons的數據檢查事實,增強了我們的Gemma 2模型。當你向DataGemma提問時,它會從Data Commons中搜尋統計數據,提供堅實的答案。雖然RIG不是新概念,但我們在DataGemma中使用它的方式相當特別。
範例查詢:「全球可再生能源使用量增加嗎?」應用DataGemma RIG方法利用Data Commons(DC)提供權威數據。
RAG(檢索增強生成)讓語言模型提取超出其訓練範圍的額外資訊,使回答更豐富、更準確。透過DataGemma,我們利用Gemini 1.5 Pro的長上下文窗口,在模型生成回答前從Data Commons獲取相關數據,減少幻覺。
範例查詢:「全球可再生能源使用量增加嗎?」應用DataGemma RAG方法展示更強的推理能力和腳註包含。
令人振奮的成果與未來展望
我們的RIG和RAG初步測試結果良好。我們的模型在處理數字時展現出更高的準確性,這意味著研究、決策或僅出於好奇心使用這些模型的人將遇到更少的幻覺。你可以在我們的研究論文中查看這些結果。
RAG查詢與回答的示意圖。支持真實統計數據以表格形式從Data Commons提供。*為簡潔起見,僅顯示部分回答。
我們不會就此止步。我們全力以赴改進這些方法,擴大努力規模,並進行更多測試。最終,我們將把這些改進應用於Gemma和Gemini模型,從有限訪問階段開始。
通過分享我們的研究並開放這個新的Gemma模型變體,我們希望廣泛推廣基於Data Commons的技術。使LLMs更可靠和可信對於將其轉化為每個人的重要工具至關重要,幫助構建一個AI提供準確資訊、支持明智選擇並深化我們對世界理解的未來。
研究人員和開發者可立即使用我們的RIG和RAG快速入門筆記本開始體驗DataGemma。要深入了解Data Commons與Gemma如何協作,請查看我們的Research post。
相關文章
「Dot AI 伴侶應用程式宣布關閉,停止個人化服務」
根據 Dot 開發商於週五發佈的公告,Dot 將停止營運。Dot 背後的新創公司 New Computer 在其網站上表示,這項服務將持續提供至 10 月 5 日,讓使用者有時間匯出個人資料。此應用程式於今年初由共同創辦人 Sam Whitmore 與前 Apple 設計專家 Jason Yuan 合作推出。Dot 進入日益受到關注的情感 AI 伴侶領域,將自己定位為可適應的數位朋友,可根據使用者
Anthropic 解決 AI 產生盜版書籍的法律案件
Anthropic 已與美國作家就一宗重大版權糾紛達成和解,同意擬議的集體訴訟和解方案,以避免可能耗費巨資的審判。該協議於本週二在法庭文件中提交,源於該人工智能公司使用盜版文學作品訓練其 Claude 模型的指控。雖然此案源於作家 Andrea Bartz、Charles Graeber 和 Kirk Wallace Johnson 的訴訟,但和解細節仍然保密。他們於 2023 年提出訴訟,指控
Figma 向所有用戶發佈 AI 驅動的應用程式生成工具
Figma Make 是今年初推出的創新提示應用程式開發平台,目前已正式退出測試版,並向所有使用者推出。這個突破性的工具加入了 Google 的 Gemini Code Assist 和 Microsoft 的 GitHub Copilot 等人工智能編碼助手的行列,讓創作者無需傳統的編程專業知識,即可將自然語言描述轉換為功能原型和應用程式。Figma Make 在測試階段原本只有高級「Full
評論 (39)
0/200
WillMitchell
2025-10-05 02:30:40
Me pregunto si DataGemma realmente podrá resolver el problema de las alucinaciones en IA. Parece prometedor, pero ya hemos visto muchas soluciones 'milagrosas' que luego no cumplen. Ojalá esta vez sea diferente, porque los errores en los modelos actuales pueden ser bastante graves 😅
0
BillyAdams
2025-08-25 17:47:02
This article on DataGemma is super intriguing! It's wild how LLMs can churn out so much but still trip up on facts sometimes. 😅 Makes me wonder if grounding them in real-world data could finally make AI as reliable as we hope!
0
StephenScott
2025-08-08 17:00:59
This article on DataGemma is super intriguing! I love how it dives into fixing AI hallucinations with real-world data. Makes me wonder if we’ll finally get models that don’t spit out random nonsense. 😄 Anyone else excited about this?
0
ArthurYoung
2025-07-29 20:25:16
This article on DataGemma is super intriguing! It's wild how LLMs can churn out so much but still trip over facts. Excited to see how real-world data could make AI less of a fibber! 😄
0
RalphJohnson
2025-04-21 12:26:32
DataGemmaは本当に助かる!AIの幻覚を現実世界のデータで抑えてくれるから、まるでAIにファクトチェッカーが付いているみたい。もう少し処理が早ければ完璧なんだけど、それでも素晴らしいツールだよね!👍
0
WillieAnderson
2025-04-18 05:10:42
DataGemma 정말 도움이 돼! AI의 환각을 현실 세계 데이터로 줄여주니까, 마치 AI에 팩트체커가 있는 것 같아. 처리 속도가 조금 더 빨랐으면 좋겠지만, 그래도 훌륭한 도구야! 👍
0
大型語言模型(LLMs)是當今AI突破的核心,能夠篩選海量文本數據集,生成摘要、激發創意,甚至撰寫程式碼。然而,儘管其能力強大,這些模型有時會提供完全錯誤的資訊,這一問題被稱為「幻覺」。這是生成式AI世界中的一大障礙。
我們很高興分享一些前沿研究,這些研究正面解決此問題,旨在通過將LLMs與現實世界的統計數據結合,減少幻覺。我們也興奮地介紹DataGemma,這是首個將LLMs與Google的Data Commons豐富現實數據連結的開放模型。
Data Commons:可信數據的寶庫
Data Commons就像一個不斷擴展的公共數據巨型圖書館,擁有超過2400億個數據點,涵蓋從健康到經濟的各種主題。它從聯合國、世界衛生組織、疾病控制中心和人口普查局等可靠性來源收集這些資訊。通過將這些數據集整合成單一、強大的工具集和AI模型,Data Commons幫助政策制定者、研究人員和組織獲得所需的精確洞察。
想像一個龐大的數據庫,你可以用簡單的英文提問,例如哪些非洲國家電力普及率增長最快,或美國各郡的收入與糖尿病有何關聯。這就是Data Commons的魅力。
Data Commons如何幫助對抗幻覺
隨著越來越多的人轉向生成式AI,我們致力於通過將Data Commons融入我們的輕量級頂尖開放模型家族Gemma,使這些體驗更加扎實。這些DataGemma模型現已開放供研究人員和開發者使用。
DataGemma通過利用Data Commons的知識,提升了Gemma的能力,使用兩種方法來提高LLMs的準確性和推理能力:
RIG(檢索交錯生成)通過主動對照Data Commons的數據檢查事實,增強了我們的Gemma 2模型。當你向DataGemma提問時,它會從Data Commons中搜尋統計數據,提供堅實的答案。雖然RIG不是新概念,但我們在DataGemma中使用它的方式相當特別。
範例查詢:「全球可再生能源使用量增加嗎?」應用DataGemma RIG方法利用Data Commons(DC)提供權威數據。 RAG(檢索增強生成)讓語言模型提取超出其訓練範圍的額外資訊,使回答更豐富、更準確。透過DataGemma,我們利用Gemini 1.5 Pro的長上下文窗口,在模型生成回答前從Data Commons獲取相關數據,減少幻覺。
範例查詢:「全球可再生能源使用量增加嗎?」應用DataGemma RAG方法展示更強的推理能力和腳註包含。
令人振奮的成果與未來展望
我們的RIG和RAG初步測試結果良好。我們的模型在處理數字時展現出更高的準確性,這意味著研究、決策或僅出於好奇心使用這些模型的人將遇到更少的幻覺。你可以在我們的研究論文中查看這些結果。
通過分享我們的研究並開放這個新的Gemma模型變體,我們希望廣泛推廣基於Data Commons的技術。使LLMs更可靠和可信對於將其轉化為每個人的重要工具至關重要,幫助構建一個AI提供準確資訊、支持明智選擇並深化我們對世界理解的未來。
研究人員和開發者可立即使用我們的RIG和RAG快速入門筆記本開始體驗DataGemma。要深入了解Data Commons與Gemma如何協作,請查看我們的Research post。



Me pregunto si DataGemma realmente podrá resolver el problema de las alucinaciones en IA. Parece prometedor, pero ya hemos visto muchas soluciones 'milagrosas' que luego no cumplen. Ojalá esta vez sea diferente, porque los errores en los modelos actuales pueden ser bastante graves 😅




This article on DataGemma is super intriguing! It's wild how LLMs can churn out so much but still trip up on facts sometimes. 😅 Makes me wonder if grounding them in real-world data could finally make AI as reliable as we hope!




This article on DataGemma is super intriguing! I love how it dives into fixing AI hallucinations with real-world data. Makes me wonder if we’ll finally get models that don’t spit out random nonsense. 😄 Anyone else excited about this?




This article on DataGemma is super intriguing! It's wild how LLMs can churn out so much but still trip over facts. Excited to see how real-world data could make AI less of a fibber! 😄




DataGemmaは本当に助かる!AIの幻覚を現実世界のデータで抑えてくれるから、まるでAIにファクトチェッカーが付いているみたい。もう少し処理が早ければ完璧なんだけど、それでも素晴らしいツールだよね!👍




DataGemma 정말 도움이 돼! AI의 환각을 현실 세계 데이터로 줄여주니까, 마치 AI에 팩트체커가 있는 것 같아. 처리 속도가 조금 더 빨랐으면 좋겠지만, 그래도 훌륭한 도구야! 👍












