Datagemma使用現實世界數據處理AI幻覺

大型語言模型(LLMs)是當今AI突破的核心,能夠篩選海量文本數據集,生成摘要、激發創意,甚至撰寫程式碼。然而,儘管其能力強大,這些模型有時會提供完全錯誤的資訊,這一問題被稱為「幻覺」。這是生成式AI世界中的一大障礙。
我們很高興分享一些前沿研究,這些研究正面解決此問題,旨在通過將LLMs與現實世界的統計數據結合,減少幻覺。我們也興奮地介紹DataGemma,這是首個將LLMs與Google的Data Commons豐富現實數據連結的開放模型。
Data Commons:可信數據的寶庫
Data Commons就像一個不斷擴展的公共數據巨型圖書館,擁有超過2400億個數據點,涵蓋從健康到經濟的各種主題。它從聯合國、世界衛生組織、疾病控制中心和人口普查局等可靠性來源收集這些資訊。通過將這些數據集整合成單一、強大的工具集和AI模型,Data Commons幫助政策制定者、研究人員和組織獲得所需的精確洞察。
想像一個龐大的數據庫,你可以用簡單的英文提問,例如哪些非洲國家電力普及率增長最快,或美國各郡的收入與糖尿病有何關聯。這就是Data Commons的魅力。
Data Commons如何幫助對抗幻覺
隨著越來越多的人轉向生成式AI,我們致力於通過將Data Commons融入我們的輕量級頂尖開放模型家族Gemma,使這些體驗更加扎實。這些DataGemma模型現已開放供研究人員和開發者使用。
DataGemma通過利用Data Commons的知識,提升了Gemma的能力,使用兩種方法來提高LLMs的準確性和推理能力:
RIG(檢索交錯生成)通過主動對照Data Commons的數據檢查事實,增強了我們的Gemma 2模型。當你向DataGemma提問時,它會從Data Commons中搜尋統計數據,提供堅實的答案。雖然RIG不是新概念,但我們在DataGemma中使用它的方式相當特別。
範例查詢:「全球可再生能源使用量增加嗎?」應用DataGemma RIG方法利用Data Commons(DC)提供權威數據。
RAG(檢索增強生成)讓語言模型提取超出其訓練範圍的額外資訊,使回答更豐富、更準確。透過DataGemma,我們利用Gemini 1.5 Pro的長上下文窗口,在模型生成回答前從Data Commons獲取相關數據,減少幻覺。
範例查詢:「全球可再生能源使用量增加嗎?」應用DataGemma RAG方法展示更強的推理能力和腳註包含。
令人振奮的成果與未來展望
我們的RIG和RAG初步測試結果良好。我們的模型在處理數字時展現出更高的準確性,這意味著研究、決策或僅出於好奇心使用這些模型的人將遇到更少的幻覺。你可以在我們的研究論文中查看這些結果。
RAG查詢與回答的示意圖。支持真實統計數據以表格形式從Data Commons提供。*為簡潔起見,僅顯示部分回答。
我們不會就此止步。我們全力以赴改進這些方法,擴大努力規模,並進行更多測試。最終,我們將把這些改進應用於Gemma和Gemini模型,從有限訪問階段開始。
通過分享我們的研究並開放這個新的Gemma模型變體,我們希望廣泛推廣基於Data Commons的技術。使LLMs更可靠和可信對於將其轉化為每個人的重要工具至關重要,幫助構建一個AI提供準確資訊、支持明智選擇並深化我們對世界理解的未來。
研究人員和開發者可立即使用我們的RIG和RAG快速入門筆記本開始體驗DataGemma。要深入了解Data Commons與Gemma如何協作,請查看我們的Research post。
相關文章
WordPress.com 現已允許 AI 代理程式撰寫並發布文章,還有更多功能
廣受歡迎的網站託管與發佈平台 WordPress.com 現正積極導入 AI 代理程式——此舉可能重塑網路的樣貌與使用體驗。該公司於週五宣布,將允許 AI 代理程式在客戶網站上起草、編輯及發佈內容,同時也能管理留言、更新與修正元資料,並透過標籤和分類來整理內容。所有這些操作皆透過一個介面進行控制,網站擁有者只需使用自然語言指令說明其需求即可。憑藉這些新功能,網站幾乎可以完全由人工指導的 AI 代理
Kakao Mobility 概述了針對實體人工智慧的第 4 級自動駕駛路線圖
Kakao Mobility 計畫內部開發第 4 級自動駕駛技術,作為其實體人工智慧策略的一環。在首爾COEX舉行的2026年世界資訊科技展(World IT Show)會議上,Kakao Mobility副總裁兼實體AI部門負責人金鎮奎(Kim Jin-kyu)發表了該發展藍圖。他的演講聚焦於實體AI時代以移動平台為核心的自動駕駛服務。據韓聯社報導,這場名為「超越構想,付諸行動:AI 推動現
巴里·迪勒:隨著通用人工智慧(AGI)日益臨近,對山姆·奧特曼的信任已無關緊要
儘管近期有報導指出相反的看法,但億萬富翁媒體大亨巴里·迪勒並不認為 OpenAI 執行長山姆·奧特曼不可信。迪勒本週在《華爾街日報》的「萬物未來」會議上發言時,為奧特曼辯護;奧特曼此前曾遭到部分前同事和董事會成員指控,指稱他偶爾會採取操縱和欺騙手段。身為奧特曼好友的迪勒,當時正回應一個關於人們是否應信任奧特曼、以確保人工智慧造福人類的問題。具體而言,提問者探討了被稱為「通用人工智慧」(AGI)的理
相關專題推薦
評論 (42)
0/500
Interesting approach! Using real-world data to ground the model seems like a practical step beyond just scaling parameters. Hope it doesn't just trade hallucinations for boring, overly-cautious outputs though. The 'Gemma' naming trend continues! 🤔
Finally! A real solution to AI hallucinations? DataGemma sounds promising, but I'm honestly a bit skeptical. 🤔 How do they ensure the "real-world data" isn't biased itself? Would love to see a breakdown of their methodology compared to other approaches like Retrieval-Augmented Generation.
Me pregunto si DataGemma realmente podrá resolver el problema de las alucinaciones en IA. Parece prometedor, pero ya hemos visto muchas soluciones 'milagrosas' que luego no cumplen. Ojalá esta vez sea diferente, porque los errores en los modelos actuales pueden ser bastante graves 😅
This article on DataGemma is super intriguing! It's wild how LLMs can churn out so much but still trip up on facts sometimes. 😅 Makes me wonder if grounding them in real-world data could finally make AI as reliable as we hope!

大型語言模型(LLMs)是當今AI突破的核心,能夠篩選海量文本數據集,生成摘要、激發創意,甚至撰寫程式碼。然而,儘管其能力強大,這些模型有時會提供完全錯誤的資訊,這一問題被稱為「幻覺」。這是生成式AI世界中的一大障礙。
我們很高興分享一些前沿研究,這些研究正面解決此問題,旨在通過將LLMs與現實世界的統計數據結合,減少幻覺。我們也興奮地介紹DataGemma,這是首個將LLMs與Google的Data Commons豐富現實數據連結的開放模型。
Data Commons:可信數據的寶庫
Data Commons就像一個不斷擴展的公共數據巨型圖書館,擁有超過2400億個數據點,涵蓋從健康到經濟的各種主題。它從聯合國、世界衛生組織、疾病控制中心和人口普查局等可靠性來源收集這些資訊。通過將這些數據集整合成單一、強大的工具集和AI模型,Data Commons幫助政策制定者、研究人員和組織獲得所需的精確洞察。
想像一個龐大的數據庫,你可以用簡單的英文提問,例如哪些非洲國家電力普及率增長最快,或美國各郡的收入與糖尿病有何關聯。這就是Data Commons的魅力。
Data Commons如何幫助對抗幻覺
隨著越來越多的人轉向生成式AI,我們致力於通過將Data Commons融入我們的輕量級頂尖開放模型家族Gemma,使這些體驗更加扎實。這些DataGemma模型現已開放供研究人員和開發者使用。
DataGemma通過利用Data Commons的知識,提升了Gemma的能力,使用兩種方法來提高LLMs的準確性和推理能力:
RIG(檢索交錯生成)通過主動對照Data Commons的數據檢查事實,增強了我們的Gemma 2模型。當你向DataGemma提問時,它會從Data Commons中搜尋統計數據,提供堅實的答案。雖然RIG不是新概念,但我們在DataGemma中使用它的方式相當特別。
範例查詢:「全球可再生能源使用量增加嗎?」應用DataGemma RIG方法利用Data Commons(DC)提供權威數據。 RAG(檢索增強生成)讓語言模型提取超出其訓練範圍的額外資訊,使回答更豐富、更準確。透過DataGemma,我們利用Gemini 1.5 Pro的長上下文窗口,在模型生成回答前從Data Commons獲取相關數據,減少幻覺。
範例查詢:「全球可再生能源使用量增加嗎?」應用DataGemma RAG方法展示更強的推理能力和腳註包含。
令人振奮的成果與未來展望
我們的RIG和RAG初步測試結果良好。我們的模型在處理數字時展現出更高的準確性,這意味著研究、決策或僅出於好奇心使用這些模型的人將遇到更少的幻覺。你可以在我們的研究論文中查看這些結果。
通過分享我們的研究並開放這個新的Gemma模型變體,我們希望廣泛推廣基於Data Commons的技術。使LLMs更可靠和可信對於將其轉化為每個人的重要工具至關重要,幫助構建一個AI提供準確資訊、支持明智選擇並深化我們對世界理解的未來。
研究人員和開發者可立即使用我們的RIG和RAG快速入門筆記本開始體驗DataGemma。要深入了解Data Commons與Gemma如何協作,請查看我們的Research post。
WordPress.com 現已允許 AI 代理程式撰寫並發布文章,還有更多功能
廣受歡迎的網站託管與發佈平台 WordPress.com 現正積極導入 AI 代理程式——此舉可能重塑網路的樣貌與使用體驗。該公司於週五宣布,將允許 AI 代理程式在客戶網站上起草、編輯及發佈內容,同時也能管理留言、更新與修正元資料,並透過標籤和分類來整理內容。所有這些操作皆透過一個介面進行控制,網站擁有者只需使用自然語言指令說明其需求即可。憑藉這些新功能,網站幾乎可以完全由人工指導的 AI 代理
巴里·迪勒:隨著通用人工智慧(AGI)日益臨近,對山姆·奧特曼的信任已無關緊要
儘管近期有報導指出相反的看法,但億萬富翁媒體大亨巴里·迪勒並不認為 OpenAI 執行長山姆·奧特曼不可信。迪勒本週在《華爾街日報》的「萬物未來」會議上發言時,為奧特曼辯護;奧特曼此前曾遭到部分前同事和董事會成員指控,指稱他偶爾會採取操縱和欺騙手段。身為奧特曼好友的迪勒,當時正回應一個關於人們是否應信任奧特曼、以確保人工智慧造福人類的問題。具體而言,提問者探討了被稱為「通用人工智慧」(AGI)的理
Interesting approach! Using real-world data to ground the model seems like a practical step beyond just scaling parameters. Hope it doesn't just trade hallucinations for boring, overly-cautious outputs though. The 'Gemma' naming trend continues! 🤔
Finally! A real solution to AI hallucinations? DataGemma sounds promising, but I'm honestly a bit skeptical. 🤔 How do they ensure the "real-world data" isn't biased itself? Would love to see a breakdown of their methodology compared to other approaches like Retrieval-Augmented Generation.
Me pregunto si DataGemma realmente podrá resolver el problema de las alucinaciones en IA. Parece prometedor, pero ya hemos visto muchas soluciones 'milagrosas' que luego no cumplen. Ojalá esta vez sea diferente, porque los errores en los modelos actuales pueden ser bastante graves 😅
This article on DataGemma is super intriguing! It's wild how LLMs can churn out so much but still trip up on facts sometimes. 😅 Makes me wonder if grounding them in real-world data could finally make AI as reliable as we hope!





首頁






