Datagemma befasst sich mit AI-Halluzinationen mit realen Daten

Große Sprachmodelle (LLMs) sind das Herzstück aktueller KI-Durchbrüche, fähig, riesige Textdatensätze zu durchforsten, um Zusammenfassungen zu erstellen, kreative Ideen anzuregen und sogar Code zu schreiben. Trotz ihrer Stärke liefern diese Modelle manchmal schlicht falsche Informationen, ein Problem, das wir „Halluzination“ nennen. Das ist ein großes Hindernis in der Welt der generativen KI.
Wir freuen uns, bahnbrechende Forschung zu teilen, die dieses Problem direkt angeht und Halluzinationen durch die Verankerung von LLMs in realen Statistiken eindämmen will. Und wir sind begeistert, DataGemma vorzustellen, die ersten offenen Modelle, die LLMs mit einer Fülle realer Daten aus Googles Data Commons verknüpfen.
Data Commons: Ein Schatz an vertrauenswürdigen Daten
Data Commons ist wie eine riesige, ständig wachsende Bibliothek öffentlicher Daten mit über 240 Milliarden Datenpunkten zu Themen von Gesundheit bis Wirtschaft. Es bezieht diese Informationen aus zuverlässigen Quellen wie UN, WHO, CDC und Volkszählungsbehörden. Durch die Zusammenführung dieser Datensätze in ein einziges, leistungsstarkes Toolset und KI-Modelle hilft Data Commons, Entscheidungsträgern, Forschern und Organisationen, präzise Einblicke zu gewinnen.
Stellen Sie sich eine riesige Datenbank vor, in der Sie Fragen auf einfachem Deutsch stellen können, wie etwa, welche afrikanischen Länder den größten Sprung beim Zugang zu Elektrizität gemacht haben oder wie Einkommen mit Diabetes in US-Bundesstaaten zusammenhängt. Das ist Data Commons.
Wie Data Commons Halluzinationen bekämpft
Da immer mehr Menschen generative KI nutzen, arbeiten wir daran, diese Erlebnisse durch die Integration von Data Commons in Gemma, unsere Familie leichter, erstklassiger offener Modelle, fundierter zu gestalten. Diese DataGemma-Modelle stehen nun Forschern und Entwicklern zur Verfügung.
DataGemma erweitert die Fähigkeiten von Gemma, indem es auf das Wissen von Data Commons zugreift und zwei innovative Methoden nutzt, um die Genauigkeit und das Denken von LLMs zu verbessern:
RIG (Retrieval-Interleaved Generation) verstärkt unser Gemma 2-Modell, indem es Fakten aktiv mit Data Commons abgleicht. Wenn Sie DataGemma eine Frage stellen, durchsucht es statistische Daten von Data Commons, um eine fundierte Antwort zu geben. RIG ist zwar kein neues Konzept, aber die Art, wie wir es in DataGemma einsetzen, ist ziemlich besonders.
Beispielanfrage: „Hat die Nutzung erneuerbarer Energien weltweit zugenommen?“ Die Anwendung der DataGemma RIG-Methodik nutzt Data Commons (DC) für maßgebliche Daten.
RAG (Retrieval-Augmented Generation) ermöglicht Sprachmodellen, zusätzliche Informationen über ihr Training hinaus abzurufen, wodurch ihre Antworten reichhaltiger und präziser werden. Mit DataGemma nutzen wir das lange Kontextfenster von Gemini 1.5 Pro, um relevante Daten aus Data Commons abzurufen, bevor das Modell seine Antwort erstellt, was Halluzinationen reduziert.
Beispielanfrage: „Hat die Nutzung erneuerbarer Energien weltweit zugenommen?“ Die Anwendung der DataGemma RAG-Methodik zeigt verbessertes Denken und die Einbindung von Fußnoten.
Vielversprechende Ergebnisse und nächste Schritte
Unsere ersten Tests mit RIG und RAG sehen vielversprechend aus. Wir sehen eine bessere Genauigkeit in unseren Modellen beim Umgang mit Zahlen, was weniger Halluzinationen für die Nutzer bedeutet, die diese Modelle für Forschung, Entscheidungsfindung oder einfach aus Neugier verwenden. Diese Ergebnisse können Sie in unserem Forschungspapier nachvollziehen.
Illustration einer RAG-Anfrage und -Antwort. Unterstützende Grundwahrheitsstatistiken werden als Tabellen aus Data Commons bereitgestellt. *Teilweise Antwort zur Kürze gezeigt.
Wir hören hier nicht auf. Wir setzen alles daran, diese Methoden zu verfeinern, unsere Bemühungen auszuweiten und sie weiteren Tests zu unterziehen. Schließlich werden wir diese Verbesserungen sowohl für Gemma- als auch für Gemini-Modelle ausrollen, beginnend mit einer Phase eingeschränkten Zugangs.
Durch die Weitergabe unserer Forschung und die Öffnung dieser neuen Gemma-Modellvariante hoffen wir, die Nutzung dieser Data Commons-basierten Techniken weit zu verbreiten. LLMs verlässlicher und vertrauenswürdiger zu machen, ist entscheidend, um sie zu unverzichtbaren Werkzeugen für alle zu machen, die eine Zukunft unterstützen, in der KI präzise Informationen liefert, informierte Entscheidungen fördert und unser Verständnis der Welt vertieft.
Forscher und Entwickler können direkt mit DataGemma loslegen, indem sie unsere Quickstart-Notebooks für RIG und RAG nutzen. Um tiefer in die Zusammenarbeit von Data Commons und Gemma einzutauchen, sehen Sie sich unseren Forschungspost an.
Verwandter Artikel
Salesforce stellt KI-Digitale Teamkollegen in Slack vor, um mit Microsoft Copilot zu konkurrieren
Salesforce hat eine neue KI-Strategie für den Arbeitsplatz gestartet und spezialisierte „digitale Teamkollegen“ in Slack-Konversationen integriert, wie das Unternehmen am Montag bekannt gab.Das neue T
Oracles 40-Mrd.-Nvidia-Chip-Investition stärkt Texas AI-Rechenzentrum
Oracle plant, etwa 40 Milliarden Dollar in Nvidia-Chips zu investieren, um ein großes neues Rechenzentrum in Texas zu betreiben, das von OpenAI entwickelt wird, wie die Financial Times berichtet. Dies
Meta AI App führt Premium-Stufe und Werbung ein
Die AI-App von Meta könnte bald ein kostenpflichtiges Abonnement einführen, ähnlich den Angeboten von Konkurrenten wie OpenAI, Google und Microsoft. Während eines Q1 2025 Earnings Calls skizzierte Met
Kommentare (37)
0/200
StephenScott
8. August 2025 11:00:59 MESZ
This article on DataGemma is super intriguing! I love how it dives into fixing AI hallucinations with real-world data. Makes me wonder if we’ll finally get models that don’t spit out random nonsense. 😄 Anyone else excited about this?
0
ArthurYoung
29. Juli 2025 14:25:16 MESZ
This article on DataGemma is super intriguing! It's wild how LLMs can churn out so much but still trip over facts. Excited to see how real-world data could make AI less of a fibber! 😄
0
RalphJohnson
21. April 2025 06:26:32 MESZ
DataGemmaは本当に助かる!AIの幻覚を現実世界のデータで抑えてくれるから、まるでAIにファクトチェッカーが付いているみたい。もう少し処理が早ければ完璧なんだけど、それでも素晴らしいツールだよね!👍
0
WillieAnderson
17. April 2025 23:10:42 MESZ
DataGemma 정말 도움이 돼! AI의 환각을 현실 세계 데이터로 줄여주니까, 마치 AI에 팩트체커가 있는 것 같아. 처리 속도가 조금 더 빨랐으면 좋겠지만, 그래도 훌륭한 도구야! 👍
0
JosephGreen
16. April 2025 22:14:53 MESZ
DataGemma is a lifesaver! It really cuts down on those annoying AI hallucinations by grounding the models in real-world data. It's like having a fact-checker for my AI buddy. Only wish it was a bit faster at processing, but still, it's a solid tool! 👍
0
LeviKing
13. April 2025 22:47:31 MESZ
DataGemma가 AI의 환각을 해결하기 위한 접근 방식은 정말 멋집니다. 실제 세계의 데이터를 사용하여 AI를 제어하는 것은 훌륭해요. 하지만 정말 문제를 해결하는 건지, 아니면 그저 가리는 건지 궁금해요. 그래도 올바른 방향으로 나아가는 한 걸음이죠. 계속 하세요!
0
Große Sprachmodelle (LLMs) sind das Herzstück aktueller KI-Durchbrüche, fähig, riesige Textdatensätze zu durchforsten, um Zusammenfassungen zu erstellen, kreative Ideen anzuregen und sogar Code zu schreiben. Trotz ihrer Stärke liefern diese Modelle manchmal schlicht falsche Informationen, ein Problem, das wir „Halluzination“ nennen. Das ist ein großes Hindernis in der Welt der generativen KI.
Wir freuen uns, bahnbrechende Forschung zu teilen, die dieses Problem direkt angeht und Halluzinationen durch die Verankerung von LLMs in realen Statistiken eindämmen will. Und wir sind begeistert, DataGemma vorzustellen, die ersten offenen Modelle, die LLMs mit einer Fülle realer Daten aus Googles Data Commons verknüpfen.
Data Commons: Ein Schatz an vertrauenswürdigen Daten
Data Commons ist wie eine riesige, ständig wachsende Bibliothek öffentlicher Daten mit über 240 Milliarden Datenpunkten zu Themen von Gesundheit bis Wirtschaft. Es bezieht diese Informationen aus zuverlässigen Quellen wie UN, WHO, CDC und Volkszählungsbehörden. Durch die Zusammenführung dieser Datensätze in ein einziges, leistungsstarkes Toolset und KI-Modelle hilft Data Commons, Entscheidungsträgern, Forschern und Organisationen, präzise Einblicke zu gewinnen.
Stellen Sie sich eine riesige Datenbank vor, in der Sie Fragen auf einfachem Deutsch stellen können, wie etwa, welche afrikanischen Länder den größten Sprung beim Zugang zu Elektrizität gemacht haben oder wie Einkommen mit Diabetes in US-Bundesstaaten zusammenhängt. Das ist Data Commons.
Wie Data Commons Halluzinationen bekämpft
Da immer mehr Menschen generative KI nutzen, arbeiten wir daran, diese Erlebnisse durch die Integration von Data Commons in Gemma, unsere Familie leichter, erstklassiger offener Modelle, fundierter zu gestalten. Diese DataGemma-Modelle stehen nun Forschern und Entwicklern zur Verfügung.
DataGemma erweitert die Fähigkeiten von Gemma, indem es auf das Wissen von Data Commons zugreift und zwei innovative Methoden nutzt, um die Genauigkeit und das Denken von LLMs zu verbessern:
RIG (Retrieval-Interleaved Generation) verstärkt unser Gemma 2-Modell, indem es Fakten aktiv mit Data Commons abgleicht. Wenn Sie DataGemma eine Frage stellen, durchsucht es statistische Daten von Data Commons, um eine fundierte Antwort zu geben. RIG ist zwar kein neues Konzept, aber die Art, wie wir es in DataGemma einsetzen, ist ziemlich besonders.
Beispielanfrage: „Hat die Nutzung erneuerbarer Energien weltweit zugenommen?“ Die Anwendung der DataGemma RIG-Methodik nutzt Data Commons (DC) für maßgebliche Daten. RAG (Retrieval-Augmented Generation) ermöglicht Sprachmodellen, zusätzliche Informationen über ihr Training hinaus abzurufen, wodurch ihre Antworten reichhaltiger und präziser werden. Mit DataGemma nutzen wir das lange Kontextfenster von Gemini 1.5 Pro, um relevante Daten aus Data Commons abzurufen, bevor das Modell seine Antwort erstellt, was Halluzinationen reduziert.
Beispielanfrage: „Hat die Nutzung erneuerbarer Energien weltweit zugenommen?“ Die Anwendung der DataGemma RAG-Methodik zeigt verbessertes Denken und die Einbindung von Fußnoten.
Vielversprechende Ergebnisse und nächste Schritte
Unsere ersten Tests mit RIG und RAG sehen vielversprechend aus. Wir sehen eine bessere Genauigkeit in unseren Modellen beim Umgang mit Zahlen, was weniger Halluzinationen für die Nutzer bedeutet, die diese Modelle für Forschung, Entscheidungsfindung oder einfach aus Neugier verwenden. Diese Ergebnisse können Sie in unserem Forschungspapier nachvollziehen.
Durch die Weitergabe unserer Forschung und die Öffnung dieser neuen Gemma-Modellvariante hoffen wir, die Nutzung dieser Data Commons-basierten Techniken weit zu verbreiten. LLMs verlässlicher und vertrauenswürdiger zu machen, ist entscheidend, um sie zu unverzichtbaren Werkzeugen für alle zu machen, die eine Zukunft unterstützen, in der KI präzise Informationen liefert, informierte Entscheidungen fördert und unser Verständnis der Welt vertieft.
Forscher und Entwickler können direkt mit DataGemma loslegen, indem sie unsere Quickstart-Notebooks für RIG und RAG nutzen. Um tiefer in die Zusammenarbeit von Data Commons und Gemma einzutauchen, sehen Sie sich unseren Forschungspost an.



This article on DataGemma is super intriguing! I love how it dives into fixing AI hallucinations with real-world data. Makes me wonder if we’ll finally get models that don’t spit out random nonsense. 😄 Anyone else excited about this?




This article on DataGemma is super intriguing! It's wild how LLMs can churn out so much but still trip over facts. Excited to see how real-world data could make AI less of a fibber! 😄




DataGemmaは本当に助かる!AIの幻覚を現実世界のデータで抑えてくれるから、まるでAIにファクトチェッカーが付いているみたい。もう少し処理が早ければ完璧なんだけど、それでも素晴らしいツールだよね!👍




DataGemma 정말 도움이 돼! AI의 환각을 현실 세계 데이터로 줄여주니까, 마치 AI에 팩트체커가 있는 것 같아. 처리 속도가 조금 더 빨랐으면 좋겠지만, 그래도 훌륭한 도구야! 👍




DataGemma is a lifesaver! It really cuts down on those annoying AI hallucinations by grounding the models in real-world data. It's like having a fact-checker for my AI buddy. Only wish it was a bit faster at processing, but still, it's a solid tool! 👍




DataGemma가 AI의 환각을 해결하기 위한 접근 방식은 정말 멋집니다. 실제 세계의 데이터를 사용하여 AI를 제어하는 것은 훌륭해요. 하지만 정말 문제를 해결하는 건지, 아니면 그저 가리는 건지 궁금해요. 그래도 올바른 방향으로 나아가는 한 걸음이죠. 계속 하세요!












