Datagemma aborde les hallucinations AI avec des données réelles

Maison

Nouvelles

10 avril 2025

ChristopherAllen

171

# ai

Datagemma aborde les hallucinations AI avec des données réelles

Les grands modèles de langage (LLMs) sont au cœur des avancées en IA d’aujourd’hui, capables de parcourir d’immenses ensembles de données textuelles pour produire des résumés, stimuler des idées créatives et même écrire du code. Cependant, malgré leurs prouesses, ces modèles peuvent parfois fournir des informations totalement erronées, un problème que nous appelons « hallucination ». C’est un obstacle majeur dans le monde de l’IA générative.

Nous sommes ravis de partager des recherches de pointe qui s’attaquent directement à ce problème, visant à réduire les hallucinations en ancrant les LLMs dans des statistiques du monde réel. Et nous sommes enthousiastes à l’idée de présenter DataGemma, les premiers modèles ouverts qui relient les LLMs à une abondance de données réelles provenant de Data Commons de Google.

Data Commons : un trésor de données fiables

Data Commons est comme une immense bibliothèque de données publiques en constante expansion, avec plus de 240 milliards de points de données sur des sujets allant de la santé à l’économie. Ces informations proviennent de sources fiables comme l’ONU, l’OMS, le CDC et les bureaux de recensement. En fusionnant ces ensembles de données dans un outil puissant et des modèles d’IA, Data Commons aide les décideurs, chercheurs et organisations à obtenir des informations précises dont ils ont besoin.

Imaginez une vaste base de données où vous pouvez poser des questions en français simple, comme quels pays africains ont connu la plus forte augmentation de l’accès à l’électricité, ou comment le revenu est lié au diabète dans les comtés des États-Unis. C’est Data Commons.

Comment Data Commons aide à combattre les hallucinations

Alors que de plus en plus de personnes se tournent vers l’IA générative, nous travaillons à rendre ces expériences plus ancrées en intégrant Data Commons à Gemma, notre famille de modèles ouverts légers et performants. Ces modèles DataGemma sont désormais disponibles pour les chercheurs et développeurs.

DataGemma renforce les capacités de Gemma en exploitant les connaissances de Data Commons, utilisant deux méthodes innovantes pour améliorer la précision et le raisonnement des LLMs :

RIG (Retrieval-Interleaved Generation) améliore notre modèle Gemma 2 en vérifiant activement les faits par rapport à Data Commons. Lorsque vous posez une question à DataGemma, il recherche des données statistiques dans Data Commons pour fournir une réponse solide. Bien que RIG ne soit pas une idée nouvelle, la manière dont nous l’utilisons dans DataGemma est assez unique.
Exemple de requête : « L’utilisation des énergies renouvelables a-t-elle augmenté dans le monde ? » en appliquant la méthodologie RIG de DataGemma, qui exploite Data Commons (DC) pour des données fiables.
RAG (Retrieval-Augmented Generation) permet aux modèles de langage de récupérer des informations supplémentaires au-delà de leur entraînement, rendant leurs réponses plus riches et précises. Avec DataGemma, nous utilisons la longue fenêtre de contexte de Gemini 1.5 Pro pour extraire des données pertinentes de Data Commons avant que le modèle ne commence à formuler sa réponse, réduisant ainsi les hallucinations.
Exemple de requête : « L’utilisation des énergies renouvelables a-t-elle augmenté dans le monde ? » en appliquant la méthodologie RAG de DataGemma, qui démontre un meilleur raisonnement et l’inclusion de notes de bas de page.

Résultats prometteurs et perspectives

Nos premiers tests avec RIG et RAG sont encourageants. Nous constatons une meilleure précision dans nos modèles lorsqu’il s’agit de chiffres, ce qui signifie moins d’hallucinations pour ceux qui utilisent ces modèles pour la recherche, la prise de décision ou simplement pour satisfaire leur curiosité. Vous pouvez consulter ces résultats dans notre article de recherche.

Illustration d’une requête RAG et de sa réponse. Les statistiques de référence sont citées sous forme de tableaux fournis par Data Commons. *Réponse partielle affichée pour des raisons de concision. Nous ne nous arrêtons pas là. Nous continuons à affiner ces méthodes, à intensifier nos efforts et à les soumettre à davantage de tests. À terme, nous déploierons ces améliorations sur les modèles Gemma et Gemini, en commençant par une phase d’accès limité.

En partageant nos recherches et en rendant cette nouvelle variante du modèle Gemma ouverte, nous espérons généraliser l’utilisation de ces techniques basées sur Data Commons. Rendre les LLMs plus fiables et dignes de confiance est crucial pour en faire des outils essentiels pour tous, contribuant à bâtir un avenir où l’IA fournit des informations précises, soutient des choix éclairés et approfondit notre compréhension du monde.

Les chercheurs et développeurs peuvent se lancer directement avec DataGemma en utilisant nos notebooks de démarrage rapide pour RIG et RAG. Pour en savoir plus sur la collaboration entre Data Commons et Gemma, consultez notre article de recherche.

Article connexe

"Dot AI Companion Appounces Closure, Discontinues Personalized Service" (L'application Dot AI Companion annonce sa fermeture et interrompt son service personnalisé) Dot, une application d'IA conçue pour servir d'ami personnel et de confident, va cesser ses activités, selon une annonce faite vendredi par ses développeurs. New Computer, la startup à l'origine de Do

Anthropic résout une affaire de piratage de livres générés par l'IA Anthropic a trouvé une solution à un important litige en matière de droits d'auteur avec des auteurs américains, en acceptant une proposition de règlement de recours collectif qui évite un procès pote

Figma met à la disposition de tous les utilisateurs un outil de création d'applications basé sur l'IA Figma Make, la plateforme de développement innovante de type prompt-to-app dévoilée au début de l'année, est officiellement sortie de la phase bêta et a été déployée pour tous les utilisateurs. Cet ou

commentaires (39)

0/200

Soumettre

WillMitchell

4 octobre 2025 20:30:40 UTC+02:00

Me pregunto si DataGemma realmente podrá resolver el problema de las alucinaciones en IA. Parece prometedor, pero ya hemos visto muchas soluciones 'milagrosas' que luego no cumplen. Ojalá esta vez sea diferente, porque los errores en los modelos actuales pueden ser bastante graves 😅

BillyAdams

25 août 2025 11:47:02 UTC+02:00

This article on DataGemma is super intriguing! It's wild how LLMs can churn out so much but still trip up on facts sometimes. 😅 Makes me wonder if grounding them in real-world data could finally make AI as reliable as we hope!

StephenScott

8 août 2025 11:00:59 UTC+02:00

This article on DataGemma is super intriguing! I love how it dives into fixing AI hallucinations with real-world data. Makes me wonder if we’ll finally get models that don’t spit out random nonsense. 😄 Anyone else excited about this?

ArthurYoung

29 juillet 2025 14:25:16 UTC+02:00

This article on DataGemma is super intriguing! It's wild how LLMs can churn out so much but still trip over facts. Excited to see how real-world data could make AI less of a fibber! 😄

RalphJohnson

21 avril 2025 06:26:32 UTC+02:00

DataGemmaは本当に助かる！AIの幻覚を現実世界のデータで抑えてくれるから、まるでAIにファクトチェッカーが付いているみたい。もう少し処理が早ければ完璧なんだけど、それでも素晴らしいツールだよね！👍

WillieAnderson

17 avril 2025 23:10:42 UTC+02:00

DataGemma 정말 도움이 돼! AI의 환각을 현실 세계 데이터로 줄여주니까, 마치 AI에 팩트체커가 있는 것 같아. 처리 속도가 조금 더 빨랐으면 좋겠지만, 그래도 훌륭한 도구야! 👍

Top nouvelles

Meilleurs Générateurs de Vidéos IA en 2025 : Pika Labs vs Alternatives Gemini 2.5 Pro maintenant illimité et moins cher que Claude, GPT-4O Doublage par IA : Guide ultime pour la création de voix réalistes L'IA du cambium transforme le bois de déchet en bois AI Builder et Power Automate Révolutionnent la Synthèse de Documents OpenAI améliore l'assistant vocal AI pour de meilleurs chats Duolingo Adopte un Système d'Énergie, Remplace les Cœurs Comment vous assurer que vos données sont dignes de confiance pour l'intégration de l'IA Notebooklm se développe à l'échelle mondiale, ajoute des diapositives et une vérification des faits améliorée Les ajustements aux centres de données américains pourraient débloquer 76 GW de nouvelle capacité d'énergie

Plus

En vedette