option
Maison
Nouvelles
Datagemma aborde les hallucinations AI avec des données réelles

Datagemma aborde les hallucinations AI avec des données réelles

10 avril 2025
147

Datagemma aborde les hallucinations AI avec des données réelles

Les grands modèles de langage (LLMs) sont au cœur des avancées en IA d’aujourd’hui, capables de parcourir d’immenses ensembles de données textuelles pour produire des résumés, stimuler des idées créatives et même écrire du code. Cependant, malgré leurs prouesses, ces modèles peuvent parfois fournir des informations totalement erronées, un problème que nous appelons « hallucination ». C’est un obstacle majeur dans le monde de l’IA générative.

Nous sommes ravis de partager des recherches de pointe qui s’attaquent directement à ce problème, visant à réduire les hallucinations en ancrant les LLMs dans des statistiques du monde réel. Et nous sommes enthousiastes à l’idée de présenter DataGemma, les premiers modèles ouverts qui relient les LLMs à une abondance de données réelles provenant de Data Commons de Google.

Data Commons : un trésor de données fiables

Data Commons est comme une immense bibliothèque de données publiques en constante expansion, avec plus de 240 milliards de points de données sur des sujets allant de la santé à l’économie. Ces informations proviennent de sources fiables comme l’ONU, l’OMS, le CDC et les bureaux de recensement. En fusionnant ces ensembles de données dans un outil puissant et des modèles d’IA, Data Commons aide les décideurs, chercheurs et organisations à obtenir des informations précises dont ils ont besoin.

Imaginez une vaste base de données où vous pouvez poser des questions en français simple, comme quels pays africains ont connu la plus forte augmentation de l’accès à l’électricité, ou comment le revenu est lié au diabète dans les comtés des États-Unis. C’est Data Commons.

Comment Data Commons aide à combattre les hallucinations

Alors que de plus en plus de personnes se tournent vers l’IA générative, nous travaillons à rendre ces expériences plus ancrées en intégrant Data Commons à Gemma, notre famille de modèles ouverts légers et performants. Ces modèles DataGemma sont désormais disponibles pour les chercheurs et développeurs.

DataGemma renforce les capacités de Gemma en exploitant les connaissances de Data Commons, utilisant deux méthodes innovantes pour améliorer la précision et le raisonnement des LLMs :

  1. RIG (Retrieval-Interleaved Generation) améliore notre modèle Gemma 2 en vérifiant activement les faits par rapport à Data Commons. Lorsque vous posez une question à DataGemma, il recherche des données statistiques dans Data Commons pour fournir une réponse solide. Bien que RIG ne soit pas une idée nouvelle, la manière dont nous l’utilisons dans DataGemma est assez unique.

    Exemple de requête : « L’utilisation des énergies renouvelables a-t-elle augmenté dans le monde ? » en appliquant la méthodologie RIG de DataGemma, qui exploite Data Commons (DC) pour des données fiables.
  2. RAG (Retrieval-Augmented Generation) permet aux modèles de langage de récupérer des informations supplémentaires au-delà de leur entraînement, rendant leurs réponses plus riches et précises. Avec DataGemma, nous utilisons la longue fenêtre de contexte de Gemini 1.5 Pro pour extraire des données pertinentes de Data Commons avant que le modèle ne commence à formuler sa réponse, réduisant ainsi les hallucinations.

    Exemple de requête : « L’utilisation des énergies renouvelables a-t-elle augmenté dans le monde ? » en appliquant la méthodologie RAG de DataGemma, qui démontre un meilleur raisonnement et l’inclusion de notes de bas de page.

Résultats prometteurs et perspectives

Nos premiers tests avec RIG et RAG sont encourageants. Nous constatons une meilleure précision dans nos modèles lorsqu’il s’agit de chiffres, ce qui signifie moins d’hallucinations pour ceux qui utilisent ces modèles pour la recherche, la prise de décision ou simplement pour satisfaire leur curiosité. Vous pouvez consulter ces résultats dans notre article de recherche.

Illustration d’une requête RAG et de sa réponse. Les statistiques de référence sont citées sous forme de tableaux fournis par Data Commons. *Réponse partielle affichée pour des raisons de concision. Nous ne nous arrêtons pas là. Nous continuons à affiner ces méthodes, à intensifier nos efforts et à les soumettre à davantage de tests. À terme, nous déploierons ces améliorations sur les modèles Gemma et Gemini, en commençant par une phase d’accès limité.

En partageant nos recherches et en rendant cette nouvelle variante du modèle Gemma ouverte, nous espérons généraliser l’utilisation de ces techniques basées sur Data Commons. Rendre les LLMs plus fiables et dignes de confiance est crucial pour en faire des outils essentiels pour tous, contribuant à bâtir un avenir où l’IA fournit des informations précises, soutient des choix éclairés et approfondit notre compréhension du monde.

Les chercheurs et développeurs peuvent se lancer directement avec DataGemma en utilisant nos notebooks de démarrage rapide pour RIG et RAG. Pour en savoir plus sur la collaboration entre Data Commons et Gemma, consultez notre article de recherche.

Article connexe
Salesforce Dévoile des Coéquipiers Numériques IA dans Slack pour Rivaliser avec Microsoft Copilot Salesforce Dévoile des Coéquipiers Numériques IA dans Slack pour Rivaliser avec Microsoft Copilot Le nouvel outil, Agentforce dans Slack, permet aux entreprises de créer et de déployer des agents IA spécifiques à des tâches qui recherchent dans les discussions professionnelles, accèdent aux donnée
Investissement de 40 milliards de dollars d'Oracle dans les puces Nvidia pour renforcer le centre de données IA au Texas Investissement de 40 milliards de dollars d'Oracle dans les puces Nvidia pour renforcer le centre de données IA au Texas Oracle prévoit d'investir environ 40 milliards de dollars dans des puces Nvidia pour alimenter un nouveau centre de données majeur au Texas, développé par OpenAI, selon le Financial Times. Cette trans
Application Meta AI pour introduire un niveau premium et des publicités Application Meta AI pour introduire un niveau premium et des publicités L'application d'IA de Meta pourrait bientôt proposer un abonnement payant, à l'image des offres de concurrents comme OpenAI, Google et Microsoft. Lors d'une conférence sur les résultats du premier tri
commentaires (37)
0/200
StephenScott
StephenScott 8 août 2025 11:00:59 UTC+02:00

This article on DataGemma is super intriguing! I love how it dives into fixing AI hallucinations with real-world data. Makes me wonder if we’ll finally get models that don’t spit out random nonsense. 😄 Anyone else excited about this?

ArthurYoung
ArthurYoung 29 juillet 2025 14:25:16 UTC+02:00

This article on DataGemma is super intriguing! It's wild how LLMs can churn out so much but still trip over facts. Excited to see how real-world data could make AI less of a fibber! 😄

RalphJohnson
RalphJohnson 21 avril 2025 06:26:32 UTC+02:00

DataGemmaは本当に助かる!AIの幻覚を現実世界のデータで抑えてくれるから、まるでAIにファクトチェッカーが付いているみたい。もう少し処理が早ければ完璧なんだけど、それでも素晴らしいツールだよね!👍

WillieAnderson
WillieAnderson 17 avril 2025 23:10:42 UTC+02:00

DataGemma 정말 도움이 돼! AI의 환각을 현실 세계 데이터로 줄여주니까, 마치 AI에 팩트체커가 있는 것 같아. 처리 속도가 조금 더 빨랐으면 좋겠지만, 그래도 훌륭한 도구야! 👍

JosephGreen
JosephGreen 16 avril 2025 22:14:53 UTC+02:00

DataGemma is a lifesaver! It really cuts down on those annoying AI hallucinations by grounding the models in real-world data. It's like having a fact-checker for my AI buddy. Only wish it was a bit faster at processing, but still, it's a solid tool! 👍

LeviKing
LeviKing 13 avril 2025 22:47:31 UTC+02:00

DataGemma가 AI의 환각을 해결하기 위한 접근 방식은 정말 멋집니다. 실제 세계의 데이터를 사용하여 AI를 제어하는 것은 훌륭해요. 하지만 정말 문제를 해결하는 건지, 아니면 그저 가리는 건지 궁금해요. 그래도 올바른 방향으로 나아가는 한 걸음이죠. 계속 하세요!

Retour en haut
OR