Datagemma aborde les hallucinations AI avec des données réelles

Les modèles de grandes langues (LLM) sont au cœur des percées d'IA d'aujourd'hui, capables de passer au crible des ensembles de données de texte massifs pour produire des résumés, déclencher des idées créatives et même écrire du code. Pourtant, malgré leurs prouesses, ces modèles peuvent parfois fournir des informations qui sont tout simplement fausses, un problème que nous appelons «hallucination». C'est un grand obstacle dans le monde de l'IA générative.
Nous sommes ravis de partager des recherches de pointe qui abordent ce problème de front, visant à limiter les hallucinations en ancrant les LLM dans les statistiques du monde réel. Et nous sommes ravis d'introduire Datagemma, les premiers modèles ouverts qui relient les LLM avec une multitude de données réelles de Data Commons de Google.
Data Commons: un trésor de données dignes de confiance
Data Commons est comme une bibliothèque géante et en pleine croissance des données publiques, avec plus de 240 milliards de points de données sur tout, de la santé à l'économie. Il tire ces informations à partir de sources fiables comme l'ONU, qui, CDC, et les bureaux de recensement. En fusionnant ces ensembles de données dans un seul ensemble d'outils et des modèles d'outils puissants, Data Commons aide les décideurs, les chercheurs et les organisations à obtenir les idées précises dont ils ont besoin.
Imaginez une vaste base de données où vous pouvez poser des questions en anglais simple, comme quels pays africains ont vu le plus grand bond de l'accès à l'électricité, ou comment le revenu est lié au diabète dans les comtés américains. C'est Data Commons pour vous.
Comment les communaux de données aident à lutter contre l'hallucination
Alors que de plus en plus de gens se tournent vers une IA générative, nous travaillons à rendre ces expériences plus fondées sur les communes de données de tissage en Gemma, notre famille de modèles ouverts légers et de premier ordre. Ces modèles de données de données sont désormais disponibles pour que les chercheurs et les développeurs plongent.
Datagemma augmente les capacités de Gemma en appuyant dans les connaissances des Dona Commons, en utilisant deux méthodes intéressantes pour améliorer la précision et le raisonnement des LLMS:
RIG (génération à intervention de récupération) amplifie notre modèle GEMMA 2 en vérifiant activement les faits contre Data Commons. Lorsque vous posez une question de Datagemma, il traque des données statistiques de Data Commons pour vous donner une réponse solide. Bien que Rig ne soit pas une nouvelle idée, la façon dont nous l'utilisons dans Datagemma est assez spéciale.
Exemple de requête: '' L'utilisation des énergies renouvelables a-t-elle augmenté dans le monde? '' L'application de la méthodologie de la plate-forme de données de données exploite les données de données (DC) pour les données faisant autorité. RAG (génération auprès de la récupération) permet aux modèles de langage de tirer des informations supplémentaires au-delà de ce sur quoi ils ont été formés, rendant leurs réponses plus riches et plus précises. Avec Datagemma, nous utilisons la longue fenêtre de contexte de Gemini 1.5 Pro pour récupérer les données pertinentes de Data Commons avant que le modèle ne commence à fabriquer sa réponse, réduisant les hallucinations.
Exemple de requête: '' L'utilisation des énergies renouvelables a-t-elle augmenté dans le monde? '' L'application de la méthodologie de chiffon de données de données présente un raisonnement et une inclusion plus élevés des notes de bas de page.
Résultats prometteurs et quelle est la prochaine étape
Nos premiers tests avec Rig et Rag ont l'air bien. Nous constatons une meilleure précision dans nos modèles lorsque nous traitons des chiffres, ce qui signifie moins d'hallucinations pour les gens qui utilisent ces modèles pour la recherche, la prise de décision ou simplement pour satisfaire leur curiosité. Vous pouvez consulter ces résultats dans notre document de recherche.
Illustration d'une requête et d'une réponse à rag. Les statistiques de la vérité au sol sont référencées comme des tableaux servis à partir de Data Commons. * Réponse partielle indiquée pour la concision. Nous ne nous arrêtons pas ici. Nous sommes tous à affiner ces méthodes, à augmenter nos efforts et à les mettre à l'essoreuse avec plus de tests. Finalement, nous allons déployer ces améliorations aux modèles Gemma et Gemini, en commençant par une phase d'accès limité. En partageant nos recherches et en rendant cette nouvelle variante de modèle GEMMA ouverte, nous espérons diffuser l'utilisation de ces techniques basées sur les communs de données. Rendre les LLM plus fiables et dignes de confiance est crucial pour les transformer en outils essentiels pour tout le monde, aidant à construire un avenir où l'IA donne aux gens des informations exactes, soutient les choix éclairés et approfondit notre compréhension du monde.
Les chercheurs et les développeurs peuvent sauter directement avec Datagemma en utilisant nos ordinateurs portables QuickStart pour la plate-forme et le chiffon. Pour approfondir la façon dont Data Commons et Gemma travaillent ensemble, consultez notre article de recherche.
Article connexe
Google könnte vorsichtig mit seinem KI-Zukunftsfonds vorgehen müssen
Google's neue AI-Investitionsinitiative: Ein strategischer Wendepunkt unter der Regulatorischen AufsichtDie jüngste Ankündigung von Googles AI-Futures-Fonds markiert einen kühnen S
Oura fügt AI-gesteuertes Glukose-Tracking und Mahlzeitenprotokollierung hinzu
Oura verstärkt sein Engagement für metabolische Gesundheit mit zwei spannenden neuen FunktionenOura steigert sein Engagement im Bereich metabolischer Gesundheit mit zwei bahnbreche
Richter kritisiert Anwälte wegen fingierter KI-Forschung
Anwälte werden für die Verwendung von KI ohne Offenlegung bestraftIn einem kürzlichen Beschluss verhängte der kalifornische Richter Michael Wilner über zwei renommierte Anwaltskanz
commentaires (30)
0/200
StevenHill
10 avril 2025 08:45:43 UTC
DataGemma's approach to tackling AI hallucinations is impressive! It really helps in filtering out the nonsense from AI outputs. However, sometimes it's a bit too cautious and filters out useful info too. Still, a step in the right direction!
0
RoySmith
11 avril 2025 06:38:27 UTC
DataGemmaのAIの幻覚対策は素晴らしいですね!AIの出力から無意味な情報をフィルタリングするのに役立ちます。ただ、時々過剰に慎重で、有用な情報までフィルタリングしてしまうことがあります。それでも、正しい方向への一歩です!
0
CarlHill
11 avril 2025 06:18:09 UTC
DataGemma의 AI 환각 문제 해결 방식이 인상적이에요! AI 출력에서 nonsense를 걸러내는 데 정말 도움이 됩니다. 하지만 때때로 너무 신중해서 유용한 정보도 걸러내는 경우가 있어요. 그래도 올바른 방향으로 나아가는 한 걸음이죠!
0
JosephGreen
10 avril 2025 19:38:27 UTC
A abordagem da DataGemma para lidar com as alucinações de IA é impressionante! Realmente ajuda a filtrar o absurdo das saídas de IA. No entanto, às vezes é um pouco cautelosa demais e filtra informações úteis também. Ainda assim, um passo na direção certa!
0
LarryMartinez
10 avril 2025 11:04:37 UTC
La forma en que DataGemma aborda las alucinaciones de la IA es impresionante. Realmente ayuda a filtrar la basura de las salidas de la IA. Sin embargo, a veces es un poco demasiado cautelosa y filtra información útil también. Aún así, es un paso en la dirección correcta.
0
RonaldMartinez
11 avril 2025 17:27:29 UTC
DataGemma is a lifesaver when it comes to dealing with AI hallucinations. It really grounds the models with real-world data, which is super helpful for my projects. Sometimes it feels a bit slow, but hey, accuracy over speed any day, right? Definitely a must-have tool!
0
Les modèles de grandes langues (LLM) sont au cœur des percées d'IA d'aujourd'hui, capables de passer au crible des ensembles de données de texte massifs pour produire des résumés, déclencher des idées créatives et même écrire du code. Pourtant, malgré leurs prouesses, ces modèles peuvent parfois fournir des informations qui sont tout simplement fausses, un problème que nous appelons «hallucination». C'est un grand obstacle dans le monde de l'IA générative.
Nous sommes ravis de partager des recherches de pointe qui abordent ce problème de front, visant à limiter les hallucinations en ancrant les LLM dans les statistiques du monde réel. Et nous sommes ravis d'introduire Datagemma, les premiers modèles ouverts qui relient les LLM avec une multitude de données réelles de Data Commons de Google.
Data Commons: un trésor de données dignes de confiance
Data Commons est comme une bibliothèque géante et en pleine croissance des données publiques, avec plus de 240 milliards de points de données sur tout, de la santé à l'économie. Il tire ces informations à partir de sources fiables comme l'ONU, qui, CDC, et les bureaux de recensement. En fusionnant ces ensembles de données dans un seul ensemble d'outils et des modèles d'outils puissants, Data Commons aide les décideurs, les chercheurs et les organisations à obtenir les idées précises dont ils ont besoin.
Imaginez une vaste base de données où vous pouvez poser des questions en anglais simple, comme quels pays africains ont vu le plus grand bond de l'accès à l'électricité, ou comment le revenu est lié au diabète dans les comtés américains. C'est Data Commons pour vous.
Comment les communaux de données aident à lutter contre l'hallucination
Alors que de plus en plus de gens se tournent vers une IA générative, nous travaillons à rendre ces expériences plus fondées sur les communes de données de tissage en Gemma, notre famille de modèles ouverts légers et de premier ordre. Ces modèles de données de données sont désormais disponibles pour que les chercheurs et les développeurs plongent.
Datagemma augmente les capacités de Gemma en appuyant dans les connaissances des Dona Commons, en utilisant deux méthodes intéressantes pour améliorer la précision et le raisonnement des LLMS:
RIG (génération à intervention de récupération) amplifie notre modèle GEMMA 2 en vérifiant activement les faits contre Data Commons. Lorsque vous posez une question de Datagemma, il traque des données statistiques de Data Commons pour vous donner une réponse solide. Bien que Rig ne soit pas une nouvelle idée, la façon dont nous l'utilisons dans Datagemma est assez spéciale.
Exemple de requête: '' L'utilisation des énergies renouvelables a-t-elle augmenté dans le monde? '' L'application de la méthodologie de la plate-forme de données de données exploite les données de données (DC) pour les données faisant autorité. RAG (génération auprès de la récupération) permet aux modèles de langage de tirer des informations supplémentaires au-delà de ce sur quoi ils ont été formés, rendant leurs réponses plus riches et plus précises. Avec Datagemma, nous utilisons la longue fenêtre de contexte de Gemini 1.5 Pro pour récupérer les données pertinentes de Data Commons avant que le modèle ne commence à fabriquer sa réponse, réduisant les hallucinations.
Exemple de requête: '' L'utilisation des énergies renouvelables a-t-elle augmenté dans le monde? '' L'application de la méthodologie de chiffon de données de données présente un raisonnement et une inclusion plus élevés des notes de bas de page.
Résultats prometteurs et quelle est la prochaine étape
Nos premiers tests avec Rig et Rag ont l'air bien. Nous constatons une meilleure précision dans nos modèles lorsque nous traitons des chiffres, ce qui signifie moins d'hallucinations pour les gens qui utilisent ces modèles pour la recherche, la prise de décision ou simplement pour satisfaire leur curiosité. Vous pouvez consulter ces résultats dans notre document de recherche.
En partageant nos recherches et en rendant cette nouvelle variante de modèle GEMMA ouverte, nous espérons diffuser l'utilisation de ces techniques basées sur les communs de données. Rendre les LLM plus fiables et dignes de confiance est crucial pour les transformer en outils essentiels pour tout le monde, aidant à construire un avenir où l'IA donne aux gens des informations exactes, soutient les choix éclairés et approfondit notre compréhension du monde.
Les chercheurs et les développeurs peuvent sauter directement avec Datagemma en utilisant nos ordinateurs portables QuickStart pour la plate-forme et le chiffon. Pour approfondir la façon dont Data Commons et Gemma travaillent ensemble, consultez notre article de recherche.



DataGemma's approach to tackling AI hallucinations is impressive! It really helps in filtering out the nonsense from AI outputs. However, sometimes it's a bit too cautious and filters out useful info too. Still, a step in the right direction!




DataGemmaのAIの幻覚対策は素晴らしいですね!AIの出力から無意味な情報をフィルタリングするのに役立ちます。ただ、時々過剰に慎重で、有用な情報までフィルタリングしてしまうことがあります。それでも、正しい方向への一歩です!




DataGemma의 AI 환각 문제 해결 방식이 인상적이에요! AI 출력에서 nonsense를 걸러내는 데 정말 도움이 됩니다. 하지만 때때로 너무 신중해서 유용한 정보도 걸러내는 경우가 있어요. 그래도 올바른 방향으로 나아가는 한 걸음이죠!




A abordagem da DataGemma para lidar com as alucinações de IA é impressionante! Realmente ajuda a filtrar o absurdo das saídas de IA. No entanto, às vezes é um pouco cautelosa demais e filtra informações úteis também. Ainda assim, um passo na direção certa!




La forma en que DataGemma aborda las alucinaciones de la IA es impresionante. Realmente ayuda a filtrar la basura de las salidas de la IA. Sin embargo, a veces es un poco demasiado cautelosa y filtra información útil también. Aún así, es un paso en la dirección correcta.




DataGemma is a lifesaver when it comes to dealing with AI hallucinations. It really grounds the models with real-world data, which is super helpful for my projects. Sometimes it feels a bit slow, but hey, accuracy over speed any day, right? Definitely a must-have tool!












