Datagemma aborda alucinaciones de IA con datos del mundo real

Los modelos de lenguaje grandes (LLMs) están en el corazón de los avances de la IA actual, capaces de analizar enormes conjuntos de datos de texto para producir resúmenes, generar ideas creativas e incluso escribir código. Sin embargo, a pesar de su destreza, estos modelos a veces entregan información que es simplemente errónea, un problema que llamamos "alucinación". Es un gran obstáculo en el mundo de la IA generativa.
Estamos emocionados de compartir investigaciones de vanguardia que abordan este problema de frente, buscando reducir las alucinaciones al anclar los LLMs en estadísticas del mundo real. Y estamos encantados de presentar DataGemma, los primeros modelos abiertos que conectan LLMs con una gran cantidad de datos del mundo real de Google's Data Commons.
Data Commons: Un Tesoro de Datos Confiables
Data Commons es como una biblioteca gigante y en constante crecimiento de datos públicos, con más de 240 mil millones de puntos de datos sobre todo, desde salud hasta economía. Obtiene esta información de fuentes confiables como la ONU, la OMS, los CDC y las Oficinas de Censos. Al combinar estos conjuntos de datos en una única y poderosa herramienta y modelos de IA, Data Commons ayuda a los responsables de políticas, investigadores y organizaciones a obtener las ideas precisas que necesitan.
Imagina una enorme base de datos donde puedes hacer preguntas en español sencillo, como qué países africanos han experimentado el mayor aumento en el acceso a la electricidad, o cómo se relaciona el ingreso con la diabetes en los condados de EE. UU. Eso es Data Commons.
Cómo Data Commons Ayuda a Combatir las Alucinaciones
A medida que más personas recurren a la IA generativa, estamos trabajando para hacer que estas experiencias sean más sólidas al integrar Data Commons en Gemma, nuestra familia de modelos abiertos ligeros y de alta calidad. Estos modelos DataGemma ahora están disponibles para que investigadores y desarrolladores los exploren.
DataGemma mejora las capacidades de Gemma al aprovechar el conocimiento de Data Commons, utilizando dos métodos interesantes para mejorar la precisión y el razonamiento de los LLMs:
RIG (Generación Intercalada con Recuperación) potencia nuestro modelo Gemma 2 al verificar activamente los hechos contra Data Commons. Cuando le haces una pregunta a DataGemma, busca datos estadísticos de Data Commons para darte una respuesta sólida. Aunque RIG no es una idea nueva, la forma en que lo usamos en DataGemma es bastante especial.
Consulta de ejemplo: "¿Ha aumentado el uso de renovables en el mundo?" aplicando la metodología RIG de DataGemma aprovecha Data Commons (DC) para datos autorizados.
RAG (Generación Aumentada por Recuperación) permite a los modelos de lenguaje incorporar información adicional más allá de lo que han sido entrenados, haciendo sus respuestas más ricas y precisas. Con DataGemma, usamos la ventana de contexto largo de Gemini 1.5 Pro para recuperar datos relevantes de Data Commons antes de que el modelo comience a elaborar su respuesta, reduciendo las alucinaciones.
Consulta de ejemplo: "¿Ha aumentado el uso de renovables en el mundo?" aplicando la metodología RAG de DataGemma muestra un mayor razonamiento e inclusión de notas al pie.
Resultados Prometedores y Qué Sigue
Nuestras primeras pruebas con RIG y RAG son prometedoras. Estamos viendo una mejor precisión en nuestros modelos cuando manejan números, lo que significa menos alucinaciones para quienes usan estos modelos para investigación, toma de decisiones o simplemente para satisfacer su curiosidad. Puedes consultar estos resultados en nuestro artículo de investigación.
Ilustración de una consulta y respuesta RAG. Las estadísticas de verdad fundamentales se referencian como tablas proporcionadas por Data Commons. *Respuesta parcial mostrada por brevedad.
No nos detenemos aquí. Estamos totalmente comprometidos en refinar estos métodos, escalar nuestros esfuerzos y someterlos a más pruebas rigurosas. Eventualmente, implementaremos estas mejoras en los modelos Gemma y Gemini, comenzando con una fase de acceso limitado.
Al compartir nuestra investigación y hacer que esta nueva variante del modelo Gemma sea abierta, esperamos difundir el uso de estas técnicas basadas en Data Commons por todas partes. Hacer que los LLMs sean más confiables y fidedignos es crucial para convertirlos en herramientas esenciales para todos, ayudando a construir un futuro donde la IA proporcione información precisa, apoye decisiones informadas y profundice nuestra comprensión del mundo.
Los investigadores y desarrolladores pueden comenzar de inmediato con DataGemma utilizando nuestros cuadernos de inicio rápido para RIG y RAG. Para profundizar en cómo funcionan juntos Data Commons y Gemma, consulta nuestro post de Investigación.
Artículo relacionado
La IA de Google ya gestiona las llamadas telefónicas por ti
Google ha ampliado a todos los usuarios de EE.UU. su función de llamadas con inteligencia artificial a través de la Búsqueda, lo que permite a los clientes consultar precios y disponibilidad con empre
"Dot AI Companion App anuncia su cierre y suspende el servicio personalizado"
Dot, una aplicación de inteligencia artificial diseñada para funcionar como amigo personal y confidente, dejará de funcionar, según anunciaron el viernes sus desarrolladores. New Computer, la empresa
Anthropic resuelve un caso de piratería de libros generados por inteligencia artificial
Anthropic ha llegado a una resolución en un importante litigio sobre derechos de autor con autores estadounidenses, aceptando una propuesta de acuerdo de demanda colectiva que evita un juicio potencia
comentario (39)
0/200
WillMitchell
4 de octubre de 2025 20:30:40 GMT+02:00
Me pregunto si DataGemma realmente podrá resolver el problema de las alucinaciones en IA. Parece prometedor, pero ya hemos visto muchas soluciones 'milagrosas' que luego no cumplen. Ojalá esta vez sea diferente, porque los errores en los modelos actuales pueden ser bastante graves 😅
0
BillyAdams
25 de agosto de 2025 11:47:02 GMT+02:00
This article on DataGemma is super intriguing! It's wild how LLMs can churn out so much but still trip up on facts sometimes. 😅 Makes me wonder if grounding them in real-world data could finally make AI as reliable as we hope!
0
StephenScott
8 de agosto de 2025 11:00:59 GMT+02:00
This article on DataGemma is super intriguing! I love how it dives into fixing AI hallucinations with real-world data. Makes me wonder if we’ll finally get models that don’t spit out random nonsense. 😄 Anyone else excited about this?
0
ArthurYoung
29 de julio de 2025 14:25:16 GMT+02:00
This article on DataGemma is super intriguing! It's wild how LLMs can churn out so much but still trip over facts. Excited to see how real-world data could make AI less of a fibber! 😄
0
RalphJohnson
21 de abril de 2025 06:26:32 GMT+02:00
DataGemmaは本当に助かる!AIの幻覚を現実世界のデータで抑えてくれるから、まるでAIにファクトチェッカーが付いているみたい。もう少し処理が早ければ完璧なんだけど、それでも素晴らしいツールだよね!👍
0
WillieAnderson
17 de abril de 2025 23:10:42 GMT+02:00
DataGemma 정말 도움이 돼! AI의 환각을 현실 세계 데이터로 줄여주니까, 마치 AI에 팩트체커가 있는 것 같아. 처리 속도가 조금 더 빨랐으면 좋겠지만, 그래도 훌륭한 도구야! 👍
0
Los modelos de lenguaje grandes (LLMs) están en el corazón de los avances de la IA actual, capaces de analizar enormes conjuntos de datos de texto para producir resúmenes, generar ideas creativas e incluso escribir código. Sin embargo, a pesar de su destreza, estos modelos a veces entregan información que es simplemente errónea, un problema que llamamos "alucinación". Es un gran obstáculo en el mundo de la IA generativa.
Estamos emocionados de compartir investigaciones de vanguardia que abordan este problema de frente, buscando reducir las alucinaciones al anclar los LLMs en estadísticas del mundo real. Y estamos encantados de presentar DataGemma, los primeros modelos abiertos que conectan LLMs con una gran cantidad de datos del mundo real de Google's Data Commons.
Data Commons: Un Tesoro de Datos Confiables
Data Commons es como una biblioteca gigante y en constante crecimiento de datos públicos, con más de 240 mil millones de puntos de datos sobre todo, desde salud hasta economía. Obtiene esta información de fuentes confiables como la ONU, la OMS, los CDC y las Oficinas de Censos. Al combinar estos conjuntos de datos en una única y poderosa herramienta y modelos de IA, Data Commons ayuda a los responsables de políticas, investigadores y organizaciones a obtener las ideas precisas que necesitan.
Imagina una enorme base de datos donde puedes hacer preguntas en español sencillo, como qué países africanos han experimentado el mayor aumento en el acceso a la electricidad, o cómo se relaciona el ingreso con la diabetes en los condados de EE. UU. Eso es Data Commons.
Cómo Data Commons Ayuda a Combatir las Alucinaciones
A medida que más personas recurren a la IA generativa, estamos trabajando para hacer que estas experiencias sean más sólidas al integrar Data Commons en Gemma, nuestra familia de modelos abiertos ligeros y de alta calidad. Estos modelos DataGemma ahora están disponibles para que investigadores y desarrolladores los exploren.
DataGemma mejora las capacidades de Gemma al aprovechar el conocimiento de Data Commons, utilizando dos métodos interesantes para mejorar la precisión y el razonamiento de los LLMs:
RIG (Generación Intercalada con Recuperación) potencia nuestro modelo Gemma 2 al verificar activamente los hechos contra Data Commons. Cuando le haces una pregunta a DataGemma, busca datos estadísticos de Data Commons para darte una respuesta sólida. Aunque RIG no es una idea nueva, la forma en que lo usamos en DataGemma es bastante especial.
Consulta de ejemplo: "¿Ha aumentado el uso de renovables en el mundo?" aplicando la metodología RIG de DataGemma aprovecha Data Commons (DC) para datos autorizados. RAG (Generación Aumentada por Recuperación) permite a los modelos de lenguaje incorporar información adicional más allá de lo que han sido entrenados, haciendo sus respuestas más ricas y precisas. Con DataGemma, usamos la ventana de contexto largo de Gemini 1.5 Pro para recuperar datos relevantes de Data Commons antes de que el modelo comience a elaborar su respuesta, reduciendo las alucinaciones.
Consulta de ejemplo: "¿Ha aumentado el uso de renovables en el mundo?" aplicando la metodología RAG de DataGemma muestra un mayor razonamiento e inclusión de notas al pie.
Resultados Prometedores y Qué Sigue
Nuestras primeras pruebas con RIG y RAG son prometedoras. Estamos viendo una mejor precisión en nuestros modelos cuando manejan números, lo que significa menos alucinaciones para quienes usan estos modelos para investigación, toma de decisiones o simplemente para satisfacer su curiosidad. Puedes consultar estos resultados en nuestro artículo de investigación.
Al compartir nuestra investigación y hacer que esta nueva variante del modelo Gemma sea abierta, esperamos difundir el uso de estas técnicas basadas en Data Commons por todas partes. Hacer que los LLMs sean más confiables y fidedignos es crucial para convertirlos en herramientas esenciales para todos, ayudando a construir un futuro donde la IA proporcione información precisa, apoye decisiones informadas y profundice nuestra comprensión del mundo.
Los investigadores y desarrolladores pueden comenzar de inmediato con DataGemma utilizando nuestros cuadernos de inicio rápido para RIG y RAG. Para profundizar en cómo funcionan juntos Data Commons y Gemma, consulta nuestro post de Investigación.



Me pregunto si DataGemma realmente podrá resolver el problema de las alucinaciones en IA. Parece prometedor, pero ya hemos visto muchas soluciones 'milagrosas' que luego no cumplen. Ojalá esta vez sea diferente, porque los errores en los modelos actuales pueden ser bastante graves 😅




This article on DataGemma is super intriguing! It's wild how LLMs can churn out so much but still trip up on facts sometimes. 😅 Makes me wonder if grounding them in real-world data could finally make AI as reliable as we hope!




This article on DataGemma is super intriguing! I love how it dives into fixing AI hallucinations with real-world data. Makes me wonder if we’ll finally get models that don’t spit out random nonsense. 😄 Anyone else excited about this?




This article on DataGemma is super intriguing! It's wild how LLMs can churn out so much but still trip over facts. Excited to see how real-world data could make AI less of a fibber! 😄




DataGemmaは本当に助かる!AIの幻覚を現実世界のデータで抑えてくれるから、まるでAIにファクトチェッカーが付いているみたい。もう少し処理が早ければ完璧なんだけど、それでも素晴らしいツールだよね!👍




DataGemma 정말 도움이 돼! AI의 환각을 현실 세계 데이터로 줄여주니까, 마치 AI에 팩트체커가 있는 것 같아. 처리 속도가 조금 더 빨랐으면 좋겠지만, 그래도 훌륭한 도구야! 👍












