Datagemma aborda alucinaciones de IA con datos del mundo real

Los modelos de idiomas grandes (LLM) están en el corazón de los avances de IA de hoy en día, capaces de examinar los conjuntos de datos de texto masivos para producir resúmenes, desencadenar ideas creativas e incluso escribir código. Sin embargo, a pesar de su destreza, estos modelos a veces pueden entregar información que es simplemente incorrecta, un problema que llamamos "alucinación". Es un gran obstáculo en el mundo de la IA generativa.
Estamos entusiasmados de compartir una investigación de vanguardia que aborde este problema de frente, con el objetivo de frenar las alucinaciones de la base de LLM en estadísticas del mundo real. Y estamos encantados de introducir Datagemma, los primeros modelos abiertos que vinculan LLM con una gran cantidad de datos del mundo real de los datos comunes de Data de Google.
Data Commons: un tesoro de datos confiables
Data Commons es como una biblioteca gigante y cada vez mayor de datos públicos, que cuenta con más de 240 mil millones de puntos de datos sobre todo, desde la salud hasta la economía. Trae esta información de fuentes confiables como la ONU, OMS, CDC y Oficinas del Censo. Al fusionar estos conjuntos de datos en un único y potente conjunto de herramientas y modelos de IA, Data Commons ayuda a los formuladores de políticas, investigadores y organizaciones a obtener las ideas precisas que necesitan.
Imagine una vasta base de datos donde puede hacer preguntas en inglés simple, como qué países africanos han visto el mayor salto en el acceso a la electricidad, o cómo los ingresos se relacionan con la diabetes en los condados de los Estados Unidos. Eso es Data Commons para usted.
Cómo Data Commons ayuda a combatir la alucinación
A medida que más personas recurren a la IA generativa, estamos trabajando para hacer que estas experiencias se sientan más fijas al tejer Data Commons en Gemma, nuestra familia de modelos abiertos livianos y de primer nivel. Estos modelos de datagemma ahora están disponibles para que los investigadores y desarrolladores se sumergan.
Datagemma aumenta las capacidades de Gemma aprovechando el conocimiento de Data Commons, utilizando dos métodos geniales para mejorar la precisión y el razonamiento de los LLM:
RIG (generación de recuperación interfire) AMPS de nuestro modelo Gemma 2 revisando activamente hechos contra Data Commons. Cuando le hace una pregunta a Datagemma, busca datos estadísticos de Data Commons para darle una respuesta sólida. Si bien Rig no es una idea nueva, la forma en que la estamos usando en Datagemma es bastante especial.
Consulta de ejemplo: "¿ha aumentado el uso de renovables en el mundo?", La aplicación de la metodología de la plataforma de datos de datos aprovecha Data Commons (DC) para datos autorizados. El trapo (generación de recuperación de recuperación) permite que los modelos de idiomas introduzcan información adicional más allá de lo que han sido entrenados, haciendo que sus respuestas sean más ricas y precisas. Con Datagemma, utilizamos la larga ventana de contexto de Gemini 1.5 Pro para obtener datos relevantes de Data Commons antes de que el modelo comience a elaborar su respuesta, reduciendo las alucinaciones.
Consulta de ejemplo: "¿ha aumentado el uso de renovables en el mundo?", La aplicación de la metodología de Datagemma Rag muestra un mayor razonamiento e inclusión de notas al pie.
Resultados prometedores y lo que sigue
Nuestras primeras pruebas con plataforma y trapo se ven bien. Estamos viendo una mejor precisión en nuestros modelos cuando se trata de números, lo que significa menos alucinaciones para las personas que usan estos modelos para la investigación, la toma de decisiones o simplemente para satisfacer su curiosidad. Puede consultar estos resultados en nuestro trabajo de investigación.
Ilustración de una consulta y respuesta de trapo. Se hace referencia a las estadísticas de verdad de la tierra de apoyo como tablas servidas de Data Commons. *Respuesta parcial mostrada para la brevedad. No nos detenemos aquí. Todos estamos en refinar estos métodos, ampliando nuestros esfuerzos y poniéndolos a través del escurridor con más pruebas. Finalmente, lanzaremos estas mejoras a los modelos de Gemma y Géminis, comenzando con una fase de acceso limitado. Al compartir nuestra investigación y hacer que esta nueva variante de modelo de Gemma abierta, esperamos difundir el uso de estas técnicas basadas en los comunes de datos. Hacer que LLM sea más confiable y confiable es crucial para convertirlos en herramientas esenciales para todos, ayudando a construir un futuro donde la IA brinde información precisa, apoya las opciones informadas y profundiza nuestra comprensión del mundo.
Los investigadores y desarrolladores pueden entrar directamente con Datagemma utilizando nuestros cuadernos QuickStart para Rig y Rag. Para profundizar en cómo Data Commons y Gemma trabajan juntos, consulte nuestra publicación de investigación.
Artículo relacionado
Google’s AI Futures Fund may have to tread carefully
Google’s New AI Investment Initiative: A Strategic Shift Amid Regulatory ScrutinyGoogle's recent announcement of an AI Futures Fund marks a bold move in the tech giant's ongoing qu
Oura adds AI-powered glucose tracking and meal logging
Oura Reinforces Its Commitment to Metabolic Health with Two Exciting New FeaturesOura is stepping up its game in the world of metabolic health with two cutting-edge, AI-driven feat
Judge slams lawyers for ‘bogus AI-generated research’
Judge Penalizes Law Firms for Using AI Without DisclosureIn a recent ruling, California Judge Michael Wilner slapped two prominent law firms with a hefty fine of $31,000 for secret
comentario (30)
0/200
StevenHill
10 de abril de 2025 08:45:43 GMT
DataGemma's approach to tackling AI hallucinations is impressive! It really helps in filtering out the nonsense from AI outputs. However, sometimes it's a bit too cautious and filters out useful info too. Still, a step in the right direction!
0
RoySmith
11 de abril de 2025 06:38:27 GMT
DataGemmaのAIの幻覚対策は素晴らしいですね!AIの出力から無意味な情報をフィルタリングするのに役立ちます。ただ、時々過剰に慎重で、有用な情報までフィルタリングしてしまうことがあります。それでも、正しい方向への一歩です!
0
CarlHill
11 de abril de 2025 06:18:09 GMT
DataGemma의 AI 환각 문제 해결 방식이 인상적이에요! AI 출력에서 nonsense를 걸러내는 데 정말 도움이 됩니다. 하지만 때때로 너무 신중해서 유용한 정보도 걸러내는 경우가 있어요. 그래도 올바른 방향으로 나아가는 한 걸음이죠!
0
JosephGreen
10 de abril de 2025 19:38:27 GMT
A abordagem da DataGemma para lidar com as alucinações de IA é impressionante! Realmente ajuda a filtrar o absurdo das saídas de IA. No entanto, às vezes é um pouco cautelosa demais e filtra informações úteis também. Ainda assim, um passo na direção certa!
0
LarryMartinez
10 de abril de 2025 11:04:37 GMT
La forma en que DataGemma aborda las alucinaciones de la IA es impresionante. Realmente ayuda a filtrar la basura de las salidas de la IA. Sin embargo, a veces es un poco demasiado cautelosa y filtra información útil también. Aún así, es un paso en la dirección correcta.
0
RonaldMartinez
11 de abril de 2025 17:27:29 GMT
DataGemma is a lifesaver when it comes to dealing with AI hallucinations. It really grounds the models with real-world data, which is super helpful for my projects. Sometimes it feels a bit slow, but hey, accuracy over speed any day, right? Definitely a must-have tool!
0
Los modelos de idiomas grandes (LLM) están en el corazón de los avances de IA de hoy en día, capaces de examinar los conjuntos de datos de texto masivos para producir resúmenes, desencadenar ideas creativas e incluso escribir código. Sin embargo, a pesar de su destreza, estos modelos a veces pueden entregar información que es simplemente incorrecta, un problema que llamamos "alucinación". Es un gran obstáculo en el mundo de la IA generativa.
Estamos entusiasmados de compartir una investigación de vanguardia que aborde este problema de frente, con el objetivo de frenar las alucinaciones de la base de LLM en estadísticas del mundo real. Y estamos encantados de introducir Datagemma, los primeros modelos abiertos que vinculan LLM con una gran cantidad de datos del mundo real de los datos comunes de Data de Google.
Data Commons: un tesoro de datos confiables
Data Commons es como una biblioteca gigante y cada vez mayor de datos públicos, que cuenta con más de 240 mil millones de puntos de datos sobre todo, desde la salud hasta la economía. Trae esta información de fuentes confiables como la ONU, OMS, CDC y Oficinas del Censo. Al fusionar estos conjuntos de datos en un único y potente conjunto de herramientas y modelos de IA, Data Commons ayuda a los formuladores de políticas, investigadores y organizaciones a obtener las ideas precisas que necesitan.
Imagine una vasta base de datos donde puede hacer preguntas en inglés simple, como qué países africanos han visto el mayor salto en el acceso a la electricidad, o cómo los ingresos se relacionan con la diabetes en los condados de los Estados Unidos. Eso es Data Commons para usted.
Cómo Data Commons ayuda a combatir la alucinación
A medida que más personas recurren a la IA generativa, estamos trabajando para hacer que estas experiencias se sientan más fijas al tejer Data Commons en Gemma, nuestra familia de modelos abiertos livianos y de primer nivel. Estos modelos de datagemma ahora están disponibles para que los investigadores y desarrolladores se sumergan.
Datagemma aumenta las capacidades de Gemma aprovechando el conocimiento de Data Commons, utilizando dos métodos geniales para mejorar la precisión y el razonamiento de los LLM:
RIG (generación de recuperación interfire) AMPS de nuestro modelo Gemma 2 revisando activamente hechos contra Data Commons. Cuando le hace una pregunta a Datagemma, busca datos estadísticos de Data Commons para darle una respuesta sólida. Si bien Rig no es una idea nueva, la forma en que la estamos usando en Datagemma es bastante especial.
Consulta de ejemplo: "¿ha aumentado el uso de renovables en el mundo?", La aplicación de la metodología de la plataforma de datos de datos aprovecha Data Commons (DC) para datos autorizados. El trapo (generación de recuperación de recuperación) permite que los modelos de idiomas introduzcan información adicional más allá de lo que han sido entrenados, haciendo que sus respuestas sean más ricas y precisas. Con Datagemma, utilizamos la larga ventana de contexto de Gemini 1.5 Pro para obtener datos relevantes de Data Commons antes de que el modelo comience a elaborar su respuesta, reduciendo las alucinaciones.
Consulta de ejemplo: "¿ha aumentado el uso de renovables en el mundo?", La aplicación de la metodología de Datagemma Rag muestra un mayor razonamiento e inclusión de notas al pie.
Resultados prometedores y lo que sigue
Nuestras primeras pruebas con plataforma y trapo se ven bien. Estamos viendo una mejor precisión en nuestros modelos cuando se trata de números, lo que significa menos alucinaciones para las personas que usan estos modelos para la investigación, la toma de decisiones o simplemente para satisfacer su curiosidad. Puede consultar estos resultados en nuestro trabajo de investigación.
Al compartir nuestra investigación y hacer que esta nueva variante de modelo de Gemma abierta, esperamos difundir el uso de estas técnicas basadas en los comunes de datos. Hacer que LLM sea más confiable y confiable es crucial para convertirlos en herramientas esenciales para todos, ayudando a construir un futuro donde la IA brinde información precisa, apoya las opciones informadas y profundiza nuestra comprensión del mundo.
Los investigadores y desarrolladores pueden entrar directamente con Datagemma utilizando nuestros cuadernos QuickStart para Rig y Rag. Para profundizar en cómo Data Commons y Gemma trabajan juntos, consulte nuestra publicación de investigación.



DataGemma's approach to tackling AI hallucinations is impressive! It really helps in filtering out the nonsense from AI outputs. However, sometimes it's a bit too cautious and filters out useful info too. Still, a step in the right direction!




DataGemmaのAIの幻覚対策は素晴らしいですね!AIの出力から無意味な情報をフィルタリングするのに役立ちます。ただ、時々過剰に慎重で、有用な情報までフィルタリングしてしまうことがあります。それでも、正しい方向への一歩です!




DataGemma의 AI 환각 문제 해결 방식이 인상적이에요! AI 출력에서 nonsense를 걸러내는 데 정말 도움이 됩니다. 하지만 때때로 너무 신중해서 유용한 정보도 걸러내는 경우가 있어요. 그래도 올바른 방향으로 나아가는 한 걸음이죠!




A abordagem da DataGemma para lidar com as alucinações de IA é impressionante! Realmente ajuda a filtrar o absurdo das saídas de IA. No entanto, às vezes é um pouco cautelosa demais e filtra informações úteis também. Ainda assim, um passo na direção certa!




La forma en que DataGemma aborda las alucinaciones de la IA es impresionante. Realmente ayuda a filtrar la basura de las salidas de la IA. Sin embargo, a veces es un poco demasiado cautelosa y filtra información útil también. Aún así, es un paso en la dirección correcta.




DataGemma is a lifesaver when it comes to dealing with AI hallucinations. It really grounds the models with real-world data, which is super helpful for my projects. Sometimes it feels a bit slow, but hey, accuracy over speed any day, right? Definitely a must-have tool!












