DataGemma aborda as alucinações AI com dados do mundo real

Modelos de linguagem de grande escala (LLMs) estão no centro dos avanços em IA hoje, capazes de analisar enormes conjuntos de dados de texto para produzir resumos, gerar ideias criativas e até escrever código. No entanto, apesar de sua capacidade, esses modelos podem às vezes fornecer informações simplesmente erradas, um problema que chamamos de "alucinação". É um grande obstáculo no mundo da IA generativa.
Estamos empolgados em compartilhar pesquisas de ponta que abordam essa questão diretamente, visando reduzir alucinações ao ancorar LLMs em estatísticas do mundo real. E estamos entusiasmados em apresentar DataGemma, os primeiros modelos abertos que conectam LLMs a uma riqueza de dados do mundo real do Data Commons do Google.
Data Commons: Um Tesouro de Dados Confiáveis
Data Commons é como uma biblioteca gigante e em constante crescimento de dados públicos, com mais de 240 bilhões de pontos de dados sobre tudo, desde saúde até economia. Ele obtém essas informações de fontes confiáveis como ONU, OMS, CDC e Bureaus de Censo. Ao unir esses conjuntos de dados em uma única ferramenta poderosa e modelos de IA, Data Commons ajuda formuladores de políticas, pesquisadores e organizações a obterem as informações precisas de que precisam.
Imagine um vasto banco de dados onde você pode fazer perguntas em português simples, como quais países africanos tiveram o maior aumento no acesso à eletricidade, ou como a renda se relaciona com diabetes nos condados dos EUA. Isso é o Data Commons para você.
Como o Data Commons Ajuda a Combater Alucinações
À medida que mais pessoas recorrem à IA generativa, estamos trabalhando para tornar essas experiências mais fundamentadas ao integrar Data Commons na Gemma, nossa família de modelos abertos leves e de alta qualidade. Esses modelos DataGemma agora estão disponíveis para pesquisadores e desenvolvedores explorarem.
DataGemma aprimora as capacidades da Gemma ao acessar o conhecimento do Data Commons, usando dois métodos interessantes para melhorar a precisão e o raciocínio dos LLMs:
RIG (Geração Intercalada por Recuperação) melhora nosso modelo Gemma 2 ao verificar ativamente os fatos contra o Data Commons. Quando você faz uma pergunta ao DataGemma, ele busca dados estatísticos do Data Commons para fornecer uma resposta sólida. Embora o RIG não seja uma ideia nova, a forma como o usamos no DataGemma é bastante especial.
Exemplo de consulta: ''O uso de renováveis aumentou no mundo?'' aplicando a metodologia RIG do DataGemma utiliza o Data Commons (DC) para dados autoritativos.
RAG (Geração Aumentada por Recuperação) permite que modelos de linguagem tragam informações adicionais além do que foram treinados, tornando suas respostas mais ricas e precisas. Com DataGemma, usamos a janela de contexto longa do Gemini 1.5 Pro para buscar dados relevantes do Data Commons antes que o modelo comece a elaborar sua resposta, reduzindo alucinações.
Exemplo de consulta: ''O uso de renováveis aumentou no mundo?'' aplicando a metodologia RAG do DataGemma demonstra maior raciocínio e inclusão de notas de rodapé.
Resultados Promissores e Próximos Passos
Nossos testes iniciais com RIG e RAG estão promissores. Estamos vendo maior precisão em nossos modelos ao lidar com números, o que significa menos alucinações para pessoas usando esses modelos para pesquisa, tomada de decisão ou apenas para satisfazer sua curiosidade. Você pode conferir esses resultados em nosso artigo de pesquisa.
Ilustração de uma consulta RAG e resposta. Estatísticas de suporte à verdade fundamental são referenciadas como tabelas servidas pelo Data Commons. *Resposta parcial mostrada por brevidade.
Não vamos parar por aqui. Estamos totalmente focados em refinar esses métodos, escalar nossos esforços e testá-los rigorosamente. Eventualmente, implementaremos essas melhorias nos modelos Gemma e Gemini, começando com uma fase de acesso limitado.
Ao compartilhar nossa pesquisa e tornar esta nova variante do modelo Gemma aberta, esperamos espalhar o uso dessas técnicas baseadas no Data Commons amplamente. Tornar os LLMs mais confiáveis e fidedignos é crucial para transformá-los em ferramentas essenciais para todos, ajudando a construir um futuro onde a IA fornece informações precisas, apoia escolhas informadas e aprofunda nossa compreensão do mundo.
Pesquisadores e desenvolvedores podem começar imediatamente com o DataGemma usando nossos notebooks de início rápido para RIG e RAG. Para explorar mais a fundo como Data Commons e Gemma trabalham juntos, confira nosso post de pesquisa.
Artigo relacionado
O WordPress.com agora permite que agentes de IA escrevam e publiquem posts, entre outras coisas
O WordPress.com, a popular plataforma de hospedagem e publicação na web, está agora adotando agentes de IA — uma iniciativa que pode transformar a aparência e a experiência da web. A empresa anunciou
A Kakao Mobility apresenta o plano de ação para a direção autônoma de nível 4 com IA física
A Kakao Mobility planeja desenvolver tecnologias de direção autônoma de nível 4 internamente, como parte de sua estratégia de IA física.Na conferência World IT Show 2026, realizada no COEX, em Seul,
Barry Diller: A confiança em Sam Altman é irrelevante à medida que a IA geral se aproxima
Barry Diller, o bilionário magnata da mídia, não acredita que Sam Altman, CEO da OpenAI, seja indigno de confiança, apesar de relatos recentes sugerirem o contrário. Em discurso na conferência “Future
Recomendações de tópicos especiais relacionados
Comentários (42)
Interesting approach! Using real-world data to ground the model seems like a practical step beyond just scaling parameters. Hope it doesn't just trade hallucinations for boring, overly-cautious outputs though. The 'Gemma' naming trend continues! 🤔
Finally! A real solution to AI hallucinations? DataGemma sounds promising, but I'm honestly a bit skeptical. 🤔 How do they ensure the "real-world data" isn't biased itself? Would love to see a breakdown of their methodology compared to other approaches like Retrieval-Augmented Generation.
Me pregunto si DataGemma realmente podrá resolver el problema de las alucinaciones en IA. Parece prometedor, pero ya hemos visto muchas soluciones 'milagrosas' que luego no cumplen. Ojalá esta vez sea diferente, porque los errores en los modelos actuales pueden ser bastante graves 😅
This article on DataGemma is super intriguing! It's wild how LLMs can churn out so much but still trip up on facts sometimes. 😅 Makes me wonder if grounding them in real-world data could finally make AI as reliable as we hope!

Modelos de linguagem de grande escala (LLMs) estão no centro dos avanços em IA hoje, capazes de analisar enormes conjuntos de dados de texto para produzir resumos, gerar ideias criativas e até escrever código. No entanto, apesar de sua capacidade, esses modelos podem às vezes fornecer informações simplesmente erradas, um problema que chamamos de "alucinação". É um grande obstáculo no mundo da IA generativa.
Estamos empolgados em compartilhar pesquisas de ponta que abordam essa questão diretamente, visando reduzir alucinações ao ancorar LLMs em estatísticas do mundo real. E estamos entusiasmados em apresentar DataGemma, os primeiros modelos abertos que conectam LLMs a uma riqueza de dados do mundo real do Data Commons do Google.
Data Commons: Um Tesouro de Dados Confiáveis
Data Commons é como uma biblioteca gigante e em constante crescimento de dados públicos, com mais de 240 bilhões de pontos de dados sobre tudo, desde saúde até economia. Ele obtém essas informações de fontes confiáveis como ONU, OMS, CDC e Bureaus de Censo. Ao unir esses conjuntos de dados em uma única ferramenta poderosa e modelos de IA, Data Commons ajuda formuladores de políticas, pesquisadores e organizações a obterem as informações precisas de que precisam.
Imagine um vasto banco de dados onde você pode fazer perguntas em português simples, como quais países africanos tiveram o maior aumento no acesso à eletricidade, ou como a renda se relaciona com diabetes nos condados dos EUA. Isso é o Data Commons para você.
Como o Data Commons Ajuda a Combater Alucinações
À medida que mais pessoas recorrem à IA generativa, estamos trabalhando para tornar essas experiências mais fundamentadas ao integrar Data Commons na Gemma, nossa família de modelos abertos leves e de alta qualidade. Esses modelos DataGemma agora estão disponíveis para pesquisadores e desenvolvedores explorarem.
DataGemma aprimora as capacidades da Gemma ao acessar o conhecimento do Data Commons, usando dois métodos interessantes para melhorar a precisão e o raciocínio dos LLMs:
RIG (Geração Intercalada por Recuperação) melhora nosso modelo Gemma 2 ao verificar ativamente os fatos contra o Data Commons. Quando você faz uma pergunta ao DataGemma, ele busca dados estatísticos do Data Commons para fornecer uma resposta sólida. Embora o RIG não seja uma ideia nova, a forma como o usamos no DataGemma é bastante especial.
Exemplo de consulta: ''O uso de renováveis aumentou no mundo?'' aplicando a metodologia RIG do DataGemma utiliza o Data Commons (DC) para dados autoritativos. RAG (Geração Aumentada por Recuperação) permite que modelos de linguagem tragam informações adicionais além do que foram treinados, tornando suas respostas mais ricas e precisas. Com DataGemma, usamos a janela de contexto longa do Gemini 1.5 Pro para buscar dados relevantes do Data Commons antes que o modelo comece a elaborar sua resposta, reduzindo alucinações.
Exemplo de consulta: ''O uso de renováveis aumentou no mundo?'' aplicando a metodologia RAG do DataGemma demonstra maior raciocínio e inclusão de notas de rodapé.
Resultados Promissores e Próximos Passos
Nossos testes iniciais com RIG e RAG estão promissores. Estamos vendo maior precisão em nossos modelos ao lidar com números, o que significa menos alucinações para pessoas usando esses modelos para pesquisa, tomada de decisão ou apenas para satisfazer sua curiosidade. Você pode conferir esses resultados em nosso artigo de pesquisa.
Ao compartilhar nossa pesquisa e tornar esta nova variante do modelo Gemma aberta, esperamos espalhar o uso dessas técnicas baseadas no Data Commons amplamente. Tornar os LLMs mais confiáveis e fidedignos é crucial para transformá-los em ferramentas essenciais para todos, ajudando a construir um futuro onde a IA fornece informações precisas, apoia escolhas informadas e aprofunda nossa compreensão do mundo.
Pesquisadores e desenvolvedores podem começar imediatamente com o DataGemma usando nossos notebooks de início rápido para RIG e RAG. Para explorar mais a fundo como Data Commons e Gemma trabalham juntos, confira nosso post de pesquisa.
O WordPress.com agora permite que agentes de IA escrevam e publiquem posts, entre outras coisas
O WordPress.com, a popular plataforma de hospedagem e publicação na web, está agora adotando agentes de IA — uma iniciativa que pode transformar a aparência e a experiência da web. A empresa anunciou
Barry Diller: A confiança em Sam Altman é irrelevante à medida que a IA geral se aproxima
Barry Diller, o bilionário magnata da mídia, não acredita que Sam Altman, CEO da OpenAI, seja indigno de confiança, apesar de relatos recentes sugerirem o contrário. Em discurso na conferência “Future
Interesting approach! Using real-world data to ground the model seems like a practical step beyond just scaling parameters. Hope it doesn't just trade hallucinations for boring, overly-cautious outputs though. The 'Gemma' naming trend continues! 🤔
Finally! A real solution to AI hallucinations? DataGemma sounds promising, but I'm honestly a bit skeptical. 🤔 How do they ensure the "real-world data" isn't biased itself? Would love to see a breakdown of their methodology compared to other approaches like Retrieval-Augmented Generation.
Me pregunto si DataGemma realmente podrá resolver el problema de las alucinaciones en IA. Parece prometedor, pero ya hemos visto muchas soluciones 'milagrosas' que luego no cumplen. Ojalá esta vez sea diferente, porque los errores en los modelos actuales pueden ser bastante graves 😅
This article on DataGemma is super intriguing! It's wild how LLMs can churn out so much but still trip up on facts sometimes. 😅 Makes me wonder if grounding them in real-world data could finally make AI as reliable as we hope!





Lar






