opção
Lar
Notícias
DataGemma aborda as alucinações AI com dados do mundo real

DataGemma aborda as alucinações AI com dados do mundo real

10 de Abril de 2025
147

DataGemma aborda as alucinações AI com dados do mundo real

Modelos de linguagem de grande escala (LLMs) estão no centro dos avanços em IA hoje, capazes de analisar enormes conjuntos de dados de texto para produzir resumos, gerar ideias criativas e até escrever código. No entanto, apesar de sua capacidade, esses modelos podem às vezes fornecer informações simplesmente erradas, um problema que chamamos de "alucinação". É um grande obstáculo no mundo da IA generativa.

Estamos empolgados em compartilhar pesquisas de ponta que abordam essa questão diretamente, visando reduzir alucinações ao ancorar LLMs em estatísticas do mundo real. E estamos entusiasmados em apresentar DataGemma, os primeiros modelos abertos que conectam LLMs a uma riqueza de dados do mundo real do Data Commons do Google.

Data Commons: Um Tesouro de Dados Confiáveis

Data Commons é como uma biblioteca gigante e em constante crescimento de dados públicos, com mais de 240 bilhões de pontos de dados sobre tudo, desde saúde até economia. Ele obtém essas informações de fontes confiáveis como ONU, OMS, CDC e Bureaus de Censo. Ao unir esses conjuntos de dados em uma única ferramenta poderosa e modelos de IA, Data Commons ajuda formuladores de políticas, pesquisadores e organizações a obterem as informações precisas de que precisam.

Imagine um vasto banco de dados onde você pode fazer perguntas em português simples, como quais países africanos tiveram o maior aumento no acesso à eletricidade, ou como a renda se relaciona com diabetes nos condados dos EUA. Isso é o Data Commons para você.

Como o Data Commons Ajuda a Combater Alucinações

À medida que mais pessoas recorrem à IA generativa, estamos trabalhando para tornar essas experiências mais fundamentadas ao integrar Data Commons na Gemma, nossa família de modelos abertos leves e de alta qualidade. Esses modelos DataGemma agora estão disponíveis para pesquisadores e desenvolvedores explorarem.

DataGemma aprimora as capacidades da Gemma ao acessar o conhecimento do Data Commons, usando dois métodos interessantes para melhorar a precisão e o raciocínio dos LLMs:

  1. RIG (Geração Intercalada por Recuperação) melhora nosso modelo Gemma 2 ao verificar ativamente os fatos contra o Data Commons. Quando você faz uma pergunta ao DataGemma, ele busca dados estatísticos do Data Commons para fornecer uma resposta sólida. Embora o RIG não seja uma ideia nova, a forma como o usamos no DataGemma é bastante especial.

    Exemplo de consulta: ''O uso de renováveis aumentou no mundo?'' aplicando a metodologia RIG do DataGemma utiliza o Data Commons (DC) para dados autoritativos.
  2. RAG (Geração Aumentada por Recuperação) permite que modelos de linguagem tragam informações adicionais além do que foram treinados, tornando suas respostas mais ricas e precisas. Com DataGemma, usamos a janela de contexto longa do Gemini 1.5 Pro para buscar dados relevantes do Data Commons antes que o modelo comece a elaborar sua resposta, reduzindo alucinações.

    Exemplo de consulta: ''O uso de renováveis aumentou no mundo?'' aplicando a metodologia RAG do DataGemma demonstra maior raciocínio e inclusão de notas de rodapé.

Resultados Promissores e Próximos Passos

Nossos testes iniciais com RIG e RAG estão promissores. Estamos vendo maior precisão em nossos modelos ao lidar com números, o que significa menos alucinações para pessoas usando esses modelos para pesquisa, tomada de decisão ou apenas para satisfazer sua curiosidade. Você pode conferir esses resultados em nosso artigo de pesquisa.

Ilustração de uma consulta RAG e resposta. Estatísticas de suporte à verdade fundamental são referenciadas como tabelas servidas pelo Data Commons. *Resposta parcial mostrada por brevidade. Não vamos parar por aqui. Estamos totalmente focados em refinar esses métodos, escalar nossos esforços e testá-los rigorosamente. Eventualmente, implementaremos essas melhorias nos modelos Gemma e Gemini, começando com uma fase de acesso limitado.

Ao compartilhar nossa pesquisa e tornar esta nova variante do modelo Gemma aberta, esperamos espalhar o uso dessas técnicas baseadas no Data Commons amplamente. Tornar os LLMs mais confiáveis e fidedignos é crucial para transformá-los em ferramentas essenciais para todos, ajudando a construir um futuro onde a IA fornece informações precisas, apoia escolhas informadas e aprofunda nossa compreensão do mundo.

Pesquisadores e desenvolvedores podem começar imediatamente com o DataGemma usando nossos notebooks de início rápido para RIG e RAG. Para explorar mais a fundo como Data Commons e Gemma trabalham juntos, confira nosso post de pesquisa.

Artigo relacionado
Salesforce Apresenta Companheiros Digitais de IA no Slack para Rivalizar com o Microsoft Copilot Salesforce Apresenta Companheiros Digitais de IA no Slack para Rivalizar com o Microsoft Copilot A Salesforce lançou uma nova estratégia de IA para o local de trabalho, introduzindo “companheiros digitais” especializados integrados às conversas do Slack, revelou a empresa na segunda-feira.A nova
Investimento de US$ 40 bilhões da Oracle em chips Nvidia impulsiona centro de dados de IA no Texas Investimento de US$ 40 bilhões da Oracle em chips Nvidia impulsiona centro de dados de IA no Texas A Oracle planeja investir aproximadamente US$ 40 bilhões em chips Nvidia para alimentar um grande novo centro de dados no Texas, desenvolvido pela OpenAI, conforme relatado pelo Financial Times. Este
Aplicativo Meta AI Introduzirá Nível Premium e Anúncios Aplicativo Meta AI Introduzirá Nível Premium e Anúncios O aplicativo de IA da Meta pode em breve apresentar uma assinatura paga, seguindo o exemplo de concorrentes como OpenAI, Google e Microsoft. Durante uma teleconferência de resultados do primeiro trime
Comentários (37)
0/200
StephenScott
StephenScott 8 de Agosto de 2025 à59 10:00:59 WEST

This article on DataGemma is super intriguing! I love how it dives into fixing AI hallucinations with real-world data. Makes me wonder if we’ll finally get models that don’t spit out random nonsense. 😄 Anyone else excited about this?

ArthurYoung
ArthurYoung 29 de Julho de 2025 à16 13:25:16 WEST

This article on DataGemma is super intriguing! It's wild how LLMs can churn out so much but still trip over facts. Excited to see how real-world data could make AI less of a fibber! 😄

RalphJohnson
RalphJohnson 21 de Abril de 2025 à32 05:26:32 WEST

DataGemmaは本当に助かる!AIの幻覚を現実世界のデータで抑えてくれるから、まるでAIにファクトチェッカーが付いているみたい。もう少し処理が早ければ完璧なんだけど、それでも素晴らしいツールだよね!👍

WillieAnderson
WillieAnderson 17 de Abril de 2025 à42 22:10:42 WEST

DataGemma 정말 도움이 돼! AI의 환각을 현실 세계 데이터로 줄여주니까, 마치 AI에 팩트체커가 있는 것 같아. 처리 속도가 조금 더 빨랐으면 좋겠지만, 그래도 훌륭한 도구야! 👍

JosephGreen
JosephGreen 16 de Abril de 2025 à53 21:14:53 WEST

DataGemma is a lifesaver! It really cuts down on those annoying AI hallucinations by grounding the models in real-world data. It's like having a fact-checker for my AI buddy. Only wish it was a bit faster at processing, but still, it's a solid tool! 👍

LeviKing
LeviKing 13 de Abril de 2025 à31 21:47:31 WEST

DataGemma가 AI의 환각을 해결하기 위한 접근 방식은 정말 멋집니다. 실제 세계의 데이터를 사용하여 AI를 제어하는 것은 훌륭해요. 하지만 정말 문제를 해결하는 건지, 아니면 그저 가리는 건지 궁금해요. 그래도 올바른 방향으로 나아가는 한 걸음이죠. 계속 하세요!

De volta ao topo
OR