DataGemma aborda as alucinações AI com dados do mundo real

Os grandes modelos de idiomas (LLMs) estão no coração dos avanços da AI de hoje, capazes de examinar através de conjuntos de dados de texto maciços para produzir resumos, desencadear idéias criativas e até escrever código. No entanto, apesar de suas proezas, esses modelos às vezes podem fornecer informações que estão simplesmente erradas, um problema que chamamos de "alucinação". É um grande obstáculo no mundo da IA generativa.
Estamos empolgados em compartilhar algumas pesquisas de ponta que estão enfrentando esse problema de frente, com o objetivo de conter as alucinações ao aterrar LLMs nas estatísticas do mundo real. E estamos entusiasmados em introduzir o DatageMma, os primeiros modelos abertos que vinculam o LLMS a uma riqueza de dados do mundo real dos dados do Google.
Data Commons: um tesouro de dados confiáveis
A Data Commons é como uma biblioteca gigante e sempre crescente de dados públicos, com mais de 240 bilhões de dados sobre tudo, desde a saúde até a economia. Ele extrai essas informações de fontes confiáveis como a ONU, que, CDC e Bureaus. Ao mesclar esses conjuntos de dados em um único e poderoso conjunto de ferramentas e modelos de IA, o Data Commons ajuda os formuladores de políticas, pesquisadores e organizações a obter as idéias precisas de que precisam.
Imagine um vasto banco de dados onde você pode fazer perguntas em inglês simples, como quais países africanos tiveram o maior salto no acesso à eletricidade ou como a renda se refere ao diabetes nos municípios dos EUA. Isso é Data Commons para você.
Como os dados Commons ajudam a combater a alucinação
À medida que mais pessoas se transformam em IA generativa, estamos trabalhando para tornar essas experiências mais fundamentadas ao tecer os dados do Gemma, nossa família de modelos abertos leves e de alto nível. Esses modelos de DataGEMMA estão agora disponíveis para pesquisadores e desenvolvedores mergulharem.
O DataGemma aumenta os recursos da Gemma, explorando o conhecimento do Data Commons, usando dois métodos legais para melhorar a precisão e o raciocínio do LLMS:
A RIG (geração de recuperação de recuperação) amplia nosso modelo Gemma 2, verificando ativamente os fatos contra os dados comuns. Quando você faz uma pergunta a DatageMma, ele caça dados estatísticos do Data Commons para fornecer uma resposta sólida. Embora o RIG não seja uma ideia nova, a maneira como a usamos no DatageMma é bastante especial.
Exemplo de consulta: '' O uso de renováveis aumentou no mundo? '' A aplicação da Metodologia da Rig DatageMma alavanca o Data Commons (DC) para dados autorizados. RAG (geração de recuperação de recuperação) permite que os modelos de idiomas punham informações extras além do que foram treinadas, tornando suas respostas mais ricas e precisas. Com o DataGemma, usamos a longa janela de contexto do Gemini 1.5 Pro para buscar dados relevantes do Data Commons antes que o modelo comece a criar sua resposta, reduzindo as alucinações.
Exemplo de consulta: '' O uso de renováveis aumentou no mundo? '' A aplicação da metodologia RAG de DatageMma mostra maior raciocínio e inclusão de notas de rodapé.
Resultados promissores e o que vem a seguir
Nossos testes iniciais com plataforma e trapo estão com boa aparência. Estamos vendo uma melhor precisão em nossos modelos ao lidar com números, o que significa menos alucinações para as pessoas que usam esses modelos para pesquisa, tomada de decisão ou apenas para satisfazer sua curiosidade. Você pode conferir esses resultados em nosso trabalho de pesquisa.
Ilustração de uma consulta e resposta a trapos. As estatísticas da verdade de apoio à base são referenciadas como tabelas servidas dos dados comuns. *Resposta parcial mostrada para a brevidade. Não estamos parando aqui. Estamos todos em refinar esses métodos, ampliar nossos esforços e colocá -los através do Wringer com mais testes. Eventualmente, lançaremos essas melhorias nos modelos Gemma e Gemini, começando com uma fase de acesso limitado. Ao compartilhar nossa pesquisa e criar essa nova variante do modelo Gemma aberta, esperamos espalhar o uso dessas técnicas baseadas em Data Commons em toda parte. Tornar os LLMs mais confiáveis e confiáveis é crucial para transformá -los em ferramentas essenciais para todos, ajudando a construir um futuro em que a IA oferece às pessoas informações precisas, apoia escolhas informadas e aprofunda nossa compreensão do mundo.
Pesquisadores e desenvolvedores podem entrar diretamente com o DataGemma usando nossos notebooks do QuickStart para Rig e Rag. Para se aprofundar na maneira como os dados Commons e Gemma trabalham juntos, confira nosso post de pesquisa.
Artigo relacionado
Google’s AI Futures Fund may have to tread carefully
Google’s New AI Investment Initiative: A Strategic Shift Amid Regulatory ScrutinyGoogle's recent announcement of an AI Futures Fund marks a bold move in the tech giant's ongoing qu
Oura adds AI-powered glucose tracking and meal logging
Oura Reinforces Its Commitment to Metabolic Health with Two Exciting New FeaturesOura is stepping up its game in the world of metabolic health with two cutting-edge, AI-driven feat
Judge slams lawyers for ‘bogus AI-generated research’
Judge Penalizes Law Firms for Using AI Without DisclosureIn a recent ruling, California Judge Michael Wilner slapped two prominent law firms with a hefty fine of $31,000 for secret
Comentários (30)
0/200
StevenHill
10 de Abril de 2025 à43 08:45:43 GMT
DataGemma's approach to tackling AI hallucinations is impressive! It really helps in filtering out the nonsense from AI outputs. However, sometimes it's a bit too cautious and filters out useful info too. Still, a step in the right direction!
0
RoySmith
11 de Abril de 2025 à27 06:38:27 GMT
DataGemmaのAIの幻覚対策は素晴らしいですね!AIの出力から無意味な情報をフィルタリングするのに役立ちます。ただ、時々過剰に慎重で、有用な情報までフィルタリングしてしまうことがあります。それでも、正しい方向への一歩です!
0
CarlHill
11 de Abril de 2025 à9 06:18:09 GMT
DataGemma의 AI 환각 문제 해결 방식이 인상적이에요! AI 출력에서 nonsense를 걸러내는 데 정말 도움이 됩니다. 하지만 때때로 너무 신중해서 유용한 정보도 걸러내는 경우가 있어요. 그래도 올바른 방향으로 나아가는 한 걸음이죠!
0
JosephGreen
10 de Abril de 2025 à27 19:38:27 GMT
A abordagem da DataGemma para lidar com as alucinações de IA é impressionante! Realmente ajuda a filtrar o absurdo das saídas de IA. No entanto, às vezes é um pouco cautelosa demais e filtra informações úteis também. Ainda assim, um passo na direção certa!
0
LarryMartinez
10 de Abril de 2025 à37 11:04:37 GMT
La forma en que DataGemma aborda las alucinaciones de la IA es impresionante. Realmente ayuda a filtrar la basura de las salidas de la IA. Sin embargo, a veces es un poco demasiado cautelosa y filtra información útil también. Aún así, es un paso en la dirección correcta.
0
RonaldMartinez
11 de Abril de 2025 à29 17:27:29 GMT
DataGemma is a lifesaver when it comes to dealing with AI hallucinations. It really grounds the models with real-world data, which is super helpful for my projects. Sometimes it feels a bit slow, but hey, accuracy over speed any day, right? Definitely a must-have tool!
0
Os grandes modelos de idiomas (LLMs) estão no coração dos avanços da AI de hoje, capazes de examinar através de conjuntos de dados de texto maciços para produzir resumos, desencadear idéias criativas e até escrever código. No entanto, apesar de suas proezas, esses modelos às vezes podem fornecer informações que estão simplesmente erradas, um problema que chamamos de "alucinação". É um grande obstáculo no mundo da IA generativa.
Estamos empolgados em compartilhar algumas pesquisas de ponta que estão enfrentando esse problema de frente, com o objetivo de conter as alucinações ao aterrar LLMs nas estatísticas do mundo real. E estamos entusiasmados em introduzir o DatageMma, os primeiros modelos abertos que vinculam o LLMS a uma riqueza de dados do mundo real dos dados do Google.
Data Commons: um tesouro de dados confiáveis
A Data Commons é como uma biblioteca gigante e sempre crescente de dados públicos, com mais de 240 bilhões de dados sobre tudo, desde a saúde até a economia. Ele extrai essas informações de fontes confiáveis como a ONU, que, CDC e Bureaus. Ao mesclar esses conjuntos de dados em um único e poderoso conjunto de ferramentas e modelos de IA, o Data Commons ajuda os formuladores de políticas, pesquisadores e organizações a obter as idéias precisas de que precisam.
Imagine um vasto banco de dados onde você pode fazer perguntas em inglês simples, como quais países africanos tiveram o maior salto no acesso à eletricidade ou como a renda se refere ao diabetes nos municípios dos EUA. Isso é Data Commons para você.
Como os dados Commons ajudam a combater a alucinação
À medida que mais pessoas se transformam em IA generativa, estamos trabalhando para tornar essas experiências mais fundamentadas ao tecer os dados do Gemma, nossa família de modelos abertos leves e de alto nível. Esses modelos de DataGEMMA estão agora disponíveis para pesquisadores e desenvolvedores mergulharem.
O DataGemma aumenta os recursos da Gemma, explorando o conhecimento do Data Commons, usando dois métodos legais para melhorar a precisão e o raciocínio do LLMS:
A RIG (geração de recuperação de recuperação) amplia nosso modelo Gemma 2, verificando ativamente os fatos contra os dados comuns. Quando você faz uma pergunta a DatageMma, ele caça dados estatísticos do Data Commons para fornecer uma resposta sólida. Embora o RIG não seja uma ideia nova, a maneira como a usamos no DatageMma é bastante especial.
Exemplo de consulta: '' O uso de renováveis aumentou no mundo? '' A aplicação da Metodologia da Rig DatageMma alavanca o Data Commons (DC) para dados autorizados. RAG (geração de recuperação de recuperação) permite que os modelos de idiomas punham informações extras além do que foram treinadas, tornando suas respostas mais ricas e precisas. Com o DataGemma, usamos a longa janela de contexto do Gemini 1.5 Pro para buscar dados relevantes do Data Commons antes que o modelo comece a criar sua resposta, reduzindo as alucinações.
Exemplo de consulta: '' O uso de renováveis aumentou no mundo? '' A aplicação da metodologia RAG de DatageMma mostra maior raciocínio e inclusão de notas de rodapé.
Resultados promissores e o que vem a seguir
Nossos testes iniciais com plataforma e trapo estão com boa aparência. Estamos vendo uma melhor precisão em nossos modelos ao lidar com números, o que significa menos alucinações para as pessoas que usam esses modelos para pesquisa, tomada de decisão ou apenas para satisfazer sua curiosidade. Você pode conferir esses resultados em nosso trabalho de pesquisa.
Ao compartilhar nossa pesquisa e criar essa nova variante do modelo Gemma aberta, esperamos espalhar o uso dessas técnicas baseadas em Data Commons em toda parte. Tornar os LLMs mais confiáveis e confiáveis é crucial para transformá -los em ferramentas essenciais para todos, ajudando a construir um futuro em que a IA oferece às pessoas informações precisas, apoia escolhas informadas e aprofunda nossa compreensão do mundo.
Pesquisadores e desenvolvedores podem entrar diretamente com o DataGemma usando nossos notebooks do QuickStart para Rig e Rag. Para se aprofundar na maneira como os dados Commons e Gemma trabalham juntos, confira nosso post de pesquisa.



DataGemma's approach to tackling AI hallucinations is impressive! It really helps in filtering out the nonsense from AI outputs. However, sometimes it's a bit too cautious and filters out useful info too. Still, a step in the right direction!




DataGemmaのAIの幻覚対策は素晴らしいですね!AIの出力から無意味な情報をフィルタリングするのに役立ちます。ただ、時々過剰に慎重で、有用な情報までフィルタリングしてしまうことがあります。それでも、正しい方向への一歩です!




DataGemma의 AI 환각 문제 해결 방식이 인상적이에요! AI 출력에서 nonsense를 걸러내는 데 정말 도움이 됩니다. 하지만 때때로 너무 신중해서 유용한 정보도 걸러내는 경우가 있어요. 그래도 올바른 방향으로 나아가는 한 걸음이죠!




A abordagem da DataGemma para lidar com as alucinações de IA é impressionante! Realmente ajuda a filtrar o absurdo das saídas de IA. No entanto, às vezes é um pouco cautelosa demais e filtra informações úteis também. Ainda assim, um passo na direção certa!




La forma en que DataGemma aborda las alucinaciones de la IA es impresionante. Realmente ayuda a filtrar la basura de las salidas de la IA. Sin embargo, a veces es un poco demasiado cautelosa y filtra información útil también. Aún así, es un paso en la dirección correcta.




DataGemma is a lifesaver when it comes to dealing with AI hallucinations. It really grounds the models with real-world data, which is super helpful for my projects. Sometimes it feels a bit slow, but hey, accuracy over speed any day, right? Definitely a must-have tool!












