DataGemma справляется с AI галлюцинаций с реальными данными

Крупные языковые модели (LLMS) лежат в основе современных прорывов AI, способных просеивать огромные наборы данных для создания резюме, зажигать творческие идеи и даже написать код. Тем не менее, несмотря на их мастерство, эти модели могут иногда предоставлять информацию, которая просто неправильно, проблема, которую мы называем «галлюцинацией». Это большое препятствие в мире генеративного ИИ.
Мы рады поделиться некоторыми передовыми исследованиями, которые решают эту проблему в лоб, с целью обуздать галлюцинации, заземляя LLMS в реальной статистике. И мы очень рады ввести DataGemma, первые открытые модели, которые связывают LLM с множеством реальных данных из Google Data Commons.
Data Commons: сокровищница заслуживающих доверия данных
Data Commons похожа на гигантскую, постоянно растущую библиотеку общедоступных данных, имеющая более 240 миллиардов данных на все, от здоровья до экономики. Он вытаскивает эту информацию из надежных источников, таких как ООН, CDC и бюро переписи. Объединяя эти наборы данных в единые мощные модели инструментов и ИИ, Data Commons помогает политикам, исследователям и организациям получить точную информацию, в которой они нуждаются.
Представьте себе обширную базу данных, в которой вы можете задавать вопросы на простом английском языке, например, какие африканские страны увидели самый большой скачок в доступе к электричеству, или как доход связан с диабетом в округах США. Это данные общего для вас.
Как Data Commons помогает бороться с галлюцинацией
По мере того, как все больше людей обращаются к генеративному ИИ, мы работаем над тем, чтобы сделать этот опыт более обоснованным, протекая данные Commons в Gemma, нашу семью легких, первоклассных открытых моделей. Эти модели DataGemma теперь доступны для исследователей и разработчиков, чтобы погрузиться в.
DataGemma повышает возможности Gemma, используя знания Data Commons, используя два классных метода для повышения точности и рассуждения LLM:
RIG (Поизводительное поколение в поисках) усиливает нашу модель Gemma 2, активно проверяя факты против Data Commons. Когда вы задаете DataGemma вопрос, он охотится на статистические данные из Data Commons, чтобы дать вам надежный ответ. Хотя Rig не является новой идеей, то, как мы используем ее в Datagemma, довольно особенный.
Пример запроса: «Увеличен ли использование возобновляемых источников энергии в мире? Rag (Поколение-поиск-аугментирование) позволяет языковым моделям получать дополнительную информацию за пределами того, что они обучались, делая их ответы более богатыми и точными. С помощью DataGemma мы используем длинное окно Gemini 1.5 Pro для получения соответствующих данных из Data Commons до того, как модель начнет создавать свой ответ, сокращая галлюцинации.
Пример запроса: «Увеличен ли использование возобновляемых источников энергии в мире?». Применение методологии Datagemma Rag демонстрирует большие рассуждения и включение сносков.
Многообещающие результаты и что будет дальше
Наши ранние тесты с буровой и тряпкой выглядят хорошо. Мы видим лучшую точность в наших моделях при работе с числами, что означает меньше галлюцинаций для людей, использующих эти модели для исследований, принятия решений или просто для удовлетворения их любопытства. Вы можете проверить эти результаты в нашей исследовательской работе.
Иллюстрация тряпичного запроса и ответа. Статистика на поддержку основной истины упоминается как таблицы, обслуживаемые Data Commons. *Частичный ответ показан для краткости. Мы здесь не останавливаемся. Мы все занимаемся совершенствованием этих методов, расширяем наши усилия и проведу их через уставку с большими тестами. В конце концов, мы рассмотрим эти улучшения как в моделях Gemma, так и Gemini, начиная с фазы с ограниченным доступом. Поделившись нашим исследованием и сделав этот новый вариант модели Gemma Open, мы надеемся распространить использование этих методов, основанных на данных, повсюду. Сделать LLMS более надежными и заслуживающими доверия имеет решающее значение для того, чтобы превратить их в основные инструменты для всех, помогая создать будущее, где ИИ дает людям точную информацию, поддерживает информированный выбор и углубляет наше понимание мира.
Исследователи и разработчики могут прыгнуть прямо с DataGemma, используя наши ноутбуки QuickStart как для Rig, так и для тряпки. Чтобы углубиться в то, как Data Commons и Gemma работают вместе, ознакомьтесь с нашим исследованием.
Связанная статья
Google’s AI Futures Fund may have to tread carefully
Google’s New AI Investment Initiative: A Strategic Shift Amid Regulatory ScrutinyGoogle's recent announcement of an AI Futures Fund marks a bold move in the tech giant's ongoing qu
Oura adds AI-powered glucose tracking and meal logging
Oura Reinforces Its Commitment to Metabolic Health with Two Exciting New FeaturesOura is stepping up its game in the world of metabolic health with two cutting-edge, AI-driven feat
Judge slams lawyers for ‘bogus AI-generated research’
Judge Penalizes Law Firms for Using AI Without DisclosureIn a recent ruling, California Judge Michael Wilner slapped two prominent law firms with a hefty fine of $31,000 for secret
Комментарии (30)
StevenHill
10 апреля 2025 г., 8:45:43 GMT
DataGemma's approach to tackling AI hallucinations is impressive! It really helps in filtering out the nonsense from AI outputs. However, sometimes it's a bit too cautious and filters out useful info too. Still, a step in the right direction!
0
RoySmith
11 апреля 2025 г., 6:38:27 GMT
DataGemmaのAIの幻覚対策は素晴らしいですね!AIの出力から無意味な情報をフィルタリングするのに役立ちます。ただ、時々過剰に慎重で、有用な情報までフィルタリングしてしまうことがあります。それでも、正しい方向への一歩です!
0
CarlHill
11 апреля 2025 г., 6:18:09 GMT
DataGemma의 AI 환각 문제 해결 방식이 인상적이에요! AI 출력에서 nonsense를 걸러내는 데 정말 도움이 됩니다. 하지만 때때로 너무 신중해서 유용한 정보도 걸러내는 경우가 있어요. 그래도 올바른 방향으로 나아가는 한 걸음이죠!
0
JosephGreen
10 апреля 2025 г., 19:38:27 GMT
A abordagem da DataGemma para lidar com as alucinações de IA é impressionante! Realmente ajuda a filtrar o absurdo das saídas de IA. No entanto, às vezes é um pouco cautelosa demais e filtra informações úteis também. Ainda assim, um passo na direção certa!
0
LarryMartinez
10 апреля 2025 г., 11:04:37 GMT
La forma en que DataGemma aborda las alucinaciones de la IA es impresionante. Realmente ayuda a filtrar la basura de las salidas de la IA. Sin embargo, a veces es un poco demasiado cautelosa y filtra información útil también. Aún así, es un paso en la dirección correcta.
0
RonaldMartinez
11 апреля 2025 г., 17:27:29 GMT
DataGemma is a lifesaver when it comes to dealing with AI hallucinations. It really grounds the models with real-world data, which is super helpful for my projects. Sometimes it feels a bit slow, but hey, accuracy over speed any day, right? Definitely a must-have tool!
0
Крупные языковые модели (LLMS) лежат в основе современных прорывов AI, способных просеивать огромные наборы данных для создания резюме, зажигать творческие идеи и даже написать код. Тем не менее, несмотря на их мастерство, эти модели могут иногда предоставлять информацию, которая просто неправильно, проблема, которую мы называем «галлюцинацией». Это большое препятствие в мире генеративного ИИ.
Мы рады поделиться некоторыми передовыми исследованиями, которые решают эту проблему в лоб, с целью обуздать галлюцинации, заземляя LLMS в реальной статистике. И мы очень рады ввести DataGemma, первые открытые модели, которые связывают LLM с множеством реальных данных из Google Data Commons.
Data Commons: сокровищница заслуживающих доверия данных
Data Commons похожа на гигантскую, постоянно растущую библиотеку общедоступных данных, имеющая более 240 миллиардов данных на все, от здоровья до экономики. Он вытаскивает эту информацию из надежных источников, таких как ООН, CDC и бюро переписи. Объединяя эти наборы данных в единые мощные модели инструментов и ИИ, Data Commons помогает политикам, исследователям и организациям получить точную информацию, в которой они нуждаются.
Представьте себе обширную базу данных, в которой вы можете задавать вопросы на простом английском языке, например, какие африканские страны увидели самый большой скачок в доступе к электричеству, или как доход связан с диабетом в округах США. Это данные общего для вас.
Как Data Commons помогает бороться с галлюцинацией
По мере того, как все больше людей обращаются к генеративному ИИ, мы работаем над тем, чтобы сделать этот опыт более обоснованным, протекая данные Commons в Gemma, нашу семью легких, первоклассных открытых моделей. Эти модели DataGemma теперь доступны для исследователей и разработчиков, чтобы погрузиться в.
DataGemma повышает возможности Gemma, используя знания Data Commons, используя два классных метода для повышения точности и рассуждения LLM:
RIG (Поизводительное поколение в поисках) усиливает нашу модель Gemma 2, активно проверяя факты против Data Commons. Когда вы задаете DataGemma вопрос, он охотится на статистические данные из Data Commons, чтобы дать вам надежный ответ. Хотя Rig не является новой идеей, то, как мы используем ее в Datagemma, довольно особенный.
Пример запроса: «Увеличен ли использование возобновляемых источников энергии в мире? Rag (Поколение-поиск-аугментирование) позволяет языковым моделям получать дополнительную информацию за пределами того, что они обучались, делая их ответы более богатыми и точными. С помощью DataGemma мы используем длинное окно Gemini 1.5 Pro для получения соответствующих данных из Data Commons до того, как модель начнет создавать свой ответ, сокращая галлюцинации.
Пример запроса: «Увеличен ли использование возобновляемых источников энергии в мире?». Применение методологии Datagemma Rag демонстрирует большие рассуждения и включение сносков.
Многообещающие результаты и что будет дальше
Наши ранние тесты с буровой и тряпкой выглядят хорошо. Мы видим лучшую точность в наших моделях при работе с числами, что означает меньше галлюцинаций для людей, использующих эти модели для исследований, принятия решений или просто для удовлетворения их любопытства. Вы можете проверить эти результаты в нашей исследовательской работе.
Поделившись нашим исследованием и сделав этот новый вариант модели Gemma Open, мы надеемся распространить использование этих методов, основанных на данных, повсюду. Сделать LLMS более надежными и заслуживающими доверия имеет решающее значение для того, чтобы превратить их в основные инструменты для всех, помогая создать будущее, где ИИ дает людям точную информацию, поддерживает информированный выбор и углубляет наше понимание мира.
Исследователи и разработчики могут прыгнуть прямо с DataGemma, используя наши ноутбуки QuickStart как для Rig, так и для тряпки. Чтобы углубиться в то, как Data Commons и Gemma работают вместе, ознакомьтесь с нашим исследованием.



DataGemma's approach to tackling AI hallucinations is impressive! It really helps in filtering out the nonsense from AI outputs. However, sometimes it's a bit too cautious and filters out useful info too. Still, a step in the right direction!




DataGemmaのAIの幻覚対策は素晴らしいですね!AIの出力から無意味な情報をフィルタリングするのに役立ちます。ただ、時々過剰に慎重で、有用な情報までフィルタリングしてしまうことがあります。それでも、正しい方向への一歩です!




DataGemma의 AI 환각 문제 해결 방식이 인상적이에요! AI 출력에서 nonsense를 걸러내는 데 정말 도움이 됩니다. 하지만 때때로 너무 신중해서 유용한 정보도 걸러내는 경우가 있어요. 그래도 올바른 방향으로 나아가는 한 걸음이죠!




A abordagem da DataGemma para lidar com as alucinações de IA é impressionante! Realmente ajuda a filtrar o absurdo das saídas de IA. No entanto, às vezes é um pouco cautelosa demais e filtra informações úteis também. Ainda assim, um passo na direção certa!




La forma en que DataGemma aborda las alucinaciones de la IA es impresionante. Realmente ayuda a filtrar la basura de las salidas de la IA. Sin embargo, a veces es un poco demasiado cautelosa y filtra información útil también. Aún así, es un paso en la dirección correcta.




DataGemma is a lifesaver when it comes to dealing with AI hallucinations. It really grounds the models with real-world data, which is super helpful for my projects. Sometimes it feels a bit slow, but hey, accuracy over speed any day, right? Definitely a must-have tool!












