DataGemma справляется с AI галлюцинаций с реальными данными

Дом

Новости

10 апреля 2025 г.

ChristopherAllen

237

# ai

DataGemma справляется с AI галлюцинаций с реальными данными

Большие языковые модели (LLMs) лежат в основе современных прорывов в области ИИ, способны просеивать огромные текстовые датасеты для создания кратких выводов, генерации креативных идей и даже написания кода. Однако, несмотря на их мощь, эти модели иногда предоставляют неверную информацию, проблему, которую мы называем "галлюцинацией". Это серьезное препятствие в мире генеративного ИИ.

Мы рады поделиться передовыми исследованиями, которые решают эту проблему напрямую, стремясь сократить галлюцинации, основывая LLMs на реальных статистических данных. И мы с восторгом представляем DataGemma, первые открытые модели, которые связывают LLMs с обширными данными реального мира из Data Commons от Google.

Data Commons: Сокровищница надежных данных

Data Commons — это как огромная, постоянно растущая библиотека общедоступных данных, содержащая более 240 миллиардов точек данных по всему, от здравоохранения до экономики. Она собирает эту информацию из надежных источников, таких как ООН, ВОЗ, CDC и Бюро переписей. Объединяя эти датасеты в единый мощный инструментарий и модели ИИ, Data Commons помогает политикам, исследователям и организациям получать точные инсайты, которые им нужны.

Представьте себе обширную базу данных, где вы можете задавать вопросы на простом английском, например, какие африканские страны показали наибольший рост доступа к электричеству или как доход связан с диабетом в округах США. Это и есть Data Commons.

Как Data Commons помогает бороться с галлюцинациями

Поскольку всё больше людей обращаются к генеративному ИИ, мы работаем над тем, чтобы сделать эти взаимодействия более обоснованными, интегрируя Data Commons в Gemma, наше семейство легковесных, высококлассных открытых моделей. Эти модели DataGemma теперь доступны для исследователей и разработчиков.

DataGemma расширяет возможности Gemma, используя знания Data Commons с помощью двух интересных методов для повышения точности и логичности LLMs:

RIG (Retrieval-Interleaved Generation) усиливает нашу модель Gemma 2, активно проверяя факты с помощью Data Commons. Когда вы задаёте DataGemma вопрос, она ищет статистические данные в Data Commons, чтобы дать вам надёжный ответ. Хотя RIG не новая идея, то, как мы используем её в DataGemma, довольно уникально.
Пример запроса: ''Увеличилось ли использование возобновляемых источников энергии в мире?'' применение методологии DataGemma RIG использует Data Commons (DC) для авторитетных данных.
RAG (Retrieval-Augmented Generation) позволяет языковым моделям получать дополнительную информацию сверх того, на чём они были обучены, делая их ответы более богатыми и точными. С DataGemma мы используем длинное контекстное окно Gemini 1.5 Pro для получения релевантных данных из Data Commons перед тем, как модель начнёт формировать ответ, сокращая галлюцинации.
Пример запроса: ''Увеличилось ли использование возобновляемых источников энергии в мире?'' применение методологии DataGemma RAG демонстрирует улучшенную логику и включение сносок.

Многообещающие результаты и что дальше

Наши ранние тесты с RIG и RAG выглядят многообещающе. Мы видим улучшение точности наших моделей при работе с числами, что означает меньше галлюцинаций для тех, кто использует эти модели для исследований, принятия решений или просто из любопытства. Вы можете ознакомиться с этими результатами в нашей исследовательской статье.

Иллюстрация запроса и ответа RAG. Поддерживающие достоверные статистические данные представлены в виде таблиц из Data Commons. *Частичный ответ показан для краткости. Мы не останавливаемся на этом. Мы полностью сосредоточены на совершенствовании этих методов, масштабировании наших усилий и проведении дополнительных тестов. В конечном итоге мы внедрим эти улучшения в модели Gemma и Gemini, начиная с фазы ограниченного доступа.

Делясь нашими исследованиями и делая эту новую вариацию модели Gemma открытой, мы надеемся широко распространить использование техник, основанных на Data Commons. Повышение надёжности и достоверности LLMs критически важно для превращения их в незаменимые инструменты для всех, помогая строить будущее, где ИИ предоставляет точную информацию, поддерживает осознанные решения и углубляет наше понимание мира.

Исследователи и разработчики могут сразу начать работу с DataGemma, используя наши ноутбуки быстрого старта для RIG и RAG. Чтобы глубже изучить, как Data Commons и Gemma работают вместе, ознакомьтесь с нашим исследовательским постом.

Связанная статья

WordPress.com теперь позволяет ИИ-ботам создавать и публиковать посты, а также выполнять другие задачи WordPress.com, популярная платформа для веб-хостинга и публикации контента, теперь внедряет ИИ-агентов — шаг, который может кардинально изменить облик и функциональность Интернета. В пятницу компания

Kakao Mobility представляет план развития автономного вождения 4-го уровня с использованием физического ИИ Компания Kakao Mobility планирует самостоятельно разрабатывать технологии автономного вождения 4-го уровня в рамках своей стратегии «физического ИИ».На конференции World IT Show 2026, прошедшей в сеу

Барри Диллер: доверие к Сэму Альтману теряет значение по мере приближения эры общей искусственной интеллигенции Миллиардер и медиа-магнат Барри Диллер не считает генерального директора OpenAI Сэма Альтмана недостойным доверия, несмотря на недавние сообщения, свидетельствующие об обратном. Выступая на этой недел

Рекомендации по связанным специальным темам

Бизнес

Лучшие приложения для учета расходов на базе ИИ: сканируйте чеки и автоматически классифицируйте корпоративные расходы

Лучшие программы для учета расходов с ИИ 2026 года: самые популярные инструменты для сканирования чеков и автоматической классификации корпоративных расходов. Откройте для себя мощные, революционные решения для удобного управления расходами, точного финансового мониторинга и оптимизации соблюдения нормативных требований. Наш тщательно составленный и еженедельно обновляемый обзор бесплатных и платных вариантов поможет вам найти идеальный вариант. Воспользуйтесь преимуществами ИИ с помощью рекомендаций экспертов XIX.AI.

10 инструментов

xix.ai

Бизнес

Лучшие инструменты для подбора персонала с помощью ИИ: отбор резюме и автоматизация планирования собеседований с кандидатами

Откройте для себя 20 лучших инструментов для рекрутинга на базе ИИ 2026 года на сайте XIX.AI. В нашем тщательно составленном списке представлены мощные, революционные решения для отбора резюме и автоматизации планирования собеседований с кандидатами. Сравните бесплатные и платные варианты с помощью реальных тестов и еженедельно обновляемого рейтинга. Найдите своего идеального помощника по подбору персонала и оптимизируйте процесс рекрутинга уже сегодня!

10 инструментов

xix.ai

Производительность

Персональные тренеры по благополучию и концентрации на базе ИИ: борьба с выгоранием и повышение уровня умственной энергии

Откройте для себя лучших в 2026 году ИИ-тренеров по личному благополучию и концентрации внимания на сайте XIX.AI. В нашем тщательно составленном рейтинге представлены высокооцененные, революционные инструменты для борьбы с выгоранием и повышения умственной энергии. Сравните бесплатные и платные варианты с помощью реальных отзывов. Откройте для себя путь к максимальной продуктивности и благополучию уже сегодня.

10 инструментов

xix.ai

чат-бот

Лучшие романтические чат-боты на базе ИИ: постройте долгосрочные отношения с помощью чат-ботов с устойчивой индивидуальностью

Откройте для себя лучшие романтические чат-боты с искусственным интеллектом 2026 года, которые помогут вам построить искренние и долгосрочные отношения. В нашем тщательно составленном списке вы найдете чат-ботов с яркими и последовательными личностями, сравнение бесплатных и платных версий, а также результаты реальных тестов. Найдите своего идеального спутника и начните строить отношения уже сегодня на XIX.AI.

10 инструментов

xix.ai

Образование и обучение

Лучшие наставники в области искусственного интеллекта и науки о данных: мастерство работы с SQL, библиотекой Pandas и рабочими процессами машинного обучения

Откройте для себя 20 лучших наставников в области искусственного интеллекта и науки о данных на 2026 год, которые помогут вам овладеть SQL, Pandas и рабочими процессами машинного обучения. Изучите наш тщательно отобранный список на сайте XIX.AI – здесь вы найдете эффективные рекомендации, способные изменить ход ваших работ. Сравните бесплатные и платные варианты с примерами из реальной практики. Освоите науку о данных уже сегодня.

10 инструментов

xix.ai

чат-бот

Лучшие тренажеры по флирту и общению на базе ИИ: повышайте свою харизму и уверенность в себе в режиме реального времени

Откройте для себя 20 лучших тренажеров по флирту и общению с ИИ на сайте XIX.AI. Наша тщательно подобранная подборка самых популярных инструментов поможет вам развить коммуникабельность и уверенность в себе в режиме реального времени. Ознакомьтесь с незаменимыми инструментами, которые кардинально изменят вашу жизнь, — с сравнением бесплатных и платных версий и еженедельно обновляемым рейтингом. Раскройте свой коммуникативный потенциал уже сегодня.

10 инструментов

xix.ai

Комментарии (42)

0/500

Пожалуйста, войдите в систему

PaulLopez

9 мая 2026 г., 15:00:13 GMT+03:00

DataGemma這方法聽起來挺實際的，直接用真實數據來對抗AI幻覺，感覺比單純調整演算法更治本。不過好奇它處理的數據範圍有多大？會不會有偏見問題？希望未來能看到更多實測結果！🤔

HarryRoberts

12 апреля 2026 г., 9:01:14 GMT+03:00

Interesting approach! Using real-world data to ground the model seems like a practical step beyond just scaling parameters. Hope it doesn't just trade hallucinations for boring, overly-cautious outputs though. The 'Gemma' naming trend continues! 🤔

WilliamRamirez

18 октября 2025 г., 13:30:33 GMT+03:00

Finally! A real solution to AI hallucinations? DataGemma sounds promising, but I'm honestly a bit skeptical. 🤔 How do they ensure the "real-world data" isn't biased itself? Would love to see a breakdown of their methodology compared to other approaches like Retrieval-Augmented Generation.

WillMitchell

4 октября 2025 г., 21:30:40 GMT+03:00

Me pregunto si DataGemma realmente podrá resolver el problema de las alucinaciones en IA. Parece prometedor, pero ya hemos visto muchas soluciones 'milagrosas' que luego no cumplen. Ojalá esta vez sea diferente, porque los errores en los modelos actuales pueden ser bastante graves 😅

BillyAdams

25 августа 2025 г., 12:47:02 GMT+03:00

This article on DataGemma is super intriguing! It's wild how LLMs can churn out so much but still trip up on facts sometimes. 😅 Makes me wonder if grounding them in real-world data could finally make AI as reliable as we hope!

StephenScott

8 августа 2025 г., 12:00:59 GMT+03:00

This article on DataGemma is super intriguing! I love how it dives into fixing AI hallucinations with real-world data. Makes me wonder if we’ll finally get models that don’t spit out random nonsense. 😄 Anyone else excited about this?

Лучшие новости

AI Builder и Power Automate Революционизируют Суммирование Документов AI Hosts of Notebooklm подкаста теперь доступны для интервью Китай представляет национальный гуманоидный робот и стандарты воплощенного интеллекта По данным Ramp, корпоративное внедрение ИИ находится на плаву Руководство по создателю изображений Bing: Гайд по генерации искусством ИИ Научитесь создавать музыку ИИ, используя свой голос: пошаговый учебник SUNO iMyFone MagicMic: Обзор и руководство по реальном времени AI изменению голоса Топовые генераторы видео на AI в 2025: Pika Labs по сравнению с альтернативами DeepSeek V4 становится мультимодальным искусственным интеллектом, меняющим правила игры Компания Embodied Intelligence представляет первый отраслевой стандарт, призванный сдержать неконтролируемый рост

Более

Показан