вариант
Дом
Новости
DataGemma справляется с AI галлюцинаций с реальными данными

DataGemma справляется с AI галлюцинаций с реальными данными

10 апреля 2025 г.
147

DataGemma справляется с AI галлюцинаций с реальными данными

Большие языковые модели (LLMs) лежат в основе современных прорывов в области ИИ, способны просеивать огромные текстовые датасеты для создания кратких выводов, генерации креативных идей и даже написания кода. Однако, несмотря на их мощь, эти модели иногда предоставляют неверную информацию, проблему, которую мы называем "галлюцинацией". Это серьезное препятствие в мире генеративного ИИ.

Мы рады поделиться передовыми исследованиями, которые решают эту проблему напрямую, стремясь сократить галлюцинации, основывая LLMs на реальных статистических данных. И мы с восторгом представляем DataGemma, первые открытые модели, которые связывают LLMs с обширными данными реального мира из Data Commons от Google.

Data Commons: Сокровищница надежных данных

Data Commons — это как огромная, постоянно растущая библиотека общедоступных данных, содержащая более 240 миллиардов точек данных по всему, от здравоохранения до экономики. Она собирает эту информацию из надежных источников, таких как ООН, ВОЗ, CDC и Бюро переписей. Объединяя эти датасеты в единый мощный инструментарий и модели ИИ, Data Commons помогает политикам, исследователям и организациям получать точные инсайты, которые им нужны.

Представьте себе обширную базу данных, где вы можете задавать вопросы на простом английском, например, какие африканские страны показали наибольший рост доступа к электричеству или как доход связан с диабетом в округах США. Это и есть Data Commons.

Как Data Commons помогает бороться с галлюцинациями

Поскольку всё больше людей обращаются к генеративному ИИ, мы работаем над тем, чтобы сделать эти взаимодействия более обоснованными, интегрируя Data Commons в Gemma, наше семейство легковесных, высококлассных открытых моделей. Эти модели DataGemma теперь доступны для исследователей и разработчиков.

DataGemma расширяет возможности Gemma, используя знания Data Commons с помощью двух интересных методов для повышения точности и логичности LLMs:

  1. RIG (Retrieval-Interleaved Generation) усиливает нашу модель Gemma 2, активно проверяя факты с помощью Data Commons. Когда вы задаёте DataGemma вопрос, она ищет статистические данные в Data Commons, чтобы дать вам надёжный ответ. Хотя RIG не новая идея, то, как мы используем её в DataGemma, довольно уникально.

    Пример запроса: ''Увеличилось ли использование возобновляемых источников энергии в мире?'' применение методологии DataGemma RIG использует Data Commons (DC) для авторитетных данных.
  2. RAG (Retrieval-Augmented Generation) позволяет языковым моделям получать дополнительную информацию сверх того, на чём они были обучены, делая их ответы более богатыми и точными. С DataGemma мы используем длинное контекстное окно Gemini 1.5 Pro для получения релевантных данных из Data Commons перед тем, как модель начнёт формировать ответ, сокращая галлюцинации.

    Пример запроса: ''Увеличилось ли использование возобновляемых источников энергии в мире?'' применение методологии DataGemma RAG демонстрирует улучшенную логику и включение сносок.

Многообещающие результаты и что дальше

Наши ранние тесты с RIG и RAG выглядят многообещающе. Мы видим улучшение точности наших моделей при работе с числами, что означает меньше галлюцинаций для тех, кто использует эти модели для исследований, принятия решений или просто из любопытства. Вы можете ознакомиться с этими результатами в нашей исследовательской статье.

Иллюстрация запроса и ответа RAG. Поддерживающие достоверные статистические данные представлены в виде таблиц из Data Commons. *Частичный ответ показан для краткости. Мы не останавливаемся на этом. Мы полностью сосредоточены на совершенствовании этих методов, масштабировании наших усилий и проведении дополнительных тестов. В конечном итоге мы внедрим эти улучшения в модели Gemma и Gemini, начиная с фазы ограниченного доступа.

Делясь нашими исследованиями и делая эту новую вариацию модели Gemma открытой, мы надеемся широко распространить использование техник, основанных на Data Commons. Повышение надёжности и достоверности LLMs критически важно для превращения их в незаменимые инструменты для всех, помогая строить будущее, где ИИ предоставляет точную информацию, поддерживает осознанные решения и углубляет наше понимание мира.

Исследователи и разработчики могут сразу начать работу с DataGemma, используя наши ноутбуки быстрого старта для RIG и RAG. Чтобы глубже изучить, как Data Commons и Gemma работают вместе, ознакомьтесь с нашим исследовательским постом.

Связанная статья
Salesforce представляет цифровых помощников с ИИ в Slack для конкуренции с Microsoft Copilot Salesforce представляет цифровых помощников с ИИ в Slack для конкуренции с Microsoft Copilot Salesforce запустила новую стратегию ИИ для рабочего места, представив специализированных «цифровых помощников», интегрированных в беседы Slack, сообщила компания в понедельник.Новый инструмент, Agent
Инвестиция Oracle в $40 млрд на чипы Nvidia для AI-датцентра в Техасе Инвестиция Oracle в $40 млрд на чипы Nvidia для AI-датцентра в Техасе Oracle планирует инвестировать около $40 млрд в чипы Nvidia для нового крупного дата-центра в Техасе, разработанного OpenAI, как сообщает Financial Times. Эта сделка, одна из крупнейших по закупке чип
Приложение Meta AI представит премиум-уровень и рекламу Приложение Meta AI представит премиум-уровень и рекламу Приложение Meta AI вскоре может предложить платную подписку, аналогичную предложениям конкурентов, таких как OpenAI, Google и Microsoft. Во время отчета о доходах за первый квартал 2025 года генеральн
Комментарии (37)
StephenScott
StephenScott 8 августа 2025 г., 12:00:59 GMT+03:00

This article on DataGemma is super intriguing! I love how it dives into fixing AI hallucinations with real-world data. Makes me wonder if we’ll finally get models that don’t spit out random nonsense. 😄 Anyone else excited about this?

ArthurYoung
ArthurYoung 29 июля 2025 г., 15:25:16 GMT+03:00

This article on DataGemma is super intriguing! It's wild how LLMs can churn out so much but still trip over facts. Excited to see how real-world data could make AI less of a fibber! 😄

RalphJohnson
RalphJohnson 21 апреля 2025 г., 7:26:32 GMT+03:00

DataGemmaは本当に助かる!AIの幻覚を現実世界のデータで抑えてくれるから、まるでAIにファクトチェッカーが付いているみたい。もう少し処理が早ければ完璧なんだけど、それでも素晴らしいツールだよね!👍

WillieAnderson
WillieAnderson 18 апреля 2025 г., 0:10:42 GMT+03:00

DataGemma 정말 도움이 돼! AI의 환각을 현실 세계 데이터로 줄여주니까, 마치 AI에 팩트체커가 있는 것 같아. 처리 속도가 조금 더 빨랐으면 좋겠지만, 그래도 훌륭한 도구야! 👍

JosephGreen
JosephGreen 16 апреля 2025 г., 23:14:53 GMT+03:00

DataGemma is a lifesaver! It really cuts down on those annoying AI hallucinations by grounding the models in real-world data. It's like having a fact-checker for my AI buddy. Only wish it was a bit faster at processing, but still, it's a solid tool! 👍

LeviKing
LeviKing 13 апреля 2025 г., 23:47:31 GMT+03:00

DataGemma가 AI의 환각을 해결하기 위한 접근 방식은 정말 멋집니다. 실제 세계의 데이터를 사용하여 AI를 제어하는 것은 훌륭해요. 하지만 정말 문제를 해결하는 건지, 아니면 그저 가리는 건지 궁금해요. 그래도 올바른 방향으로 나아가는 한 걸음이죠. 계속 하세요!

Вернуться к вершине
OR