옵션
뉴스
Datagemma는 실제 데이터를 사용하여 AI 환각을 다룹니다

Datagemma는 실제 데이터를 사용하여 AI 환각을 다룹니다

2025년 4월 10일
147

Datagemma는 실제 데이터를 사용하여 AI 환각을 다룹니다

대규모 언어 모델(LLMs)은 오늘날 AI 혁신의 핵심에 있으며, 방대한 텍스트 데이터셋을 분석하여 요약을 생성하고, 창의적인 아이디어를 촉발하며, 심지어 코드를 작성할 수 있습니다. 하지만 그 능력에도 불구하고, 이 모델들은 때때로 완전히 잘못된 정보를 제공하는데, 이를 우리는 "환각(hallucination)"이라고 부릅니다. 이는 생성 AI 세계에서 큰 장애물입니다.

우리는 이 문제를 정면으로 해결하는 최첨단 연구를 공유하게 되어 기쁩니다. 이 연구는 LLMs를 실세계 통계에 기반을 두어 환각을 줄이는 것을 목표로 합니다. 그리고 우리는 Google의 Data Commons에서 제공하는 풍부한 실세계 데이터와 LLMs를 연결하는 최초의 오픈 모델인 DataGemma를 소개하게 되어 매우 기쁩니다.

Data Commons: 신뢰할 수 있는 데이터의 보물창고

Data Commons는 건강에서 경제에 이르기까지 모든 주제에 걸쳐 2400억 개 이상의 데이터 포인트를 자랑하는 거대한, 끊임없이 성장하는 공개 데이터 도서관과 같습니다. 이 정보는 UN, WHO, CDC, 인구조사국과 같은 신뢰할 수 있는 출처에서 가져옵니다. 이러한 데이터셋을 단일한 강력한 도구와 AI 모델로 통합함으로써, Data Commons는 정책 입안자, 연구자, 조직이 필요한 정확한 통찰을 얻을 수 있도록 돕습니다.

평범한 영어로 질문을 던질 수 있는 거대한 데이터베이스를 상상해보세요. 예를 들어, 어떤 아프리카 국가들이 전기 접근성이 가장 크게 증가했는지, 또는 미국 카운티에서 소득이 당뇨병과 어떻게 관련 있는지. 이것이 Data Commons입니다.

Data Commons가 환각을 줄이는 방법

점점 더 많은 사람들이 생성 AI를 사용함에 따라, 우리는 Data Commons를 우리의 가볍고 우수한 오픈 모델 패밀리인 Gemma에 통합하여 이러한 경험을 더 견고하게 만들고자 합니다. 이 DataGemma 모델들은 이제 연구자와 개발자들이 탐구할 수 있도록 제공됩니다.

DataGemma는 Data Commons의 지식을 활용하여 LLMs의 정확성과 추론 능력을 향상시키는 두 가지 멋진 방법을 사용해 Gemma의 능력을 강화합니다:

  1. RIG (Retrieval-Interleaved Generation)는 Data Commons에 대한 사실 확인을 적극적으로 수행하여 Gemma 2 모델을 강화합니다. DataGemma에 질문을 하면, Data Commons에서 통계 데이터를 찾아내어 확실한 답변을 제공합니다. RIG는 새로운 아이디어가 아니지만, 우리가 DataGemma에서 사용하는 방식은 꽤 독특합니다.

    예시 질의: ''세계에서 재생 가능 에너지 사용이 증가했나요?'' DataGemma RIG 방법론을 적용하면 Data Commons(DC)에서 권위 있는 데이터를 활용합니다.
  2. RAG (Retrieval-Augmented Generation)는 언어 모델이 학습된 내용을 넘어 추가 정보를 가져와 더 풍부하고 정확한 답변을 제공하도록 합니다. DataGemma에서는 Gemini 1.5 Pro의 긴 컨텍스트 창을 사용해 모델이 답변을 생성하기 전에 Data Commons에서 관련 데이터를 가져와 환각을 줄입니다.

    예시 질의: ''세계에서 재생 가능 에너지 사용이 증가했나요?'' DataGemma RAG 방법론을 적용하면 더 뛰어난 추론과 각주 포함을 보여줍니다.

유망한 결과와 다음 단계

RIG와 RAG에 대한 초기 테스트 결과는 긍정적입니다. 숫자를 다룰 때 모델의 정확도가 향상되어 연구, 의사 결정, 또는 단순한 호기심 충족을 위해 이 모델을 사용하는 사람들에게 환각이 줄어들고 있습니다. 이러한 결과는 우리의 연구 논문에서 확인할 수 있습니다.

RAG 질의와 응답의 예시. Data Commons에서 제공된 표로 참조되는 근거 통계가 지원됩니다. *간략함을 위해 부분 응답만 표시. 우리는 여기서 멈추지 않습니다. 우리는 이러한 방법을 개선하고, 노력을 확대하며, 더 많은 테스트를 통해 철저히 검증할 것입니다. 결국, 우리는 Gemma와 Gemini 모델 모두에 이러한 개선 사항을 점진적으로 배포할 것이며, 제한된 접근 단계부터 시작합니다.

우리의 연구를 공유하고 이 새로운 Gemma 모델 변형을 오픈함으로써, 우리는 Data Commons 기반 기술의 사용을 널리 확산시키고자 합니다. LLMs를 더 신뢰할 수 있고 믿을 만한 도구로 만드는 것은 모두에게 필수적인 도구로 전환하는 데 중요하며, AI가 정확한 정보를 제공하고, 정보에 기반한 선택을 지원하며, 세상에 대한 우리의 이해를 깊게 하는 미래를 만드는 데 기여합니다.

연구자와 개발자는 RIG와 RAG를 위한 우리의 퀵스타트 노트북을 사용해 DataGemma를 바로 시작할 수 있습니다. Data Commons와 Gemma가 어떻게 함께 작동하는지 더 깊이 알아보려면, 우리의 연구 게시물을 확인하세요.

관련 기사
Salesforce, Slack에서 Microsoft Copilot과 경쟁하는 AI 디지털 팀메이트 공개 Salesforce, Slack에서 Microsoft Copilot과 경쟁하는 AI 디지털 팀메이트 공개 Salesforce는 새로운 직장 AI 전략을 공개하며 월요일, Slack 대화에 통합된 전문화된 “디지털 팀메이트”를 소개했습니다.새 도구인 Slack의 Agentforce는 기업이 직장 대화를 검색하고, 회사 데이터에 접근하며, 직원들이 매일 사용하는 메시징 플랫폼 내에서 작업을 실행하는 작업별 AI 에이전트를 만들고 배포할 수 있게 합니다.“전문화된
Oracle의 400억 달러 Nvidia 칩 투자로 텍사스 AI 데이터센터 강화 Oracle의 400억 달러 Nvidia 칩 투자로 텍사스 AI 데이터센터 강화 Oracle은 Financial Times에 따르면 OpenAI가 개발한 텍사스 주요 신규 데이터센터를 지원하기 위해 Nvidia 칩에 약 400억 달러를 투자할 예정입니다. 이는 지금까지 가장 큰 칩 인수 거래 중 하나로, AI 컴퓨팅 자원에 대한 급증하는 수요를 보여줍니다.텍사스 애빌린에 위치한 이 시설은 미국 최초의 “Stargate” 데이터센터입니다
Meta AI 앱, 프리미엄 티어 및 광고 도입 Meta AI 앱, 프리미엄 티어 및 광고 도입 Meta의 AI 앱은 OpenAI, Google, Microsoft와 같은 경쟁사의 제품과 유사하게 유료 구독 서비스를 곧 선보일 예정입니다. 2025년 1분기 실적 발표에서 Meta CEO Mark Zuckerberg는 프리미엄 서비스 계획을 밝히며, 이를 통해 사용자가 Meta AI에서 향상된 컴퓨팅 파워나 추가 기능을 이용할 수 있다고 전했습니다.Ch
의견 (37)
0/200
StephenScott
StephenScott 2025년 8월 8일 오후 6시 0분 59초 GMT+09:00

This article on DataGemma is super intriguing! I love how it dives into fixing AI hallucinations with real-world data. Makes me wonder if we’ll finally get models that don’t spit out random nonsense. 😄 Anyone else excited about this?

ArthurYoung
ArthurYoung 2025년 7월 29일 오후 9시 25분 16초 GMT+09:00

This article on DataGemma is super intriguing! It's wild how LLMs can churn out so much but still trip over facts. Excited to see how real-world data could make AI less of a fibber! 😄

RalphJohnson
RalphJohnson 2025년 4월 21일 오후 1시 26분 32초 GMT+09:00

DataGemmaは本当に助かる!AIの幻覚を現実世界のデータで抑えてくれるから、まるでAIにファクトチェッカーが付いているみたい。もう少し処理が早ければ完璧なんだけど、それでも素晴らしいツールだよね!👍

WillieAnderson
WillieAnderson 2025년 4월 18일 오전 6시 10분 42초 GMT+09:00

DataGemma 정말 도움이 돼! AI의 환각을 현실 세계 데이터로 줄여주니까, 마치 AI에 팩트체커가 있는 것 같아. 처리 속도가 조금 더 빨랐으면 좋겠지만, 그래도 훌륭한 도구야! 👍

JosephGreen
JosephGreen 2025년 4월 17일 오전 5시 14분 53초 GMT+09:00

DataGemma is a lifesaver! It really cuts down on those annoying AI hallucinations by grounding the models in real-world data. It's like having a fact-checker for my AI buddy. Only wish it was a bit faster at processing, but still, it's a solid tool! 👍

LeviKing
LeviKing 2025년 4월 14일 오전 5시 47분 31초 GMT+09:00

DataGemma가 AI의 환각을 해결하기 위한 접근 방식은 정말 멋집니다. 실제 세계의 데이터를 사용하여 AI를 제어하는 것은 훌륭해요. 하지만 정말 문제를 해결하는 건지, 아니면 그저 가리는 건지 궁금해요. 그래도 올바른 방향으로 나아가는 한 걸음이죠. 계속 하세요!

위로 돌아갑니다
OR