옵션
뉴스
Datagemma는 실제 데이터를 사용하여 AI 환각을 다룹니다

Datagemma는 실제 데이터를 사용하여 AI 환각을 다룹니다

2025년 4월 10일
171

Datagemma는 실제 데이터를 사용하여 AI 환각을 다룹니다

대규모 언어 모델(LLMs)은 오늘날 AI 혁신의 핵심에 있으며, 방대한 텍스트 데이터셋을 분석하여 요약을 생성하고, 창의적인 아이디어를 촉발하며, 심지어 코드를 작성할 수 있습니다. 하지만 그 능력에도 불구하고, 이 모델들은 때때로 완전히 잘못된 정보를 제공하는데, 이를 우리는 "환각(hallucination)"이라고 부릅니다. 이는 생성 AI 세계에서 큰 장애물입니다.

우리는 이 문제를 정면으로 해결하는 최첨단 연구를 공유하게 되어 기쁩니다. 이 연구는 LLMs를 실세계 통계에 기반을 두어 환각을 줄이는 것을 목표로 합니다. 그리고 우리는 Google의 Data Commons에서 제공하는 풍부한 실세계 데이터와 LLMs를 연결하는 최초의 오픈 모델인 DataGemma를 소개하게 되어 매우 기쁩니다.

Data Commons: 신뢰할 수 있는 데이터의 보물창고

Data Commons는 건강에서 경제에 이르기까지 모든 주제에 걸쳐 2400억 개 이상의 데이터 포인트를 자랑하는 거대한, 끊임없이 성장하는 공개 데이터 도서관과 같습니다. 이 정보는 UN, WHO, CDC, 인구조사국과 같은 신뢰할 수 있는 출처에서 가져옵니다. 이러한 데이터셋을 단일한 강력한 도구와 AI 모델로 통합함으로써, Data Commons는 정책 입안자, 연구자, 조직이 필요한 정확한 통찰을 얻을 수 있도록 돕습니다.

평범한 영어로 질문을 던질 수 있는 거대한 데이터베이스를 상상해보세요. 예를 들어, 어떤 아프리카 국가들이 전기 접근성이 가장 크게 증가했는지, 또는 미국 카운티에서 소득이 당뇨병과 어떻게 관련 있는지. 이것이 Data Commons입니다.

Data Commons가 환각을 줄이는 방법

점점 더 많은 사람들이 생성 AI를 사용함에 따라, 우리는 Data Commons를 우리의 가볍고 우수한 오픈 모델 패밀리인 Gemma에 통합하여 이러한 경험을 더 견고하게 만들고자 합니다. 이 DataGemma 모델들은 이제 연구자와 개발자들이 탐구할 수 있도록 제공됩니다.

DataGemma는 Data Commons의 지식을 활용하여 LLMs의 정확성과 추론 능력을 향상시키는 두 가지 멋진 방법을 사용해 Gemma의 능력을 강화합니다:

  1. RIG (Retrieval-Interleaved Generation)는 Data Commons에 대한 사실 확인을 적극적으로 수행하여 Gemma 2 모델을 강화합니다. DataGemma에 질문을 하면, Data Commons에서 통계 데이터를 찾아내어 확실한 답변을 제공합니다. RIG는 새로운 아이디어가 아니지만, 우리가 DataGemma에서 사용하는 방식은 꽤 독특합니다.

    예시 질의: ''세계에서 재생 가능 에너지 사용이 증가했나요?'' DataGemma RIG 방법론을 적용하면 Data Commons(DC)에서 권위 있는 데이터를 활용합니다.
  2. RAG (Retrieval-Augmented Generation)는 언어 모델이 학습된 내용을 넘어 추가 정보를 가져와 더 풍부하고 정확한 답변을 제공하도록 합니다. DataGemma에서는 Gemini 1.5 Pro의 긴 컨텍스트 창을 사용해 모델이 답변을 생성하기 전에 Data Commons에서 관련 데이터를 가져와 환각을 줄입니다.

    예시 질의: ''세계에서 재생 가능 에너지 사용이 증가했나요?'' DataGemma RAG 방법론을 적용하면 더 뛰어난 추론과 각주 포함을 보여줍니다.

유망한 결과와 다음 단계

RIG와 RAG에 대한 초기 테스트 결과는 긍정적입니다. 숫자를 다룰 때 모델의 정확도가 향상되어 연구, 의사 결정, 또는 단순한 호기심 충족을 위해 이 모델을 사용하는 사람들에게 환각이 줄어들고 있습니다. 이러한 결과는 우리의 연구 논문에서 확인할 수 있습니다.

RAG 질의와 응답의 예시. Data Commons에서 제공된 표로 참조되는 근거 통계가 지원됩니다. *간략함을 위해 부분 응답만 표시. 우리는 여기서 멈추지 않습니다. 우리는 이러한 방법을 개선하고, 노력을 확대하며, 더 많은 테스트를 통해 철저히 검증할 것입니다. 결국, 우리는 Gemma와 Gemini 모델 모두에 이러한 개선 사항을 점진적으로 배포할 것이며, 제한된 접근 단계부터 시작합니다.

우리의 연구를 공유하고 이 새로운 Gemma 모델 변형을 오픈함으로써, 우리는 Data Commons 기반 기술의 사용을 널리 확산시키고자 합니다. LLMs를 더 신뢰할 수 있고 믿을 만한 도구로 만드는 것은 모두에게 필수적인 도구로 전환하는 데 중요하며, AI가 정확한 정보를 제공하고, 정보에 기반한 선택을 지원하며, 세상에 대한 우리의 이해를 깊게 하는 미래를 만드는 데 기여합니다.

연구자와 개발자는 RIG와 RAG를 위한 우리의 퀵스타트 노트북을 사용해 DataGemma를 바로 시작할 수 있습니다. Data Commons와 Gemma가 어떻게 함께 작동하는지 더 깊이 알아보려면, 우리의 연구 게시물을 확인하세요.

관련 기사
"닷 AI 컴패니언 앱, 폐쇄 발표, 개인화 서비스 중단" 금요일 개발자의 발표에 따르면 개인적인 친구이자 친구의 역할을 하도록 설계된 AI 컴패니언 애플리케이션인 Dot이 운영을 중단할 예정입니다. 닷을 개발한 스타트업인 뉴 컴퓨터는 웹사이트를 통해 10월 5일까지 서비스를 계속 이용할 수 있으며, 사용자들이 개인 데이터를 내보낼 수 있는 시간을 제공한다고 밝혔습니다.이 앱은 올해 초 공동 창업자인 샘 휘트모어와
앤트로픽, AI로 생성된 도서 불법 복제에 대한 법적 소송 해결 앤트로픽, AI로 생성된 도서 불법 복제에 대한 법적 소송 해결 앤트로픽은 미국 작가들과의 저작권 분쟁에서 잠재적으로 비용이 많이 드는 재판을 피할 수 있는 집단 소송 합의안에 동의하며 합의에 도달했습니다. 이번 화요일에 법원 문서로 제출된 이 합의는 AI 회사가 불법 복제된 문학 작품을 사용하여 클로드 모델을 훈련시켰다는 주장에서 비롯되었습니다.합의 세부 사항은 기밀로 유지되지만, 이 사건은 저자 Andrea Bart
Figma, 모든 사용자에게 AI 기반 앱 빌더 도구 공개 Figma, 모든 사용자에게 AI 기반 앱 빌더 도구 공개 올해 초에 공개된 혁신적인 즉석 앱 개발 플랫폼인 피그마 메이크가 공식적으로 베타 버전을 종료하고 모든 사용자에게 출시되었습니다. 이 획기적인 도구는 Google의 Gemini 코드 어시스트, Microsoft의 GitHub 코파일럿과 같은 AI 기반 코딩 어시스턴트 대열에 합류하여 크리에이터가 기존의 프로그래밍 전문 지식 없이도 자연어 설명을 기능적인 프
의견 (39)
0/200
WillMitchell
WillMitchell 2025년 10월 5일 오전 3시 30분 40초 GMT+09:00

Me pregunto si DataGemma realmente podrá resolver el problema de las alucinaciones en IA. Parece prometedor, pero ya hemos visto muchas soluciones 'milagrosas' que luego no cumplen. Ojalá esta vez sea diferente, porque los errores en los modelos actuales pueden ser bastante graves 😅

BillyAdams
BillyAdams 2025년 8월 25일 오후 6시 47분 2초 GMT+09:00

This article on DataGemma is super intriguing! It's wild how LLMs can churn out so much but still trip up on facts sometimes. 😅 Makes me wonder if grounding them in real-world data could finally make AI as reliable as we hope!

StephenScott
StephenScott 2025년 8월 8일 오후 6시 0분 59초 GMT+09:00

This article on DataGemma is super intriguing! I love how it dives into fixing AI hallucinations with real-world data. Makes me wonder if we’ll finally get models that don’t spit out random nonsense. 😄 Anyone else excited about this?

ArthurYoung
ArthurYoung 2025년 7월 29일 오후 9시 25분 16초 GMT+09:00

This article on DataGemma is super intriguing! It's wild how LLMs can churn out so much but still trip over facts. Excited to see how real-world data could make AI less of a fibber! 😄

RalphJohnson
RalphJohnson 2025년 4월 21일 오후 1시 26분 32초 GMT+09:00

DataGemmaは本当に助かる!AIの幻覚を現実世界のデータで抑えてくれるから、まるでAIにファクトチェッカーが付いているみたい。もう少し処理が早ければ完璧なんだけど、それでも素晴らしいツールだよね!👍

WillieAnderson
WillieAnderson 2025년 4월 18일 오전 6시 10분 42초 GMT+09:00

DataGemma 정말 도움이 돼! AI의 환각을 현실 세계 데이터로 줄여주니까, 마치 AI에 팩트체커가 있는 것 같아. 처리 속도가 조금 더 빨랐으면 좋겠지만, 그래도 훌륭한 도구야! 👍

위로 돌아갑니다
OR