옵션
뉴스
Datagemma는 실제 데이터를 사용하여 AI 환각을 다룹니다

Datagemma는 실제 데이터를 사용하여 AI 환각을 다룹니다

2025년 4월 10일
237

Datagemma는 실제 데이터를 사용하여 AI 환각을 다룹니다

대규모 언어 모델(LLMs)은 오늘날 AI 혁신의 핵심에 있으며, 방대한 텍스트 데이터셋을 분석하여 요약을 생성하고, 창의적인 아이디어를 촉발하며, 심지어 코드를 작성할 수 있습니다. 하지만 그 능력에도 불구하고, 이 모델들은 때때로 완전히 잘못된 정보를 제공하는데, 이를 우리는 "환각(hallucination)"이라고 부릅니다. 이는 생성 AI 세계에서 큰 장애물입니다.

우리는 이 문제를 정면으로 해결하는 최첨단 연구를 공유하게 되어 기쁩니다. 이 연구는 LLMs를 실세계 통계에 기반을 두어 환각을 줄이는 것을 목표로 합니다. 그리고 우리는 Google의 Data Commons에서 제공하는 풍부한 실세계 데이터와 LLMs를 연결하는 최초의 오픈 모델인 DataGemma를 소개하게 되어 매우 기쁩니다.

Data Commons: 신뢰할 수 있는 데이터의 보물창고

Data Commons는 건강에서 경제에 이르기까지 모든 주제에 걸쳐 2400억 개 이상의 데이터 포인트를 자랑하는 거대한, 끊임없이 성장하는 공개 데이터 도서관과 같습니다. 이 정보는 UN, WHO, CDC, 인구조사국과 같은 신뢰할 수 있는 출처에서 가져옵니다. 이러한 데이터셋을 단일한 강력한 도구와 AI 모델로 통합함으로써, Data Commons는 정책 입안자, 연구자, 조직이 필요한 정확한 통찰을 얻을 수 있도록 돕습니다.

평범한 영어로 질문을 던질 수 있는 거대한 데이터베이스를 상상해보세요. 예를 들어, 어떤 아프리카 국가들이 전기 접근성이 가장 크게 증가했는지, 또는 미국 카운티에서 소득이 당뇨병과 어떻게 관련 있는지. 이것이 Data Commons입니다.

Data Commons가 환각을 줄이는 방법

점점 더 많은 사람들이 생성 AI를 사용함에 따라, 우리는 Data Commons를 우리의 가볍고 우수한 오픈 모델 패밀리인 Gemma에 통합하여 이러한 경험을 더 견고하게 만들고자 합니다. 이 DataGemma 모델들은 이제 연구자와 개발자들이 탐구할 수 있도록 제공됩니다.

DataGemma는 Data Commons의 지식을 활용하여 LLMs의 정확성과 추론 능력을 향상시키는 두 가지 멋진 방법을 사용해 Gemma의 능력을 강화합니다:

  1. RIG (Retrieval-Interleaved Generation)는 Data Commons에 대한 사실 확인을 적극적으로 수행하여 Gemma 2 모델을 강화합니다. DataGemma에 질문을 하면, Data Commons에서 통계 데이터를 찾아내어 확실한 답변을 제공합니다. RIG는 새로운 아이디어가 아니지만, 우리가 DataGemma에서 사용하는 방식은 꽤 독특합니다.

    예시 질의: ''세계에서 재생 가능 에너지 사용이 증가했나요?'' DataGemma RIG 방법론을 적용하면 Data Commons(DC)에서 권위 있는 데이터를 활용합니다.
  2. RAG (Retrieval-Augmented Generation)는 언어 모델이 학습된 내용을 넘어 추가 정보를 가져와 더 풍부하고 정확한 답변을 제공하도록 합니다. DataGemma에서는 Gemini 1.5 Pro의 긴 컨텍스트 창을 사용해 모델이 답변을 생성하기 전에 Data Commons에서 관련 데이터를 가져와 환각을 줄입니다.

    예시 질의: ''세계에서 재생 가능 에너지 사용이 증가했나요?'' DataGemma RAG 방법론을 적용하면 더 뛰어난 추론과 각주 포함을 보여줍니다.

유망한 결과와 다음 단계

RIG와 RAG에 대한 초기 테스트 결과는 긍정적입니다. 숫자를 다룰 때 모델의 정확도가 향상되어 연구, 의사 결정, 또는 단순한 호기심 충족을 위해 이 모델을 사용하는 사람들에게 환각이 줄어들고 있습니다. 이러한 결과는 우리의 연구 논문에서 확인할 수 있습니다.

RAG 질의와 응답의 예시. Data Commons에서 제공된 표로 참조되는 근거 통계가 지원됩니다. *간략함을 위해 부분 응답만 표시. 우리는 여기서 멈추지 않습니다. 우리는 이러한 방법을 개선하고, 노력을 확대하며, 더 많은 테스트를 통해 철저히 검증할 것입니다. 결국, 우리는 Gemma와 Gemini 모델 모두에 이러한 개선 사항을 점진적으로 배포할 것이며, 제한된 접근 단계부터 시작합니다.

우리의 연구를 공유하고 이 새로운 Gemma 모델 변형을 오픈함으로써, 우리는 Data Commons 기반 기술의 사용을 널리 확산시키고자 합니다. LLMs를 더 신뢰할 수 있고 믿을 만한 도구로 만드는 것은 모두에게 필수적인 도구로 전환하는 데 중요하며, AI가 정확한 정보를 제공하고, 정보에 기반한 선택을 지원하며, 세상에 대한 우리의 이해를 깊게 하는 미래를 만드는 데 기여합니다.

연구자와 개발자는 RIG와 RAG를 위한 우리의 퀵스타트 노트북을 사용해 DataGemma를 바로 시작할 수 있습니다. Data Commons와 Gemma가 어떻게 함께 작동하는지 더 깊이 알아보려면, 우리의 연구 게시물을 확인하세요.

관련 기사
카카오 모빌리티, 물리적 AI를 위한 레벨 4 자율주행 로드맵 제시 카카오 모빌리티, 물리적 AI를 위한 레벨 4 자율주행 로드맵 제시 카카오모빌리티는 물리적 AI 전략의 일환으로 레벨 4 자율주행 기술을 자체 개발할 계획이다.서울 코엑스에서 열린 '2026 월드 IT 쇼' 컨퍼런스에서 카카오모빌리티의 김진규 부사장 겸 피지컬 AI 사업본부장은 로드맵을 발표했다. 그의 발표는 피지컬 AI 시대의 모빌리티 플랫폼을 기반으로 한 자율주행 서비스에 중점을 두었다.연합뉴스에 따르면, '아이디어
배리 딜러: AGI 시대가 다가옴에 따라 샘 알트먼에 대한 신뢰는 무의미하다 배리 딜러: AGI 시대가 다가옴에 따라 샘 알트먼에 대한 신뢰는 무의미하다 억만장자 미디어 거물 배리 딜러는 최근 보도에서 달리 제기된 주장에도 불구하고, 오픈AI의 샘 알트만 CEO가 신뢰할 수 없는 인물이라고 생각하지 않는다고 밝혔다. 이번 주 월스트리트저널(WSJ)이 주최한 ‘Future of Everything’ 컨퍼런스에서 연설한 딜러는, 일부 전직 동료들과 이사회 구성원들로부터 때때로 교묘하게 조종하거나 기만적이라는 비
유튜브, 정치인·공직자·언론인을 대상으로 AI 딥페이크 탐지 기능 확대 유튜브, 정치인·공직자·언론인을 대상으로 AI 딥페이크 탐지 기능 확대 화요일, 유튜브는 딥페이크 탐지 기술을 일부 정부 관계자, 정치 후보자 및 언론인 대상으로 확대한다고 발표했다. 이 도구는 AI로 생성된 유사 영상을 식별하며, 시범 운영 참여자들은 유튜브 정책을 위반한다고 판단되는 무단 콘텐츠의 삭제를 요청할 수 있다.이 탐지 시스템은 초기 테스트 단계를 거친 후, 작년 유튜브 파트너 프로그램에 가입된 약 400만 명의
관련 특별 주제 추천
사업 최고의 AI 채용 도구: 이력서 심사 및 후보자 면접 일정 자동화
최고의 AI 채용 도구: 이력서 심사 및 후보자 면접 일정 자동화

XIX.AI에서 2026년 최신 최고 평점을 받은 AI 채용 도구를 확인해 보세요. 저희가 엄선한 이 목록에는 이력서 심사 및 후보자 면접 일정 자동화를 위한 강력하고 혁신적인 솔루션이 포함되어 있습니다. 실제 테스트 결과와 매주 업데이트되는 순위를 바탕으로 무료 및 유료 옵션을 비교해 보세요. 지금 바로 귀사에 딱 맞는 채용 도우미를 찾아 채용 프로세스를 효율화하세요!

10 도구
xix.ai
생산력 AI 개인 웰니스 및 집중력 코치: 번아웃 관리 및 정신적 에너지 수준 향상
AI 개인 웰니스 및 집중력 코치: 번아웃 관리 및 정신적 에너지 수준 향상

XIX.AI에서 2026년 최고의 AI 기반 개인 웰니스 및 집중력 코치들을 만나보세요. 저희가 엄선한 순위 목록에는 번아웃을 관리하고 정신적 에너지를 높여주는 최고 평점을 받은 혁신적인 도구들이 소개되어 있습니다. 실제 사용 후기를 바탕으로 무료 버전과 유료 버전을 비교해 보세요. 지금 바로 최고의 생산성과 웰빙을 향한 길을 열어보세요.

10 도구
xix.ai
챗봇 최고 평점을 받은 AI 로맨틱 챗봇: 일관된 성격으로 장기적인 관계를 구축하세요
최고 평점을 받은 AI 로맨틱 챗봇: 일관된 성격으로 장기적인 관계를 구축하세요

진정성 있는 장기적인 관계를 형성할 수 있는 2026년 최신 최고 평점 AI 로맨틱 챗봇을 만나보세요. 저희가 엄선한 이 목록에는 강력하고 일관된 캐릭터, 무료 및 유료 버전 비교, 실제 사용 후기가 담겨 있습니다. XIX.AI에서 나에게 딱 맞는 파트너를 찾아 오늘 바로 관계를 시작해 보세요.

10 도구
xix.ai
교육 및 학습 최고의 AI 데이터 과학 멘토들: SQL, Pandas 및 머신 러닝 워크플로우 마스터하기
최고의 AI 데이터 과학 멘토들: SQL, Pandas 및 머신 러닝 워크플로우 마스터하기

2026년 최고의 AI 데이터 과학 멘토들을 만나 SQL, Pandas 및 머신러닝 워크플로우를 마스터하세요. XIX.AI에서 선별한 최고의 멘토들을 통해 강력하고 혁신적인 지도를 받아보세요. 무료 옵션과 유료 옵션을 실제 사례를 바탕으로 비교해 보세요. 오늘 바로 데이터 과학의 전문성을 확보하세요.

10 도구
xix.ai
챗봇 최고의 AI 유혹 및 대화 트레이너: 실시간으로 사회적 매력과 자신감을 높여보세요
최고의 AI 유혹 및 대화 트레이너: 실시간으로 사회적 매력과 자신감을 높여보세요

XIX.AI에서 2026년 최고의 AI 플러팅 및 대화 트레이너를 만나보세요. 엄선된 최고 평점의 제품들을 통해 실시간으로 사회적 매력과 자신감을 키울 수 있습니다. 무료와 유료 버전을 비교하고 매주 업데이트되는 순위를 확인하며, 꼭 사용해봐야 할 획기적인 도구들을 탐색해 보세요. 지금 바로 여러분의 사회적 경쟁력을 한 단계 높여보세요.

10 도구
xix.ai
암호 자동화된 단위 테스트를 위한 최고의 AI 도구들: 한 번의 클릭으로 Jest, PyTest, JUnit 테스트 케이스를 생성하세요.
자동화된 단위 테스트를 위한 최고의 AI 도구들: 한 번의 클릭으로 Jest, PyTest, JUnit 테스트 케이스를 생성하세요.

2026년에 출시된 최신이자 가장 높은 평가를 받는 AI 도구들을 만나보세요. 저희가 엄선한 이 도구들은 Jest, PyTest, JUnit 테스트 케이스를 즉시 생성할 수 있게 해주는 강력하고 혁신적인 솔루션들을 제공합니다. XIX.AI에서 무료 옵션과 유료 옵션을 실제 테스트 결과와 함께 비교해보시고, 매주 업데이트되는 순위를 확인해보세요. 지금 바로 AI의 장점을 활용하여 개발 생산성을 높이세요.

10 도구
xix.ai
의견 (42)
0/500
PaulLopez
PaulLopez 2026년 5월 9일 오후 9시 0분 13초 GMT+09:00

DataGemma這方法聽起來挺實際的,直接用真實數據來對抗AI幻覺,感覺比單純調整演算法更治本。不過好奇它處理的數據範圍有多大?會不會有偏見問題?希望未來能看到更多實測結果!🤔

HarryRoberts
HarryRoberts 2026년 4월 12일 오후 3시 1분 14초 GMT+09:00

Interesting approach! Using real-world data to ground the model seems like a practical step beyond just scaling parameters. Hope it doesn't just trade hallucinations for boring, overly-cautious outputs though. The 'Gemma' naming trend continues! 🤔

WilliamRamirez
WilliamRamirez 2025년 10월 18일 오후 7시 30분 33초 GMT+09:00

Finally! A real solution to AI hallucinations? DataGemma sounds promising, but I'm honestly a bit skeptical. 🤔 How do they ensure the "real-world data" isn't biased itself? Would love to see a breakdown of their methodology compared to other approaches like Retrieval-Augmented Generation.

WillMitchell
WillMitchell 2025년 10월 5일 오전 3시 30분 40초 GMT+09:00

Me pregunto si DataGemma realmente podrá resolver el problema de las alucinaciones en IA. Parece prometedor, pero ya hemos visto muchas soluciones 'milagrosas' que luego no cumplen. Ojalá esta vez sea diferente, porque los errores en los modelos actuales pueden ser bastante graves 😅

BillyAdams
BillyAdams 2025년 8월 25일 오후 6시 47분 2초 GMT+09:00

This article on DataGemma is super intriguing! It's wild how LLMs can churn out so much but still trip up on facts sometimes. 😅 Makes me wonder if grounding them in real-world data could finally make AI as reliable as we hope!

StephenScott
StephenScott 2025년 8월 8일 오후 6시 0분 59초 GMT+09:00

This article on DataGemma is super intriguing! I love how it dives into fixing AI hallucinations with real-world data. Makes me wonder if we’ll finally get models that don’t spit out random nonsense. 😄 Anyone else excited about this?

OR