Datagemma는 실제 데이터를 사용하여 AI 환각을 다룹니다

집

뉴스

2025년 4월 10일

ChristopherAllen

237

# ai

Datagemma는 실제 데이터를 사용하여 AI 환각을 다룹니다

대규모 언어 모델(LLMs)은 오늘날 AI 혁신의 핵심에 있으며, 방대한 텍스트 데이터셋을 분석하여 요약을 생성하고, 창의적인 아이디어를 촉발하며, 심지어 코드를 작성할 수 있습니다. 하지만 그 능력에도 불구하고, 이 모델들은 때때로 완전히 잘못된 정보를 제공하는데, 이를 우리는 "환각(hallucination)"이라고 부릅니다. 이는 생성 AI 세계에서 큰 장애물입니다.

우리는 이 문제를 정면으로 해결하는 최첨단 연구를 공유하게 되어 기쁩니다. 이 연구는 LLMs를 실세계 통계에 기반을 두어 환각을 줄이는 것을 목표로 합니다. 그리고 우리는 Google의 Data Commons에서 제공하는 풍부한 실세계 데이터와 LLMs를 연결하는 최초의 오픈 모델인 DataGemma를 소개하게 되어 매우 기쁩니다.

Data Commons: 신뢰할 수 있는 데이터의 보물창고

Data Commons는 건강에서 경제에 이르기까지 모든 주제에 걸쳐 2400억 개 이상의 데이터 포인트를 자랑하는 거대한, 끊임없이 성장하는 공개 데이터 도서관과 같습니다. 이 정보는 UN, WHO, CDC, 인구조사국과 같은 신뢰할 수 있는 출처에서 가져옵니다. 이러한 데이터셋을 단일한 강력한 도구와 AI 모델로 통합함으로써, Data Commons는 정책 입안자, 연구자, 조직이 필요한 정확한 통찰을 얻을 수 있도록 돕습니다.

평범한 영어로 질문을 던질 수 있는 거대한 데이터베이스를 상상해보세요. 예를 들어, 어떤 아프리카 국가들이 전기 접근성이 가장 크게 증가했는지, 또는 미국 카운티에서 소득이 당뇨병과 어떻게 관련 있는지. 이것이 Data Commons입니다.

Data Commons가 환각을 줄이는 방법

점점 더 많은 사람들이 생성 AI를 사용함에 따라, 우리는 Data Commons를 우리의 가볍고 우수한 오픈 모델 패밀리인 Gemma에 통합하여 이러한 경험을 더 견고하게 만들고자 합니다. 이 DataGemma 모델들은 이제 연구자와 개발자들이 탐구할 수 있도록 제공됩니다.

DataGemma는 Data Commons의 지식을 활용하여 LLMs의 정확성과 추론 능력을 향상시키는 두 가지 멋진 방법을 사용해 Gemma의 능력을 강화합니다:

RIG (Retrieval-Interleaved Generation)는 Data Commons에 대한 사실 확인을 적극적으로 수행하여 Gemma 2 모델을 강화합니다. DataGemma에 질문을 하면, Data Commons에서 통계 데이터를 찾아내어 확실한 답변을 제공합니다. RIG는 새로운 아이디어가 아니지만, 우리가 DataGemma에서 사용하는 방식은 꽤 독특합니다.
예시 질의: ''세계에서 재생 가능 에너지 사용이 증가했나요?'' DataGemma RIG 방법론을 적용하면 Data Commons(DC)에서 권위 있는 데이터를 활용합니다.
RAG (Retrieval-Augmented Generation)는 언어 모델이 학습된 내용을 넘어 추가 정보를 가져와 더 풍부하고 정확한 답변을 제공하도록 합니다. DataGemma에서는 Gemini 1.5 Pro의 긴 컨텍스트 창을 사용해 모델이 답변을 생성하기 전에 Data Commons에서 관련 데이터를 가져와 환각을 줄입니다.
예시 질의: ''세계에서 재생 가능 에너지 사용이 증가했나요?'' DataGemma RAG 방법론을 적용하면 더 뛰어난 추론과 각주 포함을 보여줍니다.

유망한 결과와 다음 단계

RIG와 RAG에 대한 초기 테스트 결과는 긍정적입니다. 숫자를 다룰 때 모델의 정확도가 향상되어 연구, 의사 결정, 또는 단순한 호기심 충족을 위해 이 모델을 사용하는 사람들에게 환각이 줄어들고 있습니다. 이러한 결과는 우리의 연구 논문에서 확인할 수 있습니다.

RAG 질의와 응답의 예시. Data Commons에서 제공된 표로 참조되는 근거 통계가 지원됩니다. *간략함을 위해 부분 응답만 표시. 우리는 여기서 멈추지 않습니다. 우리는 이러한 방법을 개선하고, 노력을 확대하며, 더 많은 테스트를 통해 철저히 검증할 것입니다. 결국, 우리는 Gemma와 Gemini 모델 모두에 이러한 개선 사항을 점진적으로 배포할 것이며, 제한된 접근 단계부터 시작합니다.

우리의 연구를 공유하고 이 새로운 Gemma 모델 변형을 오픈함으로써, 우리는 Data Commons 기반 기술의 사용을 널리 확산시키고자 합니다. LLMs를 더 신뢰할 수 있고 믿을 만한 도구로 만드는 것은 모두에게 필수적인 도구로 전환하는 데 중요하며, AI가 정확한 정보를 제공하고, 정보에 기반한 선택을 지원하며, 세상에 대한 우리의 이해를 깊게 하는 미래를 만드는 데 기여합니다.

연구자와 개발자는 RIG와 RAG를 위한 우리의 퀵스타트 노트북을 사용해 DataGemma를 바로 시작할 수 있습니다. Data Commons와 Gemma가 어떻게 함께 작동하는지 더 깊이 알아보려면, 우리의 연구 게시물을 확인하세요.

관련 특별 주제 추천

사업

최고의 AI 채용 도구: 이력서 심사 및 후보자 면접 일정 자동화

XIX.AI에서 2026년 최신 최고 평점을 받은 AI 채용 도구를 확인해 보세요. 저희가 엄선한 이 목록에는 이력서 심사 및 후보자 면접 일정 자동화를 위한 강력하고 혁신적인 솔루션이 포함되어 있습니다. 실제 테스트 결과와 매주 업데이트되는 순위를 바탕으로 무료 및 유료 옵션을 비교해 보세요. 지금 바로 귀사에 딱 맞는 채용 도우미를 찾아 채용 프로세스를 효율화하세요!

10 도구

xix.ai

생산력

AI 개인 웰니스 및 집중력 코치: 번아웃 관리 및 정신적 에너지 수준 향상

XIX.AI에서 2026년 최고의 AI 기반 개인 웰니스 및 집중력 코치들을 만나보세요. 저희가 엄선한 순위 목록에는 번아웃을 관리하고 정신적 에너지를 높여주는 최고 평점을 받은 혁신적인 도구들이 소개되어 있습니다. 실제 사용 후기를 바탕으로 무료 버전과 유료 버전을 비교해 보세요. 지금 바로 최고의 생산성과 웰빙을 향한 길을 열어보세요.

10 도구

xix.ai

챗봇

최고 평점을 받은 AI 로맨틱 챗봇: 일관된 성격으로 장기적인 관계를 구축하세요

진정성 있는 장기적인 관계를 형성할 수 있는 2026년 최신 최고 평점 AI 로맨틱 챗봇을 만나보세요. 저희가 엄선한 이 목록에는 강력하고 일관된 캐릭터, 무료 및 유료 버전 비교, 실제 사용 후기가 담겨 있습니다. XIX.AI에서 나에게 딱 맞는 파트너를 찾아 오늘 바로 관계를 시작해 보세요.

10 도구

xix.ai

교육 및 학습

최고의 AI 데이터 과학 멘토들: SQL, Pandas 및 머신 러닝 워크플로우 마스터하기

2026년 최고의 AI 데이터 과학 멘토들을 만나 SQL, Pandas 및 머신러닝 워크플로우를 마스터하세요. XIX.AI에서 선별한 최고의 멘토들을 통해 강력하고 혁신적인 지도를 받아보세요. 무료 옵션과 유료 옵션을 실제 사례를 바탕으로 비교해 보세요. 오늘 바로 데이터 과학의 전문성을 확보하세요.

10 도구

xix.ai

챗봇

최고의 AI 유혹 및 대화 트레이너: 실시간으로 사회적 매력과 자신감을 높여보세요

XIX.AI에서 2026년 최고의 AI 플러팅 및 대화 트레이너를 만나보세요. 엄선된 최고 평점의 제품들을 통해 실시간으로 사회적 매력과 자신감을 키울 수 있습니다. 무료와 유료 버전을 비교하고 매주 업데이트되는 순위를 확인하며, 꼭 사용해봐야 할 획기적인 도구들을 탐색해 보세요. 지금 바로 여러분의 사회적 경쟁력을 한 단계 높여보세요.

10 도구

xix.ai

암호

자동화된 단위 테스트를 위한 최고의 AI 도구들: 한 번의 클릭으로 Jest, PyTest, JUnit 테스트 케이스를 생성하세요.

2026년에 출시된 최신이자 가장 높은 평가를 받는 AI 도구들을 만나보세요. 저희가 엄선한 이 도구들은 Jest, PyTest, JUnit 테스트 케이스를 즉시 생성할 수 있게 해주는 강력하고 혁신적인 솔루션들을 제공합니다. XIX.AI에서 무료 옵션과 유료 옵션을 실제 테스트 결과와 함께 비교해보시고, 매주 업데이트되는 순위를 확인해보세요. 지금 바로 AI의 장점을 활용하여 개발 생산성을 높이세요.

10 도구

xix.ai

의견 (42)

0/500

먼저 로그인하십시오

PaulLopez

2026년 5월 9일 오후 9시 0분 13초 GMT+09:00

DataGemma這方法聽起來挺實際的，直接用真實數據來對抗AI幻覺，感覺比單純調整演算法更治本。不過好奇它處理的數據範圍有多大？會不會有偏見問題？希望未來能看到更多實測結果！🤔

HarryRoberts

2026년 4월 12일 오후 3시 1분 14초 GMT+09:00

Interesting approach! Using real-world data to ground the model seems like a practical step beyond just scaling parameters. Hope it doesn't just trade hallucinations for boring, overly-cautious outputs though. The 'Gemma' naming trend continues! 🤔

WilliamRamirez

2025년 10월 18일 오후 7시 30분 33초 GMT+09:00

Finally! A real solution to AI hallucinations? DataGemma sounds promising, but I'm honestly a bit skeptical. 🤔 How do they ensure the "real-world data" isn't biased itself? Would love to see a breakdown of their methodology compared to other approaches like Retrieval-Augmented Generation.

WillMitchell

2025년 10월 5일 오전 3시 30분 40초 GMT+09:00

Me pregunto si DataGemma realmente podrá resolver el problema de las alucinaciones en IA. Parece prometedor, pero ya hemos visto muchas soluciones 'milagrosas' que luego no cumplen. Ojalá esta vez sea diferente, porque los errores en los modelos actuales pueden ser bastante graves 😅

BillyAdams

2025년 8월 25일 오후 6시 47분 2초 GMT+09:00

This article on DataGemma is super intriguing! It's wild how LLMs can churn out so much but still trip up on facts sometimes. 😅 Makes me wonder if grounding them in real-world data could finally make AI as reliable as we hope!

StephenScott

2025년 8월 8일 오후 6시 0분 59초 GMT+09:00

This article on DataGemma is super intriguing! I love how it dives into fixing AI hallucinations with real-world data. Makes me wonder if we’ll finally get models that don’t spit out random nonsense. 😄 Anyone else excited about this?

최고의 뉴스

AI Builder와 Power Automate가 문서 요약을 혁신하다 AI Notebooklm Podcast의 AI 호스트는 이제 인터뷰에 참여할 수 있습니다 중국, 국가 휴머노이드 로봇 및 구현 지능 표준 공개 기업 AI 도입 정체기, 램프 데이터에 따르면 Bing 이미지 크리에이터 튜토리얼: AI 아트 생성 가이드 당신의 목소리를 사용하여 AI 음악 만들기 배우기 : 단계별 Suno 튜토리얼 iMyFone MagicMic: 실시간 AI 음성 변환기 리뷰 및 튜토리얼 2025 최고 AI 비디오 생성기: Pika Labs 대 비교 딥시크 V4, 다중 모달 AI의 판도를 바꾸는 혁신으로 부상하다 엠보디드 인텔리전스, 무분별한 확장을 억제하기 위한 업계 최초의 표준을 발표하다

더