DataGemma đã giải quyết ảo giác AI với dữ liệu trong thế giới thực

Các mô hình ngôn ngữ lớn (LLM) là trung tâm của các đột phá AI ngày nay, có khả năng sàng lọc thông qua các bộ dữ liệu văn bản lớn để tạo ra các bản tóm tắt, khơi dậy ý tưởng sáng tạo và thậm chí viết mã. Tuy nhiên, mặc dù năng lực của họ, những mô hình này đôi khi có thể cung cấp thông tin chỉ sai, một vấn đề chúng ta gọi là "ảo giác". Đó là một trở ngại lớn trong thế giới của AI tổng quát.
Chúng tôi rất vui mừng được chia sẻ một số nghiên cứu tiên tiến đang giải quyết vấn đề này, nhằm mục đích kiềm chế ảo giác bằng cách tiếp đất LLM trong các chỉ số trong thế giới thực. Và chúng tôi rất vui mừng được giới thiệu DataGemma, các mô hình mở đầu tiên liên kết LLM với vô số dữ liệu trong thế giới thực từ dữ liệu của Google.
Dữ liệu Commons: Một kho tàng dữ liệu đáng tin cậy
Data Commons giống như một thư viện dữ liệu công cộng khổng lồ, ngày càng tăng, tự hào với hơn 240 tỷ điểm dữ liệu về mọi thứ từ sức khỏe đến kinh tế. Nó lấy thông tin này từ các nguồn đáng tin cậy như Liên Hợp Quốc, Ai, CDC và Văn phòng điều tra dân số. Bằng cách hợp nhất các bộ dữ liệu này thành một bộ công cụ và mô hình AI mạnh mẽ duy nhất, Data Commons giúp các nhà hoạch định chính sách, nhà nghiên cứu và tổ chức có được những hiểu biết chính xác mà họ cần.
Hãy tưởng tượng một cơ sở dữ liệu rộng lớn, nơi bạn có thể đặt câu hỏi bằng tiếng Anh đơn giản, như những quốc gia châu Phi nào đã thấy bước nhảy lớn nhất trong việc tiếp cận điện, hoặc thu nhập liên quan đến bệnh tiểu đường trên các quận của Hoa Kỳ như thế nào. Đó là dữ liệu chung cho bạn.
Cách dữ liệu commons giúp chống ảo giác
Khi nhiều người chuyển sang AI thế hệ, chúng tôi đang làm việc để làm cho những trải nghiệm này có căn cứ hơn bằng cách dệt dữ liệu thành công, gia đình của chúng tôi về các mô hình mở nhẹ, hàng đầu. Các mô hình DataGemma này hiện có sẵn cho các nhà nghiên cứu và nhà phát triển đi sâu vào.
DataGemma tăng khả năng của Gemma bằng cách nhấn vào kiến thức của Data Commons, sử dụng hai phương pháp thú vị để cải thiện độ chính xác và lý luận của LLMS:
RIG (Thế hệ thu hồi-Interleaved) AMPS UP MÔ HÌNH GEMMA 2 của chúng tôi bằng cách tích cực kiểm tra các sự kiện chống lại dữ liệu. Khi bạn hỏi DataGemma một câu hỏi, nó sẽ tìm ra dữ liệu thống kê từ dữ liệu để cung cấp cho bạn một câu trả lời vững chắc. Mặc dù RIG không phải là một ý tưởng mới, nhưng cách chúng tôi sử dụng nó trong DataGemma khá đặc biệt.
Ví dụ Truy vấn: '' Có việc sử dụng năng lượng tái tạo tăng lên trên thế giới không? RAG (Thế hệ thu hồi được truy xuất) cho phép các mô hình ngôn ngữ rút thêm thông tin vượt ra ngoài những gì họ đã được đào tạo, làm cho câu trả lời của họ trở nên phong phú và chính xác hơn. Với DataGemma, chúng tôi sử dụng cửa sổ bối cảnh dài của Gemini 1.5 Pro để tìm nạp dữ liệu liên quan từ dữ liệu trước khi mô hình bắt đầu chế tạo phản hồi của nó, cắt giảm ảo giác.
Ví dụ Truy vấn: '' Có việc sử dụng năng lượng tái tạo tăng lên trên thế giới không?
Kết quả đầy hứa hẹn và những gì tiếp theo
Các bài kiểm tra ban đầu của chúng tôi với Rig và Rag trông có vẻ tốt. Chúng ta sẽ thấy độ chính xác tốt hơn trong các mô hình của mình khi xử lý các con số, điều đó có nghĩa là ít ảo giác hơn cho những người sử dụng các mô hình này để nghiên cứu, ra quyết định hoặc chỉ để thỏa mãn sự tò mò của họ. Bạn có thể kiểm tra những kết quả này trong bài nghiên cứu của chúng tôi.
Minh họa một truy vấn và phản ứng giẻ rách. Hỗ trợ thống kê sự thật mặt đất được tham chiếu là các bảng được phục vụ từ dữ liệu. *Phản ứng một phần hiển thị cho sự ngắn gọn. Chúng tôi không dừng lại ở đây. Tất cả chúng ta đều ở trong việc tinh chỉnh các phương pháp này, mở rộng những nỗ lực của chúng ta và đưa chúng qua máy vắt với nhiều bài kiểm tra hơn. Cuối cùng, chúng tôi sẽ đưa ra những cải tiến này cho cả hai mô hình Gemma và Gemini, bắt đầu với giai đoạn truy cập giới hạn. Bằng cách chia sẻ nghiên cứu của chúng tôi và làm cho biến thể mô hình Gemma mới này mở, chúng tôi hy vọng sẽ truyền bá việc sử dụng các kỹ thuật dựa trên dữ liệu này xa và rộng. Làm cho LLM trở nên đáng tin cậy và đáng tin cậy hơn là rất quan trọng để biến chúng thành các công cụ thiết yếu cho mọi người, giúp xây dựng một tương lai nơi AI cung cấp cho mọi người thông tin chính xác, hỗ trợ các lựa chọn sáng suốt và hiểu sâu hơn về thế giới.
Các nhà nghiên cứu và nhà phát triển có thể nhảy ngay với DataGemma bằng cách sử dụng máy tính xách tay QuickStart của chúng tôi cho cả Rig và Rag. Để đi sâu hơn về cách dữ liệu Commons và Gemma làm việc cùng nhau, hãy xem bài nghiên cứu của chúng tôi.
Bài viết liên quan
Google’s AI Futures Fund may have to tread carefully
Google’s New AI Investment Initiative: A Strategic Shift Amid Regulatory ScrutinyGoogle's recent announcement of an AI Futures Fund marks a bold move in the tech giant's ongoing qu
Oura adds AI-powered glucose tracking and meal logging
Oura Reinforces Its Commitment to Metabolic Health with Two Exciting New FeaturesOura is stepping up its game in the world of metabolic health with two cutting-edge, AI-driven feat
Judge slams lawyers for ‘bogus AI-generated research’
Judge Penalizes Law Firms for Using AI Without DisclosureIn a recent ruling, California Judge Michael Wilner slapped two prominent law firms with a hefty fine of $31,000 for secret
Nhận xét (30)
0/200
StevenHill
08:45:43 GMT Ngày 10 tháng 4 năm 2025
DataGemma's approach to tackling AI hallucinations is impressive! It really helps in filtering out the nonsense from AI outputs. However, sometimes it's a bit too cautious and filters out useful info too. Still, a step in the right direction!
0
RoySmith
06:38:27 GMT Ngày 11 tháng 4 năm 2025
DataGemmaのAIの幻覚対策は素晴らしいですね!AIの出力から無意味な情報をフィルタリングするのに役立ちます。ただ、時々過剰に慎重で、有用な情報までフィルタリングしてしまうことがあります。それでも、正しい方向への一歩です!
0
CarlHill
06:18:09 GMT Ngày 11 tháng 4 năm 2025
DataGemma의 AI 환각 문제 해결 방식이 인상적이에요! AI 출력에서 nonsense를 걸러내는 데 정말 도움이 됩니다. 하지만 때때로 너무 신중해서 유용한 정보도 걸러내는 경우가 있어요. 그래도 올바른 방향으로 나아가는 한 걸음이죠!
0
JosephGreen
19:38:27 GMT Ngày 10 tháng 4 năm 2025
A abordagem da DataGemma para lidar com as alucinações de IA é impressionante! Realmente ajuda a filtrar o absurdo das saídas de IA. No entanto, às vezes é um pouco cautelosa demais e filtra informações úteis também. Ainda assim, um passo na direção certa!
0
LarryMartinez
11:04:37 GMT Ngày 10 tháng 4 năm 2025
La forma en que DataGemma aborda las alucinaciones de la IA es impresionante. Realmente ayuda a filtrar la basura de las salidas de la IA. Sin embargo, a veces es un poco demasiado cautelosa y filtra información útil también. Aún así, es un paso en la dirección correcta.
0
RonaldMartinez
17:27:29 GMT Ngày 11 tháng 4 năm 2025
DataGemma is a lifesaver when it comes to dealing with AI hallucinations. It really grounds the models with real-world data, which is super helpful for my projects. Sometimes it feels a bit slow, but hey, accuracy over speed any day, right? Definitely a must-have tool!
0
Các mô hình ngôn ngữ lớn (LLM) là trung tâm của các đột phá AI ngày nay, có khả năng sàng lọc thông qua các bộ dữ liệu văn bản lớn để tạo ra các bản tóm tắt, khơi dậy ý tưởng sáng tạo và thậm chí viết mã. Tuy nhiên, mặc dù năng lực của họ, những mô hình này đôi khi có thể cung cấp thông tin chỉ sai, một vấn đề chúng ta gọi là "ảo giác". Đó là một trở ngại lớn trong thế giới của AI tổng quát.
Chúng tôi rất vui mừng được chia sẻ một số nghiên cứu tiên tiến đang giải quyết vấn đề này, nhằm mục đích kiềm chế ảo giác bằng cách tiếp đất LLM trong các chỉ số trong thế giới thực. Và chúng tôi rất vui mừng được giới thiệu DataGemma, các mô hình mở đầu tiên liên kết LLM với vô số dữ liệu trong thế giới thực từ dữ liệu của Google.
Dữ liệu Commons: Một kho tàng dữ liệu đáng tin cậy
Data Commons giống như một thư viện dữ liệu công cộng khổng lồ, ngày càng tăng, tự hào với hơn 240 tỷ điểm dữ liệu về mọi thứ từ sức khỏe đến kinh tế. Nó lấy thông tin này từ các nguồn đáng tin cậy như Liên Hợp Quốc, Ai, CDC và Văn phòng điều tra dân số. Bằng cách hợp nhất các bộ dữ liệu này thành một bộ công cụ và mô hình AI mạnh mẽ duy nhất, Data Commons giúp các nhà hoạch định chính sách, nhà nghiên cứu và tổ chức có được những hiểu biết chính xác mà họ cần.
Hãy tưởng tượng một cơ sở dữ liệu rộng lớn, nơi bạn có thể đặt câu hỏi bằng tiếng Anh đơn giản, như những quốc gia châu Phi nào đã thấy bước nhảy lớn nhất trong việc tiếp cận điện, hoặc thu nhập liên quan đến bệnh tiểu đường trên các quận của Hoa Kỳ như thế nào. Đó là dữ liệu chung cho bạn.
Cách dữ liệu commons giúp chống ảo giác
Khi nhiều người chuyển sang AI thế hệ, chúng tôi đang làm việc để làm cho những trải nghiệm này có căn cứ hơn bằng cách dệt dữ liệu thành công, gia đình của chúng tôi về các mô hình mở nhẹ, hàng đầu. Các mô hình DataGemma này hiện có sẵn cho các nhà nghiên cứu và nhà phát triển đi sâu vào.
DataGemma tăng khả năng của Gemma bằng cách nhấn vào kiến thức của Data Commons, sử dụng hai phương pháp thú vị để cải thiện độ chính xác và lý luận của LLMS:
RIG (Thế hệ thu hồi-Interleaved) AMPS UP MÔ HÌNH GEMMA 2 của chúng tôi bằng cách tích cực kiểm tra các sự kiện chống lại dữ liệu. Khi bạn hỏi DataGemma một câu hỏi, nó sẽ tìm ra dữ liệu thống kê từ dữ liệu để cung cấp cho bạn một câu trả lời vững chắc. Mặc dù RIG không phải là một ý tưởng mới, nhưng cách chúng tôi sử dụng nó trong DataGemma khá đặc biệt.
Ví dụ Truy vấn: '' Có việc sử dụng năng lượng tái tạo tăng lên trên thế giới không? RAG (Thế hệ thu hồi được truy xuất) cho phép các mô hình ngôn ngữ rút thêm thông tin vượt ra ngoài những gì họ đã được đào tạo, làm cho câu trả lời của họ trở nên phong phú và chính xác hơn. Với DataGemma, chúng tôi sử dụng cửa sổ bối cảnh dài của Gemini 1.5 Pro để tìm nạp dữ liệu liên quan từ dữ liệu trước khi mô hình bắt đầu chế tạo phản hồi của nó, cắt giảm ảo giác.
Ví dụ Truy vấn: '' Có việc sử dụng năng lượng tái tạo tăng lên trên thế giới không?
Kết quả đầy hứa hẹn và những gì tiếp theo
Các bài kiểm tra ban đầu của chúng tôi với Rig và Rag trông có vẻ tốt. Chúng ta sẽ thấy độ chính xác tốt hơn trong các mô hình của mình khi xử lý các con số, điều đó có nghĩa là ít ảo giác hơn cho những người sử dụng các mô hình này để nghiên cứu, ra quyết định hoặc chỉ để thỏa mãn sự tò mò của họ. Bạn có thể kiểm tra những kết quả này trong bài nghiên cứu của chúng tôi.
Bằng cách chia sẻ nghiên cứu của chúng tôi và làm cho biến thể mô hình Gemma mới này mở, chúng tôi hy vọng sẽ truyền bá việc sử dụng các kỹ thuật dựa trên dữ liệu này xa và rộng. Làm cho LLM trở nên đáng tin cậy và đáng tin cậy hơn là rất quan trọng để biến chúng thành các công cụ thiết yếu cho mọi người, giúp xây dựng một tương lai nơi AI cung cấp cho mọi người thông tin chính xác, hỗ trợ các lựa chọn sáng suốt và hiểu sâu hơn về thế giới.
Các nhà nghiên cứu và nhà phát triển có thể nhảy ngay với DataGemma bằng cách sử dụng máy tính xách tay QuickStart của chúng tôi cho cả Rig và Rag. Để đi sâu hơn về cách dữ liệu Commons và Gemma làm việc cùng nhau, hãy xem bài nghiên cứu của chúng tôi.



DataGemma's approach to tackling AI hallucinations is impressive! It really helps in filtering out the nonsense from AI outputs. However, sometimes it's a bit too cautious and filters out useful info too. Still, a step in the right direction!




DataGemmaのAIの幻覚対策は素晴らしいですね!AIの出力から無意味な情報をフィルタリングするのに役立ちます。ただ、時々過剰に慎重で、有用な情報までフィルタリングしてしまうことがあります。それでも、正しい方向への一歩です!




DataGemma의 AI 환각 문제 해결 방식이 인상적이에요! AI 출력에서 nonsense를 걸러내는 데 정말 도움이 됩니다. 하지만 때때로 너무 신중해서 유용한 정보도 걸러내는 경우가 있어요. 그래도 올바른 방향으로 나아가는 한 걸음이죠!




A abordagem da DataGemma para lidar com as alucinações de IA é impressionante! Realmente ajuda a filtrar o absurdo das saídas de IA. No entanto, às vezes é um pouco cautelosa demais e filtra informações úteis também. Ainda assim, um passo na direção certa!




La forma en que DataGemma aborda las alucinaciones de la IA es impresionante. Realmente ayuda a filtrar la basura de las salidas de la IA. Sin embargo, a veces es un poco demasiado cautelosa y filtra información útil también. Aún así, es un paso en la dirección correcta.




DataGemma is a lifesaver when it comes to dealing with AI hallucinations. It really grounds the models with real-world data, which is super helpful for my projects. Sometimes it feels a bit slow, but hey, accuracy over speed any day, right? Definitely a must-have tool!












