Wikipedia đang cung cấp cho các nhà phát triển AI dữ liệu của mình để chống lại bộ phế liệu bot

Trang chủ

Tin tức

Ngày 01 tháng 5 năm 2025

PeterLopez

# ai # News # Tech # Web

Wikipedia đang cung cấp cho các nhà phát triển AI dữ liệu của mình để chống lại bộ phế liệu bot

Chiến lược mới của Wikipedia để quản lý dữ liệu AI

Wikipedia, thông qua Wikimedia Foundation, đang thực hiện một bước chủ động để quản lý tác động của việc quét dữ liệu AI trên các máy chủ của mình. Vào thứ Tư, họ đã công bố sự hợp tác với Kaggle, một nền tảng thuộc sở hữu của Google và dành riêng cho khoa học dữ liệu và học máy, để ra mắt bộ dữ liệu beta. Bộ dữ liệu này chứa "nội dung wikipedia có cấu trúc bằng tiếng Anh và tiếng Pháp", được thiết kế riêng cho mục đích đào tạo AI.

Bộ dữ liệu, hiện có sẵn trên Kaggle, đã được tạo ra với các nhà phát triển AI, đơn giản hóa quá trình truy cập dữ liệu bài viết có thể đọc được bằng máy. Điều này bao gồm tất cả mọi thứ, từ tóm tắt nghiên cứu và mô tả ngắn đến liên kết hình ảnh, dữ liệu infobox và các phần bài viết khác nhau. Điều quan trọng, dữ liệu này được cấp phép công khai và không bao gồm các tài liệu tham khảo hoặc các yếu tố phi văn bản như tệp âm thanh, đảm bảo nó được tối ưu hóa cho các trường hợp sử dụng AI như mô hình hóa, tinh chỉnh và điểm chuẩn.

Cách tiếp cận của Wikimedia cung cấp một định dạng JSON có cấu trúc tốt về nội dung của Wikipedia, mà họ hy vọng sẽ là một lựa chọn hấp dẫn hơn cho các nhà phát triển AI so với phương pháp truyền thống hoặc phân tích văn bản bài viết thô. Động thái này là một phần để đáp ứng với chủng mà các bot AI đã đặt trên các máy chủ của Wikipedia do mức tiêu thụ băng thông của chúng.

Hiện tại, Wikimedia đã thiết lập các thỏa thuận chia sẻ nội dung với những người khổng lồ như Google và Lưu trữ Internet. Tuy nhiên, sự hợp tác với Kaggle dự kiến sẽ làm cho dữ liệu này dễ tiếp cận hơn với các công ty nhỏ hơn và các nhà khoa học dữ liệu độc lập, mở rộng phạm vi tiếp cận và tiện ích của nội dung của Wikipedia.

Những gì Kaggle mang đến bàn

Brenda Flynn, lãnh đạo quan hệ đối tác của Kaggle, bày tỏ sự nhiệt tình về việc lưu trữ dữ liệu của Wikimedia. "Là nơi mà cộng đồng học máy đến cho các công cụ và bài kiểm tra, Kaggle vô cùng phấn khích khi trở thành chủ nhà cho dữ liệu của Wikimedia Foundation," cô nói. Vai trò của Kaggle là rất quan trọng trong việc giữ dữ liệu này không chỉ có thể truy cập mà còn có liên quan và hữu ích cho cộng đồng học máy.

Động thái chiến lược này của Wikipedia không chỉ nhằm mục đích giảm bớt tải trên các máy chủ của mình mà còn thúc đẩy mối quan hệ có cấu trúc và có lợi hơn với AI và cộng đồng học máy.

Bài viết liên quan

A AI de hardware da Huawei representa um desafio ao domínio da NVIDIA A jogada ousada da Huawei na corrida global da AI Chip Huawei, a gigante da tecnologia chinesa, deu um passo significativo que poderia abalar a corrida global de chip de IA. Eles introduziram um novo sistema de computação chamado CloudMatrix 384 Supernode, que, de acordo com a mídia local, supera o techno semelhante

Como estamos usando a IA para ajudar as cidades a combater o calor extremo Parece que 2024 pode simplesmente quebrar o recorde do ano mais quente até agora, superando 2023. Essa tendência é particularmente difícil para as pessoas que vivem em ilhas de calor urbano - aquelas manchas nas cidades onde o concreto e o asfalto absorvem os raios do sol e depois irradiam o calor de volta. Essas áreas podem aquecer

A Pesquisa do Google apresenta 'modo AI' para consultas complexas e multi-partes O Google revela o "modo AI" em pesquisa para rivalizar com a perplexidade AI e o ChatgptGoogle está intensificando seu jogo na arena da AI com o lançamento de um recurso experimental "AI" em seu mecanismo de pesquisa. Com o objetivo de assumir pessoas como Perplexity AI e OpenAI's ChatGPT Search, este novo modo foi anunciado na quarta -feira

Nhận xét (0)

0/200

Nộp

Tin tức hàng đầu

Các trung tâm dữ liệu của Hoa Kỳ có thể mở khóa 76 GW công suất năng lượng mới Một bước đột phá trong phát hiện cháy rừng: Làm thế nào một chòm sao vệ tinh mới có thể phát hiện các vụ cháy rừng nhỏ hơn sớm hơn Người sáng lập AI để tiêu thụ sức mạnh của nhiều NYC vào năm 2026, người sáng lập Giám đốc điều hành NVIDIA làm rõ những quan niệm sai lầm về tác động thị trường của Deepseek Google.org tiết lộ 15 triệu đô la tài trợ đào tạo AI cho nhân viên chính phủ Bỏ qua đạo đức AI đặt ra những rủi ro lớn: Cách thực hiện AI có trách nhiệm WorkHelix tận dụng nhiều năm nghiên cứu để hướng dẫn các doanh nghiệp trong ứng dụng AI AI có thể là chìa khóa để mở khóa một khu vực công cộng hiệu quả hơn của Vương quốc Anh Adobe tiết lộ 10 đại lý AI chuyên dụng: Khám phá các ứng dụng kinh doanh của họ Notebooklm thêm tính năng Discovery nguồn Web

Hơn

Đặc trưng