소식 Wikipedia는 AI 개발자에게 봇 스크레이퍼를 막기 위해 데이터를 제공하고 있습니다.

Wikipedia는 AI 개발자에게 봇 스크레이퍼를 막기 위해 데이터를 제공하고 있습니다.

2025년 5월 1일
PeterLopez
0

Wikipedia는 AI 개발자에게 봇 스크레이퍼를 막기 위해 데이터를 제공하고 있습니다.

AI 데이터 스크래핑을 관리하는 Wikipedia의 새로운 전략

Wikipedia는 Wikimedia Foundation을 통해 AI 데이터 스크래핑이 서버에 미치는 영향을 관리하기위한 적극적인 단계를 밟고 있습니다. 수요일에 그들은 Google이 소유하고 데이터 과학 및 머신 러닝 전용 플랫폼 인 Kaggle과의 협력을 발표하여 베타 데이터 세트를 시작했습니다. 이 데이터 세트에는 AI 교육 목적으로 특별히 맞춤화 된 "영어 및 프랑스어의 구조화 된 위키 백과 콘텐츠"가 포함되어 있습니다.

현재 Kaggle에서 사용할 수있는 데이터 세트는 AI 개발자를 염두에두고 제작되어 기계가 읽을 수있는 기사 데이터에 액세스하는 프로세스를 단순화했습니다. 여기에는 연구 요약 및 짧은 설명에서 이미지 링크, InfoBox 데이터 및 다양한 기사 섹션에 이르기까지 모든 것이 포함됩니다. 중요하게도,이 데이터는 공개적으로 라이센스가 부여되며 오디오 파일과 같은 참조 또는 비 텍스트 요소가 포함되어 있지 않으므로 모델링, 미세 조정 및 벤치마킹과 같은 AI 사용 사례에 최적화되었습니다.

Wikimedia의 접근 방식은 Wikipedia의 컨텐츠의 잘 구조화 된 JSON 형식을 제공하며, 이는 AI 개발자에게 원시 기사 텍스트를 긁거나 구문 분석하는 전통적인 방법에 비해 AI 개발자에게 더 매력적인 옵션이되기를 희망합니다. 이 움직임은 부분적으로 AI 봇이 대역폭 소비로 인해 Wikipedia의 서버에 넣은 변형에 반응합니다.

Wikimedia는 이미 Google 및 인터넷 아카이브와 같은 자이언트와 콘텐츠 공유 계약을 확립했습니다. 그러나 Kaggle과의 파트너십은이 데이터를 소규모 회사 및 독립적 인 데이터 과학자에게보다 쉽게 ​​액세스 할 수있게하여 Wikipedia의 컨텐츠의 범위와 유용성을 확대 할 것으로 예상됩니다.

Kaggle이 테이블에 가져 오는 것

Kaggle의 파트너십 책임자 인 Brenda Flynn은 Wikimedia의 데이터를 호스팅하는 것에 대한 열정을 표명했습니다. "머신 러닝 커뮤니티가 도구와 테스트를 위해 오는 곳이기 때문에 Kaggle은 Wikimedia Foundation의 데이터의 호스트가되어 매우 기쁩니다."라고 그녀는 말했습니다. Kaggle의 역할은이 데이터에 액세스 할 수있을뿐만 아니라 기계 학습 커뮤니티에도 관련성 있고 유용한 상태를 유지하는 데 중요합니다.

Wikipedia의 이러한 전략적 움직임은 서버의 부하를 완화하는 것을 목표로 할뿐만 아니라 AI 및 기계 학습 커뮤니티와보다 체계적이고 유익한 관계를 촉진하는 것을 목표로합니다.

관련 기사
华为的AI硬件突破对NVIDIA的主导地位构成了挑战 华为的AI硬件突破对NVIDIA的主导地位构成了挑战 华为在中国科技巨头全球AI芯片竞赛华为中的大胆举动迈出了重要的一步,可能会动摇全球AI芯片竞赛。他们引入了一个名为CloudMatrix 384超级节点的新计算系统,根据当地媒体的表现,该系统的表现相似
我们如何使用AI来帮助城市应对极端热量 我们如何使用AI来帮助城市应对极端热量 看起来2024年可能会打破迄今为止最热的一年的记录,超过了2023年。这种趋势对生活在城市热岛的人们来说尤为艰难,这些景点是在混凝土和沥青浸泡太阳射线,然后散发出热量的城市中的那些景点。这些区域可以温暖
Google搜索引入了复杂的多部分查询的“ AI模式” Google搜索引入了复杂的多部分查询的“ AI模式” Google推出了“ AI模式”,以搜索与竞争对手的困惑AI和ChatgptGoogle在AI Arena中加强游戏,并在其搜索引擎中启动了实验性的“ AI模式”功能。旨在进行困惑AI和Openai的Chatgpt搜索之类
의견 (0)
0/200
Back to Top
OR