Wikipedia는 AI 개발자에게 봇 스크레이퍼를 막기 위해 데이터를 제공하고 있습니다.

AI 데이터 스크래핑을 관리하는 Wikipedia의 새로운 전략
Wikipedia는 Wikimedia Foundation을 통해 AI 데이터 스크래핑이 서버에 미치는 영향을 관리하기위한 적극적인 단계를 밟고 있습니다. 수요일에 그들은 Google이 소유하고 데이터 과학 및 머신 러닝 전용 플랫폼 인 Kaggle과의 협력을 발표하여 베타 데이터 세트를 시작했습니다. 이 데이터 세트에는 AI 교육 목적으로 특별히 맞춤화 된 "영어 및 프랑스어의 구조화 된 위키 백과 콘텐츠"가 포함되어 있습니다.
현재 Kaggle에서 사용할 수있는 데이터 세트는 AI 개발자를 염두에두고 제작되어 기계가 읽을 수있는 기사 데이터에 액세스하는 프로세스를 단순화했습니다. 여기에는 연구 요약 및 짧은 설명에서 이미지 링크, InfoBox 데이터 및 다양한 기사 섹션에 이르기까지 모든 것이 포함됩니다. 중요하게도,이 데이터는 공개적으로 라이센스가 부여되며 오디오 파일과 같은 참조 또는 비 텍스트 요소가 포함되어 있지 않으므로 모델링, 미세 조정 및 벤치마킹과 같은 AI 사용 사례에 최적화되었습니다.
Wikimedia의 접근 방식은 Wikipedia의 컨텐츠의 잘 구조화 된 JSON 형식을 제공하며, 이는 AI 개발자에게 원시 기사 텍스트를 긁거나 구문 분석하는 전통적인 방법에 비해 AI 개발자에게 더 매력적인 옵션이되기를 희망합니다. 이 움직임은 부분적으로 AI 봇이 대역폭 소비로 인해 Wikipedia의 서버에 넣은 변형에 반응합니다.
Wikimedia는 이미 Google 및 인터넷 아카이브와 같은 자이언트와 콘텐츠 공유 계약을 확립했습니다. 그러나 Kaggle과의 파트너십은이 데이터를 소규모 회사 및 독립적 인 데이터 과학자에게보다 쉽게 액세스 할 수있게하여 Wikipedia의 컨텐츠의 범위와 유용성을 확대 할 것으로 예상됩니다.
Kaggle이 테이블에 가져 오는 것
Kaggle의 파트너십 책임자 인 Brenda Flynn은 Wikimedia의 데이터를 호스팅하는 것에 대한 열정을 표명했습니다. "머신 러닝 커뮤니티가 도구와 테스트를 위해 오는 곳이기 때문에 Kaggle은 Wikimedia Foundation의 데이터의 호스트가되어 매우 기쁩니다."라고 그녀는 말했습니다. Kaggle의 역할은이 데이터에 액세스 할 수있을뿐만 아니라 기계 학습 커뮤니티에도 관련성 있고 유용한 상태를 유지하는 데 중요합니다.
Wikipedia의 이러한 전략적 움직임은 서버의 부하를 완화하는 것을 목표로 할뿐만 아니라 AI 및 기계 학습 커뮤니티와보다 체계적이고 유익한 관계를 촉진하는 것을 목표로합니다.
관련 기사
xAI가 Grok의 비하인드 스토리 프롬프트를 게시함
xAI, 논란의 "백인 학살" 응답 후 Grok의 시스템 프롬프트 공개예상치 못한 결정으로, xAI는 AI 챗봇 Grok이 X(구 Twitter)에서 "백인 학살"에 대한 요청 없는 응답을 생성한 사건 후 시스템 프롬프트를 공개적으로 공유하기로 했다. 회사는 앞으로 Grok의 시스템 프롬프트를 GitHub에 게시하여 AI가 사용자와 상호작용하도록 프로그래밍
Google Fi, 월 35달러 무제한 요금제 공개
Google Fi, 요금제 개편: 더 많은 데이터, 더 낮은 가격, eSIM 지원Google Fi가 무선 요금제에 대대적인 업데이트를 발표했습니다. 저렴한 무제한 요금제를 찾는 분들에게 좋은 소식입니다. 새로운 무제한 에센셜 요금제가 1회선 기준 월 35달러로 출시되며, Fi의 가장 저렴한 무제한 요금제입니다. 무제한 통화, 문자, 데이터와 함께 30GB
억만장자들이 이번 주 AI 업데이트에서 일자리 자동화에 대해 논의하다
안녕하세요, TechCrunch의 AI 뉴스레터에 다시 오신 것을 환영합니다! 아직 구독하지 않으셨다면, 매주 수요일마다 받은 편지함으로 바로 배달받을 수 있도록 여기를 클릭해 구독하세요.지난주에는 잠시 쉬었지만, 그럴만한 이유가 있었습니다—중국의 AI 회사 DeepSeek의 갑작스러운 급부상 덕분에 AI 뉴스 사이클이 뜨거웠습니다. 정신없는 시간이였지만,
의견 (0)
0/200
AI 데이터 스크래핑을 관리하는 Wikipedia의 새로운 전략
Wikipedia는 Wikimedia Foundation을 통해 AI 데이터 스크래핑이 서버에 미치는 영향을 관리하기위한 적극적인 단계를 밟고 있습니다. 수요일에 그들은 Google이 소유하고 데이터 과학 및 머신 러닝 전용 플랫폼 인 Kaggle과의 협력을 발표하여 베타 데이터 세트를 시작했습니다. 이 데이터 세트에는 AI 교육 목적으로 특별히 맞춤화 된 "영어 및 프랑스어의 구조화 된 위키 백과 콘텐츠"가 포함되어 있습니다.
현재 Kaggle에서 사용할 수있는 데이터 세트는 AI 개발자를 염두에두고 제작되어 기계가 읽을 수있는 기사 데이터에 액세스하는 프로세스를 단순화했습니다. 여기에는 연구 요약 및 짧은 설명에서 이미지 링크, InfoBox 데이터 및 다양한 기사 섹션에 이르기까지 모든 것이 포함됩니다. 중요하게도,이 데이터는 공개적으로 라이센스가 부여되며 오디오 파일과 같은 참조 또는 비 텍스트 요소가 포함되어 있지 않으므로 모델링, 미세 조정 및 벤치마킹과 같은 AI 사용 사례에 최적화되었습니다.
Wikimedia의 접근 방식은 Wikipedia의 컨텐츠의 잘 구조화 된 JSON 형식을 제공하며, 이는 AI 개발자에게 원시 기사 텍스트를 긁거나 구문 분석하는 전통적인 방법에 비해 AI 개발자에게 더 매력적인 옵션이되기를 희망합니다. 이 움직임은 부분적으로 AI 봇이 대역폭 소비로 인해 Wikipedia의 서버에 넣은 변형에 반응합니다.
Wikimedia는 이미 Google 및 인터넷 아카이브와 같은 자이언트와 콘텐츠 공유 계약을 확립했습니다. 그러나 Kaggle과의 파트너십은이 데이터를 소규모 회사 및 독립적 인 데이터 과학자에게보다 쉽게 액세스 할 수있게하여 Wikipedia의 컨텐츠의 범위와 유용성을 확대 할 것으로 예상됩니다.
Kaggle이 테이블에 가져 오는 것
Kaggle의 파트너십 책임자 인 Brenda Flynn은 Wikimedia의 데이터를 호스팅하는 것에 대한 열정을 표명했습니다. "머신 러닝 커뮤니티가 도구와 테스트를 위해 오는 곳이기 때문에 Kaggle은 Wikimedia Foundation의 데이터의 호스트가되어 매우 기쁩니다."라고 그녀는 말했습니다. Kaggle의 역할은이 데이터에 액세스 할 수있을뿐만 아니라 기계 학습 커뮤니티에도 관련성 있고 유용한 상태를 유지하는 데 중요합니다.
Wikipedia의 이러한 전략적 움직임은 서버의 부하를 완화하는 것을 목표로 할뿐만 아니라 AI 및 기계 학습 커뮤니티와보다 체계적이고 유익한 관계를 촉진하는 것을 목표로합니다.












