AI 크롤러 서지 Wikimedia Commons 대역폭 수요 50%

위키미디어 재단, 즉 위키백과와 여러 군중 소싱 지식 플랫폼의 모체는 수요일에 위키미디어 커먼스에서 멀티미디어 다운로드에 대한 대역폭 사용량이 2024년 1월 이후 50% 급증했다고 발표했습니다. 화요일 블로그 포스트에서 자세히 설명된 이 급증은 인간의 호기심 증가 때문이 아니라, AI 모델 훈련을 위한 데이터를 갈망하는 자동화된 스크레이퍼 때문입니다.
“우리 인프라는 주요 이벤트 동안 인간의 트래픽 급증을 처리하도록 설계되었지만, 스크레이퍼 봇에서 오는 트래픽의 양은 비교할 수 없을 정도로 많으며 점점 더 큰 위험과 비용을 초래합니다,”라고 포스트는 설명합니다.
위키미디어 커먼스는 이미지, 비디오, 오디오 파일을 위한 자유롭게 접근 가능한 허브로, 모두 오픈 라이선스 또는 퍼블릭 도메인에서 제공됩니다.
더 깊이 파고들어, 위키미디어는 가장 많은 자원을 소모하는 트래픽—소비된 콘텐츠 유형으로 측정—의 무려 65%가 봇에서 나온다고 밝혔습니다. 그러나 이러한 봇은 전체 페이지뷰의 단지 35%만을 차지합니다. 위키미디어에 따르면, 이 불균형은 자주 액세스되는 콘텐츠가 사용자에게 더 가까운 곳에 캐싱되는 반면, 봇이 종종 타겟팅하는 덜 인기 있는 콘텐츠는 더 비용이 많이 드는 “코어 데이터 센터”에 저장되기 때문입니다.
“인간 독자들은 특정하고 종종 유사한 주제에 집중하는 경향이 있지만, 크롤러 봇은 더 많은 페이지를 ‘대량 읽기’하고 덜 인기 있는 페이지도 방문하는 경향이 있습니다,”라고 위키미디어는 언급했습니다. “이로 인해 이러한 요청이 코어 데이터센터로 전달되어 자원 소모 비용이 크게 증가합니다.”
결과적으로, 위키미디어 재단의 사이트 안정성 팀은 일상적인 사용자들에게 중단을 방지하기 위해 이러한 크롤러를 차단하는 데 상당한 시간과 자원을 투입하고 있습니다. 이는 재단이 직면하고 있는 급등하는 클라우드 비용에 대해서는 언급조차 하지 않은 것입니다.
이 시나리오는 오픈 인터넷을 위협하는 더 큰 트렌드의 일부입니다. 지난 달, 소프트웨어 엔지니어이자 오픈소스 옹호자인 Drew DeVault는 AI 크롤러들이 자동화된 트래픽을 막기 위한 “robots.txt” 파일을 노골적으로 무시하고 있다고 한탄했습니다. 마찬가지로, “프래그매틱 엔지니어”로 알려진 Gergely Orosz는 최근 Meta와 같은 회사들의 AI 스크레이퍼가 그의 프로젝트에 대한 대역폭 수요를 급증시켰다고 좌절감을 표출했습니다.
오픈소스 인프라가 특히 취약하지만, 개발자들은 독창성과 결단력으로 대응하고 있습니다. TechCrunch는 지난 주 일부 기술 회사들이 나서고 있다고 강조했습니다. 예를 들어, Cloudflare는 AI로 생성된 콘텐츠로 크롤러를 늦추기 위해 설계된 AI Labyrinth를 도입했습니다.
그럼에도 불구하고, 이는 끊임없는 고양이와 쥐 게임으로 남아 있으며, 많은 퍼블리셔들이 로그인과 페이월 뒤로 후퇴하게 만들어, 우리가 모두 의존하는 웹의 오픈 본질을 궁극적으로 해칠 수 있습니다.
관련 기사
Zhiyuan WITA, 첫 규정 준수 신고로 ‘나체’ 로봇 상호작용 종료
체화 지능 분야가 중요한 이정표를 달성했습니다. 상하이 사이버공간관리국의 최근 발표에 따르면, 지위안(Zhiyuan)이 개발한 WITA 대형 모델이 신고 절차를 성공적으로 완료하여, 국내 최초로 규정을 준수하며 배포된 체화 지능 상호작용 대형 모델이 되었습니다.이번 성과는 단순한 허가 취득을 넘어선 의미를 지닙니다. WITA의 핵심 목적은 휴머노이드 로봇이
인류학 연구에 따르면, 정교하게 다듬어진 AI 콘텐츠가 인간의 사고력 저하와 관련이 있는 것으로 나타났다
AI가 구조가 탄탄하고 논리적으로 명확한 코드나 문서를 순식간에 생성하는 모습을 보면, 별다른 의심 없이 그대로 믿고 싶어지시나요? AI 분야 선도 기업인 Anthropic은 최근 ‘AI 유창성 지수(AI Fluency Index)’라는 제목의 연구 보고서를 발표했습니다. 약 1만 건의 익명 클로드(Claude ) 대화 샘플을 분석한 결과, 이 연구는 우려
영국 정부 부처들, AI 데이터센터의 에너지 수요를 두고 대립
영국 정부는 청정 에너지를 확대하는 동시에 인공지능 분야의 글로벌 리더가 되겠다는 목표를 달성해야 하는 중대한 과제에 직면해 있다. 그러나 이러한 목표를 담당하는 부처들 사이에는 심각한 견해 차이가 드러나고 있다. 과학·혁신·기술부(DSIT)와 에너지 안보 및 탄소중립부(DESNZ)는 AI 데이터 센터의 미래 전력 수요에 대해 극명하게 대조되는 전망을 내놓
관련 특별 주제 추천
의견 (15)
0/500
這流量暴增也太誇張了吧!AI爬蟲把Wikimedia Commons的頻寬吃掉一半?難怪最近載圖變超慢...不過想想也合理,現在一堆AI模型都在狂抓訓練資料,但這樣搞下去會不會把非營利資源榨乾啊?有點擔心未來開放資源的永續性😅
Incroyable, 50% d'augmentation de bande passante pour Wikimedia Commons ! Ça montre à quel point l'IA aspire tout sur son passage, non ? 😅 J’espère juste que ça ne va pas surcharger les serveurs ou freiner l’accès pour les utilisateurs classiques.
Whoa, a 50% spike in Wikimedia Commons bandwidth? AI crawlers are eating up data like it’s an all-you-can-eat buffet! 😄 Makes me wonder how much of this is legit research vs. bots just hoarding images for some shady AI training. Anyone else curious about what’s driving this?
Wow, a 50% spike in bandwidth for Wikimedia Commons? That’s wild! AI crawlers are probably gobbling up all those images for training. Kinda cool but also makes me wonder if this is pushing the limits of what open platforms can handle. 😅
Wow, a 50% spike in bandwidth for Wikimedia Commons? That’s wild! AI crawlers are probably gobbling up all those images for training. Makes me wonder how much data these AI models are chugging through daily. 😳 Cool to see open knowledge fueling innovation, though!

위키미디어 재단, 즉 위키백과와 여러 군중 소싱 지식 플랫폼의 모체는 수요일에 위키미디어 커먼스에서 멀티미디어 다운로드에 대한 대역폭 사용량이 2024년 1월 이후 50% 급증했다고 발표했습니다. 화요일 블로그 포스트에서 자세히 설명된 이 급증은 인간의 호기심 증가 때문이 아니라, AI 모델 훈련을 위한 데이터를 갈망하는 자동화된 스크레이퍼 때문입니다.
“우리 인프라는 주요 이벤트 동안 인간의 트래픽 급증을 처리하도록 설계되었지만, 스크레이퍼 봇에서 오는 트래픽의 양은 비교할 수 없을 정도로 많으며 점점 더 큰 위험과 비용을 초래합니다,”라고 포스트는 설명합니다.
위키미디어 커먼스는 이미지, 비디오, 오디오 파일을 위한 자유롭게 접근 가능한 허브로, 모두 오픈 라이선스 또는 퍼블릭 도메인에서 제공됩니다.
더 깊이 파고들어, 위키미디어는 가장 많은 자원을 소모하는 트래픽—소비된 콘텐츠 유형으로 측정—의 무려 65%가 봇에서 나온다고 밝혔습니다. 그러나 이러한 봇은 전체 페이지뷰의 단지 35%만을 차지합니다. 위키미디어에 따르면, 이 불균형은 자주 액세스되는 콘텐츠가 사용자에게 더 가까운 곳에 캐싱되는 반면, 봇이 종종 타겟팅하는 덜 인기 있는 콘텐츠는 더 비용이 많이 드는 “코어 데이터 센터”에 저장되기 때문입니다.
“인간 독자들은 특정하고 종종 유사한 주제에 집중하는 경향이 있지만, 크롤러 봇은 더 많은 페이지를 ‘대량 읽기’하고 덜 인기 있는 페이지도 방문하는 경향이 있습니다,”라고 위키미디어는 언급했습니다. “이로 인해 이러한 요청이 코어 데이터센터로 전달되어 자원 소모 비용이 크게 증가합니다.”
결과적으로, 위키미디어 재단의 사이트 안정성 팀은 일상적인 사용자들에게 중단을 방지하기 위해 이러한 크롤러를 차단하는 데 상당한 시간과 자원을 투입하고 있습니다. 이는 재단이 직면하고 있는 급등하는 클라우드 비용에 대해서는 언급조차 하지 않은 것입니다.
이 시나리오는 오픈 인터넷을 위협하는 더 큰 트렌드의 일부입니다. 지난 달, 소프트웨어 엔지니어이자 오픈소스 옹호자인 Drew DeVault는 AI 크롤러들이 자동화된 트래픽을 막기 위한 “robots.txt” 파일을 노골적으로 무시하고 있다고 한탄했습니다. 마찬가지로, “프래그매틱 엔지니어”로 알려진 Gergely Orosz는 최근 Meta와 같은 회사들의 AI 스크레이퍼가 그의 프로젝트에 대한 대역폭 수요를 급증시켰다고 좌절감을 표출했습니다.
오픈소스 인프라가 특히 취약하지만, 개발자들은 독창성과 결단력으로 대응하고 있습니다. TechCrunch는 지난 주 일부 기술 회사들이 나서고 있다고 강조했습니다. 예를 들어, Cloudflare는 AI로 생성된 콘텐츠로 크롤러를 늦추기 위해 설계된 AI Labyrinth를 도입했습니다.
그럼에도 불구하고, 이는 끊임없는 고양이와 쥐 게임으로 남아 있으며, 많은 퍼블리셔들이 로그인과 페이월 뒤로 후퇴하게 만들어, 우리가 모두 의존하는 웹의 오픈 본질을 궁극적으로 해칠 수 있습니다.
Zhiyuan WITA, 첫 규정 준수 신고로 ‘나체’ 로봇 상호작용 종료
체화 지능 분야가 중요한 이정표를 달성했습니다. 상하이 사이버공간관리국의 최근 발표에 따르면, 지위안(Zhiyuan)이 개발한 WITA 대형 모델이 신고 절차를 성공적으로 완료하여, 국내 최초로 규정을 준수하며 배포된 체화 지능 상호작용 대형 모델이 되었습니다.이번 성과는 단순한 허가 취득을 넘어선 의미를 지닙니다. WITA의 핵심 목적은 휴머노이드 로봇이
인류학 연구에 따르면, 정교하게 다듬어진 AI 콘텐츠가 인간의 사고력 저하와 관련이 있는 것으로 나타났다
AI가 구조가 탄탄하고 논리적으로 명확한 코드나 문서를 순식간에 생성하는 모습을 보면, 별다른 의심 없이 그대로 믿고 싶어지시나요? AI 분야 선도 기업인 Anthropic은 최근 ‘AI 유창성 지수(AI Fluency Index)’라는 제목의 연구 보고서를 발표했습니다. 약 1만 건의 익명 클로드(Claude ) 대화 샘플을 분석한 결과, 이 연구는 우려
영국 정부 부처들, AI 데이터센터의 에너지 수요를 두고 대립
영국 정부는 청정 에너지를 확대하는 동시에 인공지능 분야의 글로벌 리더가 되겠다는 목표를 달성해야 하는 중대한 과제에 직면해 있다. 그러나 이러한 목표를 담당하는 부처들 사이에는 심각한 견해 차이가 드러나고 있다. 과학·혁신·기술부(DSIT)와 에너지 안보 및 탄소중립부(DESNZ)는 AI 데이터 센터의 미래 전력 수요에 대해 극명하게 대조되는 전망을 내놓
這流量暴增也太誇張了吧!AI爬蟲把Wikimedia Commons的頻寬吃掉一半?難怪最近載圖變超慢...不過想想也合理,現在一堆AI模型都在狂抓訓練資料,但這樣搞下去會不會把非營利資源榨乾啊?有點擔心未來開放資源的永續性😅
Incroyable, 50% d'augmentation de bande passante pour Wikimedia Commons ! Ça montre à quel point l'IA aspire tout sur son passage, non ? 😅 J’espère juste que ça ne va pas surcharger les serveurs ou freiner l’accès pour les utilisateurs classiques.
Whoa, a 50% spike in Wikimedia Commons bandwidth? AI crawlers are eating up data like it’s an all-you-can-eat buffet! 😄 Makes me wonder how much of this is legit research vs. bots just hoarding images for some shady AI training. Anyone else curious about what’s driving this?
Wow, a 50% spike in bandwidth for Wikimedia Commons? That’s wild! AI crawlers are probably gobbling up all those images for training. Kinda cool but also makes me wonder if this is pushing the limits of what open platforms can handle. 😅
Wow, a 50% spike in bandwidth for Wikimedia Commons? That’s wild! AI crawlers are probably gobbling up all those images for training. Makes me wonder how much data these AI models are chugging through daily. 😳 Cool to see open knowledge fueling innovation, though!





집






