세계를위한 AI, 또는 서쪽에? 연구원들이 Big Tech의 글로벌 격차를 해결하는 방법

2022년 OpenAI의 ChatGPT 출시 이후, 인공지능(AI)은 우리 일상 생활의 구조에 깊이 스며들었습니다. 그러나 보편적인 기술 접근을 민주화한다는 주장에도 불구하고, 종종 미국과 유럽 관객을 염두에 두고 설계된 AI 제품에 주목이 쏠립니다. 이들이 제공하는 애플리케이션부터 지원하는 언어까지, 이러한 도구들은 겉보기와 달리 항상 글로벌하지는 않습니다.
아프리카 전역에서 연구자와 기술자들은 이러한 경향에 반발하며, AI 산업 내의 더 넓은 권력 역학에 도전하고 현 상태를 뒤흔들고 있습니다. 그들의 작업은 지역 사회와 필요에 진정으로 부합하는 솔루션에 초점을 맞추는 것을 목표로 합니다.
글로벌 AI 권력 불균형
분산 AI 연구소(DAIR)는 변화의 등불로 자리 잡고 있으며, "Big Tech의 광범위한 영향에서 벗어나 독립적이고 지역사회에 뿌리를 둔 AI 연구"를 헌신하는 국제적 집단입니다. 저는 아프리카 맥락에 맞춘 AI 솔루션을 개발하며 사회적 필요를 다루는 DAIR 회원들과 대화할 기회를 가졌습니다. 이는 다국적 기업이나 주로 서구 사용자들의 이익이 아닌, 지역적 필요에 초점을 맞춘 것입니다.
레소토에 기반을 둔 DAIR의 선임 연구원이자 Deep Learning Indaba의 창립 멤버인 Nyalleng Moorosi는 이러한 선구자 중 한 명입니다. 그녀의 기계 학습 배경과 남아프리카 공립학교에서의 교육 경험은 기술의 형평성에 대한 그녀의 관점을 형성했습니다. 아파르트헤이트 시기에 흑인 학생을 받아들인 소수의 남아프리카 대학 중 하나인 포르테 대학(University of Forte)에서 교육자로 일했던 그녀는 빈곤이 학생들의 교육 여정에 미치는 영향을 직접 목격했습니다. "학부와 대학원 과정에서 겪었던 불안에 짓눌린 채로 내가 했던 일을 상상하는 것은 충격적이었습니다,"라고 그녀는 회상했습니다.
교육자 시절을 마친 후, Moorosi는 가나의 Google Africa AI 연구소에서 첫 번째 직원 중 한 명으로 Google에 합류했습니다. 소프트웨어 엔지니어로서 그녀는 책임 있는 AI 개발을 보장하는 방법론과 기술을 개발할 수 있었습니다. "Google이 아프리카에 사무실을 짓고 있었기 때문에 Google에 합류했습니다. 저는 아프리카에 있고 싶었습니다,"라고 Moorosi는 설명했습니다. "저는 그냥 Google에 가고 싶었던 것이 아니라 Google Africa에 가고 싶었습니다."
그러나 DAIR의 창립자이자 Google의 윤리적 AI 팀의 전 공동 리더였던 Timnit Gebru와의 대화는 Moorosi로 하여금 기계 학습에서 그녀가 꿈꾸던 형평성 중심의 작업에 Google이 적합한 플랫폼인지 의문을 품게 했습니다. 이를 계기로 그녀는 DAIR에 합류하여 Gebru와 함께 기술 산업에서 역사적으로 소외된 지역사회를 강화하기 위해 현지 전문가를 유지하고 자금을 지원하는 데 힘썼습니다.
DAIR의 AI 연구
2018년, Moorosi, Gebru, 그리고 DAIR 연구원 Raesetje Sefala는 남아프리카 타운십—역사적으로 흑인 거주자들이 주를 이루는 노동자 계층 동네—의 위성 이미지를 분석하는 프로젝트에 착수했습니다. 그들의 목표는 아파르트헤이트 종료 이후 이 지역들이 어떻게 발전했는지 이해하는 것이었습니다. 그들은 타운십 거주자들의 삶의 질이 시간이 지나면서 개선되었는지 평가하기 위해 데이터셋을 구축했습니다.
남아프리카 타운십은 도시 외곽에 위치하며, 부유한 교외 지역에 비해 개발 부족과 열악한 생활 조건으로 고통받고 있습니다. 정부의 인구 조사 데이터는 더 부유한 지역을 선호하는 경향이 있어 타운십 데이터는 거의 보이지 않으며, 이는 공간적 아파르트헤이트를 지속시키고 의료, 교육, 녹지와 같은 필수 서비스에 대한 접근을 제한합니다.
DAIR의 연구는 기존 남아프리카 AI 모델의 한계로 인해 도전에 직면했으며, 이 모델들은 타운십과 교외를 구분하는 데 어려움을 겪었습니다. 이를 극복하기 위해 연구자들은 수백만 개의 위성 이미지와 지리공간 데이터를 활용하여 기계 학습 모델을 훈련시켰습니다. 이 모델들은 부유한 지역, 비부유한 지역, 그리고 빈 땅이나 산업 구역을 포함한 비주거 건물 클러스터로 영역을 성공적으로 분류했습니다.
이러한 노력에도 불구하고, DAIR는 연구 결과를 발표하려 할 때 저항에 부딪혔습니다. 주로 백인 서구 학술 기관들은 이 연구를 기계 학습 연구라기보다는 지리적 연구로 비판했습니다. Moorosi는 좌절감을 표출했습니다: "우리는 동일한 메트릭, 알고리즘, 그리고 플롯을 포함한 커뮤니케이션 방법을 사용했습니다. 당시 많은 장난감 데이터셋이 사용되고 있었는데, 우리는 실제 문제에 관한 데이터셋을 가지고 있었지만 너무 틈새(niche)하다고 여겨졌습니다."
그럼에도 불구하고 Moorosi는 이 연구의 관련성을 강조했습니다: "역사적 분리가 우리의 삶에 어떻게 영향을 미치는지를 추적하는 것은 많은 전 영국 식민지에서 나타납니다. 나이로비에서도, 라고스에서도 그렇습니다. 식민지에서는 백인들이 여기 살고 흑인들이 저기 살았다는 것이 표준이었고, 자원의 분배는 여기와 저기에서 달랐습니다."
그녀는 연구의 내용이 아니라 그 품질이 서구 중심의 산업에서 인정받지 못한 것처럼 보인다고 강조했습니다.
소외된 지역사회를 위한 제공
Lesan AI의 공동 창립자이자 CTO이며 DAIR의 연구원인 Asmelash Teka Hadgu는 이 점을 더욱 강조했습니다. 그는 토착 아프리카 언어를 번역하고 전사하는 도구인 Lesan에 대해 논의했습니다. 미국 기반의 기술 대기업들과 달리, Lesan AI는 Amharic과 Tigrinya 같은 저자원 언어에 초점을 맞춥니다. Hadgu의 이러한 언어들과의 개인적 연결은 지역 신문과 라디오 콘텐츠를 재활용하여 견고한 데이터셋을 구축할 수 있게 했습니다.
아프리카 맥락에서 OpenAI나 Anthropic과 같은 기술 대기업의 인기 있는 언어 모델은 대륙의 다양한 언어적 풍경을 표현하는 데 부족합니다. Wei Rui Chen의 논문, Fumbling in Babel: An Investigation into ChatGPT's Language Identification Ability에 따르면, 아프리카 언어는 가장 적은 지원을 받습니다. "OpenAI의 ChatGPT는 완전히 망가졌으며, 약간 잘못된 것이 아니라 Amharic과 Tigrinya 같은 언어에서 터무니없는 결과를 만들어냅니다,"라고 Hadgu는 언급했습니다. "그럼에도 불구하고 그들은 여전히 영어 중심의 솔루션을 찾는 오래된 사고방식에 집중하고 있으며, 다른 언어들은 따라잡을 것이라고 가정합니다."
Lesan은 수백만 명의 사용자에게 정확한 번역을 제공하여 이들 지역사회에 웹 콘텐츠를 열어주는 것을 목표로 합니다. Hadgu는 이러한 언어들이 단순한 부가 요소가 아니라고 강조했습니다: "우리는 자원의 95%를 소수의 언어에 쏟아붓고 나머지를 소위 장기 언어로 다루지 않습니다."
서구 AI 기업들은 영어 중심의 콘텐츠에 비해 온라인에서 데이터 스크래핑에 덜 사용 가능한 저자원 언어를 적절히 표현하는 데 어려움을 겪습니다. 또한, Data Provenance Initiative의 연구에 따르면 AI 모델 훈련에 사용된 데이터는 주로 유럽과 북아메리카에서 왔으며, 아프리카에서 온 데이터는 소수에 불과합니다.
Hadgu는 Facebook의 No Language Left Behind 같은 프로젝트가 "편의" 데이터 스크래핑과 자동화된 방법에 의존한다고 비판했습니다. 그는 아프리카 언어가 영어 중심의 이니셔티브에 비해 최소한의 자금 지원을 받는다고 언급했습니다. Bloomberg는 Orange SA가 OpenAI 및 Meta Platforms Inc.와 협력하여 Woolof, Pulaar, Bambara 같은 아프리카 언어로 AI 프로그램을 훈련시키고 있다고 보도했습니다.
그러나 많은 아프리카 언어는 서구 LLM에서 종종 간과되는 톤 시스템과 구전 전통에 의존합니다. Hadgu는 지역 맥락의 정확한 표현을 보장하기 위해 장로와 지역사회 구성원을 참여시키는 것의 중요성을 강조했습니다.
Big Tech 기업이 언어별 모델을 개발하기 위해 소규모 AI 스타트업과 협력할 때, 종종 오픈소스 작업을 활용하여 아이디어와 자원을 빼앗습니다. 싱가포르의 AI 리더십 센터의 Georg Zoeller는 이 문제를 지적했습니다: "AI의 기본 도구를 오픈소싱함으로써 하이퍼스케일러들은 스타트업이 해당 분야에서 제품을 구축할 수 있게 했고, 이를 내부 팀을 제품 R&D의 주요 소스로 대체하는 데 사용했습니다."
Ghana NLP의 공동 창립자인 Paul Azunre 박사는 대기업이 보상 없이 데이터를 도용한 경험을 공유했습니다. Facebook이 오픈소스 모델에 그들의 데이터를 사용한 후 자금 지원 제안을 요청했습니다. "Facebook이 우리 데이터를 기반으로 오픈소스 모델을 발표한 후 우리에게 와서 '자금 지원 제안을 넣어보지 않겠냐'고 했습니다. 우리는 '당신들이 이미 우리 작업을 사용하고 있다'며 '우리가 더 뭘 증명해야 하나? 그냥 돈을 지불하라'고 했습니다,"라고 Azunre는 회상했습니다.
Ghana NLP는 Google Translate 같은 소프트웨어 제품의 격차를 메우기 위해 Twi, Ewe, Yoruba, Fante, Ga 같은 지역 언어로 음성 인식, 텍스트-음성 변환, 음성-텍스트 번역을 개발하며, 이웃 국가로 확장할 계획입니다. Azunre는 지역사회를 우선순위에 두는 것의 중요성을 강조했습니다: "자립 가능한 제품을 만들려는 개발자로서, 특정 제품이나 프로젝트가 특정 방식으로 우선순위가 정해지는 이유에 공감합니다. 가나에는 3천만 명의 Twi 화자가 있으므로 우리는 Twi를 먼저 내놓을 것입니다… 하지만 우리가 하는 일과 기술 대기업의 차이점은 우리에게는 지역사회가 최우선이라는 원칙입니다."
그는 지식이 추출된 지역사회 내에서 일자리와 데이터 통제를 유지하는 것이 필요하며, 지역 데이터 주권과 지역 데이터 소스를 만들어 아프리카 지역사회를 강화하고 그들의 언어적, 문화적 정체성을 AI 솔루션에서 보존해야 한다고 주장했습니다.
아프리카 AI의 다음 단계
기술 거버넌스 연구자인 Chinasa T. Okolo는 여러 아프리카 정부가 다국적 기업의 영향력을 막기 위해 AI 거버넌스 프레임워크를 개발하고 있다고 언급했습니다. 7개 아프리카 국가가 국가 AI 전략 초안을 작성했지만, 아직 공식적인 AI 규제 전략을 구현한 국가는 없습니다. 남아프리카 정부는 특히 소외된 지역과 농촌 지역에서 AI 기술에 대한 공정한 접근을 보장하기 위해 국가 AI 정책 프레임워크를 발표했습니다. 또한, 36개 아프리카 국가가 데이터 보호 규정을 제정하여 더 포괄적인 AI 규제 프레임워크의 기반을 마련했습니다.
한편, 서구 AI 기업들은 MENA 지역의 아랍어 사용 국가를 위한 Mistral의 모델이나 Meta AI의 아랍어 사용자 지원 확장과 같은 지역별 LLM에 초점을 맞추기 시작했습니다. 그러나 식민지 착취와 현재 AI 개발 트렌드 사이의 유사성은 점점 더 분명해지고 있습니다. MIT Tech Review의 Karen Hao는 다음과 같이 지적했습니다: "AI 산업이 오늘날 식민지 폭력의 정확한 양식을 반복하고 있다고 말하는 것은 과거의 트라우마를 축소하는 것이지만, 이제는 부유하고 강력한 자를 풍요롭게 하기 위해 가난한 자를 희생시키는 다른, 더 교묘한 수단을 사용하고 있습니다."
관련 기사
하와이 해변에서의 일탈: 새로운 유대감과 놀라운 반전
하와이의 깨끗한 해변, 피부를 따스하게 데워주는 햇살, 잔잔한 리듬을 만들어내는 파도를 상상해 보세요. 조쉬는 수년간의 노력 끝에 이 비전을 현실로 만들었습니다. 고요한 휴양지에서 시작된 여행은 곧 새로운 우정과 예상치 못한 반전으로 스릴 넘치는 여정으로 변모합니다. 하와이의 아름다운 해변을 따라 펼쳐지는 유대감, 해변에서의 즐거움, 예상치 못한 변화에
오지 오스본의 '크레이지 트레인' 애니메이션 비디오: 그 예술과 영향에 대한 심층 분석
오지 오스본의 '크레이지 트레인'은 헤비메탈 클래식의 지위를 넘어 문화적 이정표를 구현한 곡입니다. 이 애니메이션 뮤직 비디오는 노래의 생생한 에너지와 주제적 깊이를 증폭시키는 인상적인 시각적 여정을 선사합니다. 이 글에서는 이 뮤직비디오의 예술적 선택, 핵심 메시지, 지속적인 영향력에 대해 살펴봅니다.주요 하이라이트'미친 기차' 뮤직비디오는 대담한
EleutherAI가 AI 훈련을 위한 대규모 라이선스 텍스트 데이터셋 공개
EleutherAI, 선도적인 AI 연구 그룹은 AI 모델 훈련을 위한 가장 큰 라이선스 및 오픈 도메인 텍스트 컬렉션 중 하나를 출시했습니다.Common Pile v0.1이라는 이름의 이 8테라바이트 데이터셋은 AI 스타트업 Poolside, Hugging Face 및 다양한 학술 기관과 함께 2년 동안 개발되었습니다. 이 데이터셋은 EleutherAI의
의견 (42)
0/200
WillieJohnson
2025년 8월 26일 오후 2시 25분 25초 GMT+09:00
AI's global reach sounds grand, but it’s mostly a Western party. Cool to see researchers poking at Big Tech's blind spots—hope they dig deeper! 🌍
0
DavidLewis
2025년 8월 4일 오후 3시 1분 0초 GMT+09:00
It's wild how AI like ChatGPT seems so universal but mostly caters to Western vibes. Kinda makes you wonder if the 'global' tag is just marketing fluff. Are we ever gonna see AI that truly gets the rest of the world? 🤔
0
JustinJackson
2025년 4월 24일 오전 3시 47분 47초 GMT+09:00
AI para o mundo ou só para o Ocidente? É legal que a AI esteja em todos os lugares agora, mas por que parece sempre feita para americanos e europeus? Queria que focassem mais em torná-la realmente global. Ainda assim, é um passo na direção certa! 🌍👀
0
WilliamAllen
2025년 4월 23일 오전 4시 37분 38초 GMT+09:00
AI for the world? More like AI for the West! It's cool that AI is everywhere now, but why does it always seem tailored for American and European folks? I wish there was more focus on making it truly global. Still, it's a step in the right direction! 🌍👀
0
CharlesWhite
2025년 4월 22일 오전 11시 11분 35초 GMT+09:00
¡Lectura interesante sobre el impacto global de la IA! Es genial ver a los investigadores abordando las brechas en la tecnología, pero es frustrante ver tanto enfoque aún en Occidente. Necesitamos más herramientas diseñadas para todos, no solo para los sospechosos habituales. ¡Sigan empujando por una IA verdaderamente global, chicos! 🌍
0
JackPerez
2025년 4월 22일 오전 3시 15분 34초 GMT+09:00
Leitura interessante sobre o impacto global da IA! É ótimo ver pesquisadores abordando as lacunas na tecnologia, mas é frustrante ver tanto foco ainda no Ocidente. Precisamos de mais ferramentas projetadas para todos, não apenas para os suspeitos habituais. Continuem empurrando por uma IA verdadeiramente global, pessoal! 🌍
0
2022년 OpenAI의 ChatGPT 출시 이후, 인공지능(AI)은 우리 일상 생활의 구조에 깊이 스며들었습니다. 그러나 보편적인 기술 접근을 민주화한다는 주장에도 불구하고, 종종 미국과 유럽 관객을 염두에 두고 설계된 AI 제품에 주목이 쏠립니다. 이들이 제공하는 애플리케이션부터 지원하는 언어까지, 이러한 도구들은 겉보기와 달리 항상 글로벌하지는 않습니다.
아프리카 전역에서 연구자와 기술자들은 이러한 경향에 반발하며, AI 산업 내의 더 넓은 권력 역학에 도전하고 현 상태를 뒤흔들고 있습니다. 그들의 작업은 지역 사회와 필요에 진정으로 부합하는 솔루션에 초점을 맞추는 것을 목표로 합니다.
글로벌 AI 권력 불균형
분산 AI 연구소(DAIR)는 변화의 등불로 자리 잡고 있으며, "Big Tech의 광범위한 영향에서 벗어나 독립적이고 지역사회에 뿌리를 둔 AI 연구"를 헌신하는 국제적 집단입니다. 저는 아프리카 맥락에 맞춘 AI 솔루션을 개발하며 사회적 필요를 다루는 DAIR 회원들과 대화할 기회를 가졌습니다. 이는 다국적 기업이나 주로 서구 사용자들의 이익이 아닌, 지역적 필요에 초점을 맞춘 것입니다.
레소토에 기반을 둔 DAIR의 선임 연구원이자 Deep Learning Indaba의 창립 멤버인 Nyalleng Moorosi는 이러한 선구자 중 한 명입니다. 그녀의 기계 학습 배경과 남아프리카 공립학교에서의 교육 경험은 기술의 형평성에 대한 그녀의 관점을 형성했습니다. 아파르트헤이트 시기에 흑인 학생을 받아들인 소수의 남아프리카 대학 중 하나인 포르테 대학(University of Forte)에서 교육자로 일했던 그녀는 빈곤이 학생들의 교육 여정에 미치는 영향을 직접 목격했습니다. "학부와 대학원 과정에서 겪었던 불안에 짓눌린 채로 내가 했던 일을 상상하는 것은 충격적이었습니다,"라고 그녀는 회상했습니다.
교육자 시절을 마친 후, Moorosi는 가나의 Google Africa AI 연구소에서 첫 번째 직원 중 한 명으로 Google에 합류했습니다. 소프트웨어 엔지니어로서 그녀는 책임 있는 AI 개발을 보장하는 방법론과 기술을 개발할 수 있었습니다. "Google이 아프리카에 사무실을 짓고 있었기 때문에 Google에 합류했습니다. 저는 아프리카에 있고 싶었습니다,"라고 Moorosi는 설명했습니다. "저는 그냥 Google에 가고 싶었던 것이 아니라 Google Africa에 가고 싶었습니다."
그러나 DAIR의 창립자이자 Google의 윤리적 AI 팀의 전 공동 리더였던 Timnit Gebru와의 대화는 Moorosi로 하여금 기계 학습에서 그녀가 꿈꾸던 형평성 중심의 작업에 Google이 적합한 플랫폼인지 의문을 품게 했습니다. 이를 계기로 그녀는 DAIR에 합류하여 Gebru와 함께 기술 산업에서 역사적으로 소외된 지역사회를 강화하기 위해 현지 전문가를 유지하고 자금을 지원하는 데 힘썼습니다.
DAIR의 AI 연구
2018년, Moorosi, Gebru, 그리고 DAIR 연구원 Raesetje Sefala는 남아프리카 타운십—역사적으로 흑인 거주자들이 주를 이루는 노동자 계층 동네—의 위성 이미지를 분석하는 프로젝트에 착수했습니다. 그들의 목표는 아파르트헤이트 종료 이후 이 지역들이 어떻게 발전했는지 이해하는 것이었습니다. 그들은 타운십 거주자들의 삶의 질이 시간이 지나면서 개선되었는지 평가하기 위해 데이터셋을 구축했습니다.
남아프리카 타운십은 도시 외곽에 위치하며, 부유한 교외 지역에 비해 개발 부족과 열악한 생활 조건으로 고통받고 있습니다. 정부의 인구 조사 데이터는 더 부유한 지역을 선호하는 경향이 있어 타운십 데이터는 거의 보이지 않으며, 이는 공간적 아파르트헤이트를 지속시키고 의료, 교육, 녹지와 같은 필수 서비스에 대한 접근을 제한합니다.
DAIR의 연구는 기존 남아프리카 AI 모델의 한계로 인해 도전에 직면했으며, 이 모델들은 타운십과 교외를 구분하는 데 어려움을 겪었습니다. 이를 극복하기 위해 연구자들은 수백만 개의 위성 이미지와 지리공간 데이터를 활용하여 기계 학습 모델을 훈련시켰습니다. 이 모델들은 부유한 지역, 비부유한 지역, 그리고 빈 땅이나 산업 구역을 포함한 비주거 건물 클러스터로 영역을 성공적으로 분류했습니다.
이러한 노력에도 불구하고, DAIR는 연구 결과를 발표하려 할 때 저항에 부딪혔습니다. 주로 백인 서구 학술 기관들은 이 연구를 기계 학습 연구라기보다는 지리적 연구로 비판했습니다. Moorosi는 좌절감을 표출했습니다: "우리는 동일한 메트릭, 알고리즘, 그리고 플롯을 포함한 커뮤니케이션 방법을 사용했습니다. 당시 많은 장난감 데이터셋이 사용되고 있었는데, 우리는 실제 문제에 관한 데이터셋을 가지고 있었지만 너무 틈새(niche)하다고 여겨졌습니다."
그럼에도 불구하고 Moorosi는 이 연구의 관련성을 강조했습니다: "역사적 분리가 우리의 삶에 어떻게 영향을 미치는지를 추적하는 것은 많은 전 영국 식민지에서 나타납니다. 나이로비에서도, 라고스에서도 그렇습니다. 식민지에서는 백인들이 여기 살고 흑인들이 저기 살았다는 것이 표준이었고, 자원의 분배는 여기와 저기에서 달랐습니다."
그녀는 연구의 내용이 아니라 그 품질이 서구 중심의 산업에서 인정받지 못한 것처럼 보인다고 강조했습니다.
소외된 지역사회를 위한 제공
Lesan AI의 공동 창립자이자 CTO이며 DAIR의 연구원인 Asmelash Teka Hadgu는 이 점을 더욱 강조했습니다. 그는 토착 아프리카 언어를 번역하고 전사하는 도구인 Lesan에 대해 논의했습니다. 미국 기반의 기술 대기업들과 달리, Lesan AI는 Amharic과 Tigrinya 같은 저자원 언어에 초점을 맞춥니다. Hadgu의 이러한 언어들과의 개인적 연결은 지역 신문과 라디오 콘텐츠를 재활용하여 견고한 데이터셋을 구축할 수 있게 했습니다.
아프리카 맥락에서 OpenAI나 Anthropic과 같은 기술 대기업의 인기 있는 언어 모델은 대륙의 다양한 언어적 풍경을 표현하는 데 부족합니다. Wei Rui Chen의 논문, Fumbling in Babel: An Investigation into ChatGPT's Language Identification Ability에 따르면, 아프리카 언어는 가장 적은 지원을 받습니다. "OpenAI의 ChatGPT는 완전히 망가졌으며, 약간 잘못된 것이 아니라 Amharic과 Tigrinya 같은 언어에서 터무니없는 결과를 만들어냅니다,"라고 Hadgu는 언급했습니다. "그럼에도 불구하고 그들은 여전히 영어 중심의 솔루션을 찾는 오래된 사고방식에 집중하고 있으며, 다른 언어들은 따라잡을 것이라고 가정합니다."
Lesan은 수백만 명의 사용자에게 정확한 번역을 제공하여 이들 지역사회에 웹 콘텐츠를 열어주는 것을 목표로 합니다. Hadgu는 이러한 언어들이 단순한 부가 요소가 아니라고 강조했습니다: "우리는 자원의 95%를 소수의 언어에 쏟아붓고 나머지를 소위 장기 언어로 다루지 않습니다."
서구 AI 기업들은 영어 중심의 콘텐츠에 비해 온라인에서 데이터 스크래핑에 덜 사용 가능한 저자원 언어를 적절히 표현하는 데 어려움을 겪습니다. 또한, Data Provenance Initiative의 연구에 따르면 AI 모델 훈련에 사용된 데이터는 주로 유럽과 북아메리카에서 왔으며, 아프리카에서 온 데이터는 소수에 불과합니다.
Hadgu는 Facebook의 No Language Left Behind 같은 프로젝트가 "편의" 데이터 스크래핑과 자동화된 방법에 의존한다고 비판했습니다. 그는 아프리카 언어가 영어 중심의 이니셔티브에 비해 최소한의 자금 지원을 받는다고 언급했습니다. Bloomberg는 Orange SA가 OpenAI 및 Meta Platforms Inc.와 협력하여 Woolof, Pulaar, Bambara 같은 아프리카 언어로 AI 프로그램을 훈련시키고 있다고 보도했습니다.
그러나 많은 아프리카 언어는 서구 LLM에서 종종 간과되는 톤 시스템과 구전 전통에 의존합니다. Hadgu는 지역 맥락의 정확한 표현을 보장하기 위해 장로와 지역사회 구성원을 참여시키는 것의 중요성을 강조했습니다.
Big Tech 기업이 언어별 모델을 개발하기 위해 소규모 AI 스타트업과 협력할 때, 종종 오픈소스 작업을 활용하여 아이디어와 자원을 빼앗습니다. 싱가포르의 AI 리더십 센터의 Georg Zoeller는 이 문제를 지적했습니다: "AI의 기본 도구를 오픈소싱함으로써 하이퍼스케일러들은 스타트업이 해당 분야에서 제품을 구축할 수 있게 했고, 이를 내부 팀을 제품 R&D의 주요 소스로 대체하는 데 사용했습니다."
Ghana NLP의 공동 창립자인 Paul Azunre 박사는 대기업이 보상 없이 데이터를 도용한 경험을 공유했습니다. Facebook이 오픈소스 모델에 그들의 데이터를 사용한 후 자금 지원 제안을 요청했습니다. "Facebook이 우리 데이터를 기반으로 오픈소스 모델을 발표한 후 우리에게 와서 '자금 지원 제안을 넣어보지 않겠냐'고 했습니다. 우리는 '당신들이 이미 우리 작업을 사용하고 있다'며 '우리가 더 뭘 증명해야 하나? 그냥 돈을 지불하라'고 했습니다,"라고 Azunre는 회상했습니다.
Ghana NLP는 Google Translate 같은 소프트웨어 제품의 격차를 메우기 위해 Twi, Ewe, Yoruba, Fante, Ga 같은 지역 언어로 음성 인식, 텍스트-음성 변환, 음성-텍스트 번역을 개발하며, 이웃 국가로 확장할 계획입니다. Azunre는 지역사회를 우선순위에 두는 것의 중요성을 강조했습니다: "자립 가능한 제품을 만들려는 개발자로서, 특정 제품이나 프로젝트가 특정 방식으로 우선순위가 정해지는 이유에 공감합니다. 가나에는 3천만 명의 Twi 화자가 있으므로 우리는 Twi를 먼저 내놓을 것입니다… 하지만 우리가 하는 일과 기술 대기업의 차이점은 우리에게는 지역사회가 최우선이라는 원칙입니다."
그는 지식이 추출된 지역사회 내에서 일자리와 데이터 통제를 유지하는 것이 필요하며, 지역 데이터 주권과 지역 데이터 소스를 만들어 아프리카 지역사회를 강화하고 그들의 언어적, 문화적 정체성을 AI 솔루션에서 보존해야 한다고 주장했습니다.
아프리카 AI의 다음 단계
기술 거버넌스 연구자인 Chinasa T. Okolo는 여러 아프리카 정부가 다국적 기업의 영향력을 막기 위해 AI 거버넌스 프레임워크를 개발하고 있다고 언급했습니다. 7개 아프리카 국가가 국가 AI 전략 초안을 작성했지만, 아직 공식적인 AI 규제 전략을 구현한 국가는 없습니다. 남아프리카 정부는 특히 소외된 지역과 농촌 지역에서 AI 기술에 대한 공정한 접근을 보장하기 위해 국가 AI 정책 프레임워크를 발표했습니다. 또한, 36개 아프리카 국가가 데이터 보호 규정을 제정하여 더 포괄적인 AI 규제 프레임워크의 기반을 마련했습니다.
한편, 서구 AI 기업들은 MENA 지역의 아랍어 사용 국가를 위한 Mistral의 모델이나 Meta AI의 아랍어 사용자 지원 확장과 같은 지역별 LLM에 초점을 맞추기 시작했습니다. 그러나 식민지 착취와 현재 AI 개발 트렌드 사이의 유사성은 점점 더 분명해지고 있습니다. MIT Tech Review의 Karen Hao는 다음과 같이 지적했습니다: "AI 산업이 오늘날 식민지 폭력의 정확한 양식을 반복하고 있다고 말하는 것은 과거의 트라우마를 축소하는 것이지만, 이제는 부유하고 강력한 자를 풍요롭게 하기 위해 가난한 자를 희생시키는 다른, 더 교묘한 수단을 사용하고 있습니다."




AI's global reach sounds grand, but it’s mostly a Western party. Cool to see researchers poking at Big Tech's blind spots—hope they dig deeper! 🌍




It's wild how AI like ChatGPT seems so universal but mostly caters to Western vibes. Kinda makes you wonder if the 'global' tag is just marketing fluff. Are we ever gonna see AI that truly gets the rest of the world? 🤔




AI para o mundo ou só para o Ocidente? É legal que a AI esteja em todos os lugares agora, mas por que parece sempre feita para americanos e europeus? Queria que focassem mais em torná-la realmente global. Ainda assim, é um passo na direção certa! 🌍👀




AI for the world? More like AI for the West! It's cool that AI is everywhere now, but why does it always seem tailored for American and European folks? I wish there was more focus on making it truly global. Still, it's a step in the right direction! 🌍👀




¡Lectura interesante sobre el impacto global de la IA! Es genial ver a los investigadores abordando las brechas en la tecnología, pero es frustrante ver tanto enfoque aún en Occidente. Necesitamos más herramientas diseñadas para todos, no solo para los sospechosos habituales. ¡Sigan empujando por una IA verdaderamente global, chicos! 🌍




Leitura interessante sobre o impacto global da IA! É ótimo ver pesquisadores abordando as lacunas na tecnologia, mas é frustrante ver tanto foco ainda no Ocidente. Precisamos de mais ferramentas projetadas para todos, não apenas para os suspeitos habituais. Continuem empurrando por uma IA verdadeiramente global, pessoal! 🌍












