전문가들은 크라우드 소싱 AI 벤치 마크에서 심각한 결함을 강조합니다
2025년 4월 25일
JamesWalker
6
AI Labs는 최신 모델의 기능을 평가하기 위해 Chatbot Arena와 같은 크라우드 소싱 벤치마킹 플랫폼으로 점점 더 많이 전환하고 있습니다. 그러나 일부 전문가들은이 방법이 상당한 윤리적 및 학문적 문제를 제기한다고 주장합니다.
최근 몇 년 동안 OpenAi, Google 및 Meta와 같은 주요 플레이어는 사용자가 다가오는 모델의 성능을 평가하기 위해 사용자를 참여시키는 플랫폼을 활용했습니다. 이 플랫폼의 높은 점수는 종종 모델의 발전에 대한 증거로 실험실에 의해 강조됩니다. 그러나이 접근법은 비평가가없는 것이 아닙니다.
크라우드 소싱 벤치마킹의 비판
워싱턴 대학교의 언어학 교수이자 "AI Con"의 공동 저자 인 Emily Bender는 이러한 벤치 마크, 특히 Chatbot Arena의 유효성에 대한 우려를 표명했습니다. 이 플랫폼에는 두 개의 익명 모델의 응답을 비교하고 선호하는 모델을 선택하는 자원 봉사자가 포함됩니다. 벤더는 벤치 마크가 효과적이기 위해서는 특정한 것을 측정하고 구조적 유효성을 입증해야한다고 주장합니다. 즉, 측정 값은 평가되는 구조물을 정확하게 반영해야합니다. 그녀는 Chatbot Arena가 하나의 출력에 대한 사용자 선호도가 진정으로 정의 된 기준과 관련이 있다는 증거가 없다고 주장합니다.
AI 회사 인 Lesan의 공동 창립자이자 Distributed AI Research Institute의 동료 인 Asmelash Teka Hadgu는 AI Labs에 의해 이러한 벤치 마크가 악용되어 모델에 대한 과장된 주장을 제시하고 있다고 제안합니다. 그는 Meta의 Llama 4 Maverick Model과 최근 사건을 인용했으며, 여기서 Meta는 Chatbot Arena에서 잘 수행 할 수있는 버전을 미세 조정했지만 대신 덜 효과적인 버전을 출시하기로 결정했습니다. Hadgu는 벤치 마크가 역동적이고 여러 독립 기관에 배포되며, 이러한 모델을 사용하는 전문가들에 의한 교육 및 건강 관리와 같은 분야의 특정 사용 사례에 맞게 벤치 마크를 옹호합니다.
공정한 보상 및 광범위한 평가 방법을 요구합니다
아스펜 인스티튜트 (Aspen Institute)의 출현 및 지능형 기술 이니셔티브의 전 리더 인 하부 (Hadgu)와 크리스틴 글로리아 (Hadgu and Kristine Gloria)는 평가자들이 자신의 작업에 대한 보상을 받아야한다고 주장하며, 종종 착취적인 데이터 라벨링 산업과 유사하다고 주장했다. 글로리아는 크라우드 소스 벤치마킹을 시민 과학 이니셔티브와 유사하게 귀중한 것으로보고 있지만, 특히 빠른 산업 혁신 속도를 고려할 때 벤치 마크는 평가의 유일한 지표가되어서는 안된다고 강조합니다.
크라우드 소싱 레드 팀 캠페인을 수행하는 Gray Swan AI의 CEO 인 Matt Fredrikson은 새로운 기술을 배우고 연습하려는 자원 봉사자들을위한 그러한 플랫폼의 매력을 인정합니다. 그러나 그는 공공 벤치 마크가 유료 개인 평가로 제공된보다 심도있는 평가를 대체 할 수 없다고 강조합니다. Fredrikson은 개발자가 내부 벤치 마크, 알고리즘 빨간 팀 및보다 개방적이고 도메인 별 통찰력을 제공 할 수있는 계약 전문가에 의존해야한다고 제안합니다.
벤치마킹에 대한 산업 관점
Model Marketplace Openrouter의 CEO 인 Alex Atallah와 UC Berkeley의 AI 박사 과정 학생이자 Lmarena의 창립자 중 한 명인 Wei-Lin Chiang (Chatbot Arena를 관리하는 Wei-Lin Chiang)은 공개 테스트 및 벤치마킹 만 불충분하다는 데 동의합니다. Chiang은 Lmarena의 목표는 다양한 AI 모델에 대한 커뮤니티 선호도를 측정 할 수있는 신뢰할 수 있고 열린 공간을 제공하는 것이라고 강조합니다.
Chiang은 Maverick 벤치 마크에 대한 논쟁을 해결하면서 그러한 사건은 Chatbot Arena의 디자인의 결함이 아니라 실험실의 정책에 대한 잘못 해석 된 것으로 밝혀졌습니다. Lmarena는 이후 공정하고 재현 가능한 평가를 보장하기 위해 정책을 업데이트했습니다. Chiang은 플랫폼의 커뮤니티가 자원 봉사자 나 테스터 그룹 일뿐 만 아니라 AI 모델에 대한 집단적 피드백을 제공하는 참여 그룹이라고 강조합니다.

크라우드 소싱 벤치마킹 플랫폼의 사용에 대한 지속적인 논쟁은 AI 모델 평가에 대한 미묘한 접근 방식의 필요성을 강조합니다.이 방법은 공개 입력과 엄격하고 전문적인 평가를 결합하여 정확성과 공정성을 보장합니다.
관련 기사
AI 'Model Welfare'를 연구하기위한 Anthropic 런칭 프로그램
미래의 AIS가 의식이 될 수 있습니까? 미래의 AI가 인간과 비슷한 방식으로 세상을 경험할 수 있는지에 대한 문제는 흥미롭지 만 여전히 답이 남아 있습니다. AI Lab의 Anthropic은 그 가능성을 완전히 무시하지 않는다는 확실한 증거는 없지만 AI Lab의 Anthropic은 그 가능성을 무시하지 않습니다. 목요일, Anthro
레이스 업 스커트 트렌드 : 스타일링 팁과 복장 아이디어를 흔들어
레이스 업 스커트는 인기있는 트렌드가되어 대담한 여성과 대담한 가장자리를 합치고 있습니다. 시선을 사로 잡는 레이스 업 디테일로 유명한이 스커트는 패션 애호가들이 옷장을 꾸미고자하는 것입니다. 극적인 진술을하든 스타일의 미묘한 힌트를 받으려고하든
실용적인 AI : 발달에서 열정과 회의론 사이의 균형을 인상
끊임없이 진화하는 인공 지능 세계에서 .NET 및 C# 생태계 내에서 일하는 개발자에게는 균형 잡힌 관점을 유지하는 것이 필수적입니다. AI의 잠재력은 스릴이 있지만 회의론의 복용량은 실용적이고 효과적인 통합을 보장합니다. 이 기사는 실용적인 승인을받습니다
의견 (0)
0/200






AI Labs는 최신 모델의 기능을 평가하기 위해 Chatbot Arena와 같은 크라우드 소싱 벤치마킹 플랫폼으로 점점 더 많이 전환하고 있습니다. 그러나 일부 전문가들은이 방법이 상당한 윤리적 및 학문적 문제를 제기한다고 주장합니다.
최근 몇 년 동안 OpenAi, Google 및 Meta와 같은 주요 플레이어는 사용자가 다가오는 모델의 성능을 평가하기 위해 사용자를 참여시키는 플랫폼을 활용했습니다. 이 플랫폼의 높은 점수는 종종 모델의 발전에 대한 증거로 실험실에 의해 강조됩니다. 그러나이 접근법은 비평가가없는 것이 아닙니다.
크라우드 소싱 벤치마킹의 비판
워싱턴 대학교의 언어학 교수이자 "AI Con"의 공동 저자 인 Emily Bender는 이러한 벤치 마크, 특히 Chatbot Arena의 유효성에 대한 우려를 표명했습니다. 이 플랫폼에는 두 개의 익명 모델의 응답을 비교하고 선호하는 모델을 선택하는 자원 봉사자가 포함됩니다. 벤더는 벤치 마크가 효과적이기 위해서는 특정한 것을 측정하고 구조적 유효성을 입증해야한다고 주장합니다. 즉, 측정 값은 평가되는 구조물을 정확하게 반영해야합니다. 그녀는 Chatbot Arena가 하나의 출력에 대한 사용자 선호도가 진정으로 정의 된 기준과 관련이 있다는 증거가 없다고 주장합니다.
AI 회사 인 Lesan의 공동 창립자이자 Distributed AI Research Institute의 동료 인 Asmelash Teka Hadgu는 AI Labs에 의해 이러한 벤치 마크가 악용되어 모델에 대한 과장된 주장을 제시하고 있다고 제안합니다. 그는 Meta의 Llama 4 Maverick Model과 최근 사건을 인용했으며, 여기서 Meta는 Chatbot Arena에서 잘 수행 할 수있는 버전을 미세 조정했지만 대신 덜 효과적인 버전을 출시하기로 결정했습니다. Hadgu는 벤치 마크가 역동적이고 여러 독립 기관에 배포되며, 이러한 모델을 사용하는 전문가들에 의한 교육 및 건강 관리와 같은 분야의 특정 사용 사례에 맞게 벤치 마크를 옹호합니다.
공정한 보상 및 광범위한 평가 방법을 요구합니다
아스펜 인스티튜트 (Aspen Institute)의 출현 및 지능형 기술 이니셔티브의 전 리더 인 하부 (Hadgu)와 크리스틴 글로리아 (Hadgu and Kristine Gloria)는 평가자들이 자신의 작업에 대한 보상을 받아야한다고 주장하며, 종종 착취적인 데이터 라벨링 산업과 유사하다고 주장했다. 글로리아는 크라우드 소스 벤치마킹을 시민 과학 이니셔티브와 유사하게 귀중한 것으로보고 있지만, 특히 빠른 산업 혁신 속도를 고려할 때 벤치 마크는 평가의 유일한 지표가되어서는 안된다고 강조합니다.
크라우드 소싱 레드 팀 캠페인을 수행하는 Gray Swan AI의 CEO 인 Matt Fredrikson은 새로운 기술을 배우고 연습하려는 자원 봉사자들을위한 그러한 플랫폼의 매력을 인정합니다. 그러나 그는 공공 벤치 마크가 유료 개인 평가로 제공된보다 심도있는 평가를 대체 할 수 없다고 강조합니다. Fredrikson은 개발자가 내부 벤치 마크, 알고리즘 빨간 팀 및보다 개방적이고 도메인 별 통찰력을 제공 할 수있는 계약 전문가에 의존해야한다고 제안합니다.
벤치마킹에 대한 산업 관점
Model Marketplace Openrouter의 CEO 인 Alex Atallah와 UC Berkeley의 AI 박사 과정 학생이자 Lmarena의 창립자 중 한 명인 Wei-Lin Chiang (Chatbot Arena를 관리하는 Wei-Lin Chiang)은 공개 테스트 및 벤치마킹 만 불충분하다는 데 동의합니다. Chiang은 Lmarena의 목표는 다양한 AI 모델에 대한 커뮤니티 선호도를 측정 할 수있는 신뢰할 수 있고 열린 공간을 제공하는 것이라고 강조합니다.
Chiang은 Maverick 벤치 마크에 대한 논쟁을 해결하면서 그러한 사건은 Chatbot Arena의 디자인의 결함이 아니라 실험실의 정책에 대한 잘못 해석 된 것으로 밝혀졌습니다. Lmarena는 이후 공정하고 재현 가능한 평가를 보장하기 위해 정책을 업데이트했습니다. Chiang은 플랫폼의 커뮤니티가 자원 봉사자 나 테스터 그룹 일뿐 만 아니라 AI 모델에 대한 집단적 피드백을 제공하는 참여 그룹이라고 강조합니다.
크라우드 소싱 벤치마킹 플랫폼의 사용에 대한 지속적인 논쟁은 AI 모델 평가에 대한 미묘한 접근 방식의 필요성을 강조합니다.이 방법은 공개 입력과 엄격하고 전문적인 평가를 결합하여 정확성과 공정성을 보장합니다.



온라인 데이터 개인 정보를 되 찾는 5 가지 쉬운 단계 - 오늘 시작하십시오.









