전문가들은 크라우드 소싱 AI 벤치 마크에서 심각한 결함을 강조합니다

AI 연구소들은 최신 모델의 능력을 평가하기 위해 Chatbot Arena와 같은 크라우드소싱 벤치마킹 플랫폼을 점점 더 많이 활용하고 있습니다. 하지만 일부 전문가들은 이 방법이 상당한 윤리적, 학문적 우려를 불러일으킨다고 주장합니다.
최근 몇 년 동안 OpenAI, Google, Meta와 같은 주요 기업들은 사용자들이 차기 모델의 성능을 평가하도록 유도하는 플랫폼을 활용해왔습니다. 이러한 플랫폼에서 높은 점수를 받는 것은 연구소들이 모델의 발전을 증명하는 증거로 종종 강조됩니다. 그러나 이 접근 방식은 비판이 없는 것은 아닙니다.
크라우드소싱 벤치마킹에 대한 비판
워싱턴 대학교의 언어학 교수이자 "The AI Con"의 공동 저자인 Emily Bender는 특히 Chatbot Arena와 같은 벤치마크의 타당성에 대해 우려를 표명했습니다. 이 플랫폼은 자원봉사자들이 두 개의 익명 모델의 응답을 비교하고 선호하는 모델을 선택하는 방식으로 운영됩니다. Bender는 벤치마크가 효과적이려면 특정한 것을 측정하고, 측정된 결과가 평가 대상인 구성 요소를 정확히 반영하는 구성 타당성을 보여야 한다고 주장합니다. 그녀는 Chatbot Arena가 사용자 선호도가 특정 기준과 진정으로 상관관계가 있다는 증거를 제공하지 못한다고 비판합니다.
AI 기업 Lesan의 공동 창립자이자 Distributed AI Research Institute의 펠로우인 Asmelash Teka Hadgu는 이러한 벤치마크가 AI 연구소들에 의해 모델에 대한 과장된 주장을 하기 위해 악용되고 있다고 제안합니다. 그는 Meta의 Llama 4 Maverick 모델과 관련된 최근 사건을 예로 들며, Meta가 Chatbot Arena에서 좋은 성과를 내도록 미세 조정한 버전을 개발했지만, 덜 효과적인 버전을 출시했다고 밝혔습니다. Hadgu는 벤치마크가 동적이고, 여러 독립적인 기관에 분산되며, 교육 및 의료와 같은 분야의 전문가들이 사용하는 특정 사용 사례에 맞춰져야 한다고 주장합니다.
공정한 보상과 더 광범위한 평가 방법에 대한 요구
Hadgu와 Aspen Institute의 Emergent and Intelligent Technologies Initiative의 전 리더인 Kristine Gloria는 평가자들이 그들의 작업에 대해 보상을 받아야 하며, 이는 종종 착취적인 데이터 라벨링 산업과 유사하다고 주장합니다. Gloria는 크라우드소싱 벤치마킹을 시민 과학 이니셔티브와 유사하게 가치 있는 것으로 보지만, 특히 산업 혁신의 빠른 속도를 고려할 때 벤치마크가 평가의 유일한 기준이 되어서는 안 된다고 강조합니다.
크라우드소싱 레드 팀 캠페인을 수행하는 Gray Swan AI의 CEO인 Matt Fredrikson은 새로운 기술을 배우고 실습하려는 자원봉사자들에게 이러한 플랫폼의 매력을 인정합니다. 하지만 그는 공개 벤치마크가 유료로 진행되는 비공개 평가를 대체할 수 없다고 강조합니다. Fredrikson은 개발자들이 내부 벤치마크, 알고리즘 레드 팀, 그리고 보다 개방적이고 도메인별 통찰을 제공할 수 있는 계약 전문가에 의존해야 한다고 제안합니다.
벤치마킹에 대한 산업 관점
모델 마켓플레이스 OpenRouter의 CEO인 Alex Atallah와 UC Berkeley의 AI 박사 과정 학생이자 LMArena(Chatbot Arena를 관리하는)의 공동 창립자 중 한 명인 Wei-Lin Chiang은 공개 테스트와 벤치마킹만으로는 충분하지 않다는 데 동의합니다. Chiang은 LMArena의 목표가 다양한 AI 모델에 대한 커뮤니티 선호도를 측정할 수 있는 신뢰할 수 있는 공개 공간을 제공하는 것이라고 강조합니다.
Maverick 벤치마크를 둘러싼 논란에 대해 Chiang은 이러한 사건이 Chatbot Arena의 설계 결함 때문이 아니라 연구소들이 정책을 잘못 해석한 결과라고 명확히 합니다. LMArena는 이후 공정하고 재현 가능한 평가를 보장하기 위해 정책을 업데이트했습니다. Chiang은 플랫폼의 커뮤니티가 단순한 자원봉사자나 테스터 그룹이 아니라 AI 모델에 대한 집단적 피드백을 제공하는 참여 커뮤니티라고 강조합니다.
크라우드소싱 벤치마킹 플랫폼의 사용을 둘러싼 지속적인 논쟁은 AI 모델 평가에 보다 정교한 접근이 필요하다는 점을 강조하며, 정확성과 공정성을 보장하기 위해 공개 입력과 엄격한 전문 평가를 결합해야 한다는 점을 보여줍니다.
관련 기사
야오크 미디어의 첫 AIGC 드라마 '진링의 청동 미스터리'가 오늘 AI가 연기한 주연 배우들과 함께 공개된다
오늘, 야오케 미디어의 AIGC 판타지 미스터리 단편 드라마 《진링 청동의 비밀》이 공식 공개됩니다. 이 작품은 회사 최초의 AI 배우 두 명인 진링위예와 린시야녠이 주연을 맡았으며, 신비로운 진링 광산 지역을 배경으로 이야기가 펼쳐집니다. 은퇴한 정보 요원 진웨가 팀을 이끌고 이 지역 깊숙이 들어가, 오랫동안 묻혀 있던 광산 참사와 두 세대에 걸친 피의
사티야 나델라, 새로운 오픈AI 협력을 활용할 준비가 되었다
수요일에 월스트리트의 한 애널리스트가 마이크로소프트의 사티야 나델라 CEO에게 개정된 오픈AI와의 파트너십이 회사의 재무 상황에 어떤 영향을 미칠지 직접 물었습니다.나델라는 이 새로운 협약이 모든 당사자에게 이익이 된다고 설명했습니다. “오픈AI와의 파트너십에 대해 우리는 만족하고 있습니다. 저는 언제나 모든 파트너십에서 상호 이익이 되도록 하는 데 집중합니다. 그렇게 해야만 좋은 파트너로 남을 수 있기 때문입니다.”그는 마이크로소프트가 여
WordPress.com에서는 이제 AI 에이전트가 게시물을 작성하고 게시할 수 있게 되었으며, 그 외에도 다양한 기능이 추가되었습니다
인기 웹 호스팅 및 게시 플랫폼인 WordPress.com이 이제 AI 에이전트를 도입하고 있으며, 이는 웹의 모습과 사용 경험을 재편할 수 있는 움직임입니다. 이 회사는 금요일, AI 에이전트가 고객 웹사이트에서 콘텐츠를 작성, 편집 및 게시할 뿐만 아니라 댓글을 관리하고, 메타데이터를 업데이트 및 수정하며, 태그와 카테고리를 통해 콘텐츠를 정리할 수 있
관련 특별 주제 추천
의견 (17)
0/500
這篇文章點出了一個關鍵問題:眾包評測雖然快速,但真的能反映AI模型的真實能力嗎?專家們的擔憂很有道理,學術嚴謹性和倫理風險確實需要更嚴格的把關。希望業界能盡快建立更可靠的評估標準,而不是一味追求排行榜上的名次。🤔
Crowdsourced AI benchmarks sound cool, but experts pointing out ethical issues makes me wonder if we're rushing too fast. 🤔 Are we sacrificing quality for hype?
Estou acompanhando o debate sobre benchmarks de IA crowdsourced e, honestamente, é uma bagunça. Os especialistas têm razão ao apontar as falhas, mas qual é a alternativa? É como tentar consertar um barco que vaza com mais buracos. Ainda assim, é uma leitura interessante e certamente faz você pensar sobre o futuro da ética em IA. Experimente se você gosta desse tipo de coisa! 😅
Nossa, benchmarks de IA por multidão? Parece legal, mas com falhas éticas? Tô pensando se isso não atrapalha a inovação. As big techs precisam resolver isso logo! 🚀
I've been following the debate on crowdsourced AI benchmarks and honestly, it's a mess. Experts are right to point out the flaws, but what's the alternative? It's like trying to fix a leaky boat with more holes. Still, it's an interesting read and definitely makes you think about the future of AI ethics. Give it a go if you're into that kinda stuff! 😅

AI 연구소들은 최신 모델의 능력을 평가하기 위해 Chatbot Arena와 같은 크라우드소싱 벤치마킹 플랫폼을 점점 더 많이 활용하고 있습니다. 하지만 일부 전문가들은 이 방법이 상당한 윤리적, 학문적 우려를 불러일으킨다고 주장합니다.
최근 몇 년 동안 OpenAI, Google, Meta와 같은 주요 기업들은 사용자들이 차기 모델의 성능을 평가하도록 유도하는 플랫폼을 활용해왔습니다. 이러한 플랫폼에서 높은 점수를 받는 것은 연구소들이 모델의 발전을 증명하는 증거로 종종 강조됩니다. 그러나 이 접근 방식은 비판이 없는 것은 아닙니다.
크라우드소싱 벤치마킹에 대한 비판
워싱턴 대학교의 언어학 교수이자 "The AI Con"의 공동 저자인 Emily Bender는 특히 Chatbot Arena와 같은 벤치마크의 타당성에 대해 우려를 표명했습니다. 이 플랫폼은 자원봉사자들이 두 개의 익명 모델의 응답을 비교하고 선호하는 모델을 선택하는 방식으로 운영됩니다. Bender는 벤치마크가 효과적이려면 특정한 것을 측정하고, 측정된 결과가 평가 대상인 구성 요소를 정확히 반영하는 구성 타당성을 보여야 한다고 주장합니다. 그녀는 Chatbot Arena가 사용자 선호도가 특정 기준과 진정으로 상관관계가 있다는 증거를 제공하지 못한다고 비판합니다.
AI 기업 Lesan의 공동 창립자이자 Distributed AI Research Institute의 펠로우인 Asmelash Teka Hadgu는 이러한 벤치마크가 AI 연구소들에 의해 모델에 대한 과장된 주장을 하기 위해 악용되고 있다고 제안합니다. 그는 Meta의 Llama 4 Maverick 모델과 관련된 최근 사건을 예로 들며, Meta가 Chatbot Arena에서 좋은 성과를 내도록 미세 조정한 버전을 개발했지만, 덜 효과적인 버전을 출시했다고 밝혔습니다. Hadgu는 벤치마크가 동적이고, 여러 독립적인 기관에 분산되며, 교육 및 의료와 같은 분야의 전문가들이 사용하는 특정 사용 사례에 맞춰져야 한다고 주장합니다.
공정한 보상과 더 광범위한 평가 방법에 대한 요구
Hadgu와 Aspen Institute의 Emergent and Intelligent Technologies Initiative의 전 리더인 Kristine Gloria는 평가자들이 그들의 작업에 대해 보상을 받아야 하며, 이는 종종 착취적인 데이터 라벨링 산업과 유사하다고 주장합니다. Gloria는 크라우드소싱 벤치마킹을 시민 과학 이니셔티브와 유사하게 가치 있는 것으로 보지만, 특히 산업 혁신의 빠른 속도를 고려할 때 벤치마크가 평가의 유일한 기준이 되어서는 안 된다고 강조합니다.
크라우드소싱 레드 팀 캠페인을 수행하는 Gray Swan AI의 CEO인 Matt Fredrikson은 새로운 기술을 배우고 실습하려는 자원봉사자들에게 이러한 플랫폼의 매력을 인정합니다. 하지만 그는 공개 벤치마크가 유료로 진행되는 비공개 평가를 대체할 수 없다고 강조합니다. Fredrikson은 개발자들이 내부 벤치마크, 알고리즘 레드 팀, 그리고 보다 개방적이고 도메인별 통찰을 제공할 수 있는 계약 전문가에 의존해야 한다고 제안합니다.
벤치마킹에 대한 산업 관점
모델 마켓플레이스 OpenRouter의 CEO인 Alex Atallah와 UC Berkeley의 AI 박사 과정 학생이자 LMArena(Chatbot Arena를 관리하는)의 공동 창립자 중 한 명인 Wei-Lin Chiang은 공개 테스트와 벤치마킹만으로는 충분하지 않다는 데 동의합니다. Chiang은 LMArena의 목표가 다양한 AI 모델에 대한 커뮤니티 선호도를 측정할 수 있는 신뢰할 수 있는 공개 공간을 제공하는 것이라고 강조합니다.
Maverick 벤치마크를 둘러싼 논란에 대해 Chiang은 이러한 사건이 Chatbot Arena의 설계 결함 때문이 아니라 연구소들이 정책을 잘못 해석한 결과라고 명확히 합니다. LMArena는 이후 공정하고 재현 가능한 평가를 보장하기 위해 정책을 업데이트했습니다. Chiang은 플랫폼의 커뮤니티가 단순한 자원봉사자나 테스터 그룹이 아니라 AI 모델에 대한 집단적 피드백을 제공하는 참여 커뮤니티라고 강조합니다.
크라우드소싱 벤치마킹 플랫폼의 사용을 둘러싼 지속적인 논쟁은 AI 모델 평가에 보다 정교한 접근이 필요하다는 점을 강조하며, 정확성과 공정성을 보장하기 위해 공개 입력과 엄격한 전문 평가를 결합해야 한다는 점을 보여줍니다.
야오크 미디어의 첫 AIGC 드라마 '진링의 청동 미스터리'가 오늘 AI가 연기한 주연 배우들과 함께 공개된다
오늘, 야오케 미디어의 AIGC 판타지 미스터리 단편 드라마 《진링 청동의 비밀》이 공식 공개됩니다. 이 작품은 회사 최초의 AI 배우 두 명인 진링위예와 린시야녠이 주연을 맡았으며, 신비로운 진링 광산 지역을 배경으로 이야기가 펼쳐집니다. 은퇴한 정보 요원 진웨가 팀을 이끌고 이 지역 깊숙이 들어가, 오랫동안 묻혀 있던 광산 참사와 두 세대에 걸친 피의
사티야 나델라, 새로운 오픈AI 협력을 활용할 준비가 되었다
수요일에 월스트리트의 한 애널리스트가 마이크로소프트의 사티야 나델라 CEO에게 개정된 오픈AI와의 파트너십이 회사의 재무 상황에 어떤 영향을 미칠지 직접 물었습니다.나델라는 이 새로운 협약이 모든 당사자에게 이익이 된다고 설명했습니다. “오픈AI와의 파트너십에 대해 우리는 만족하고 있습니다. 저는 언제나 모든 파트너십에서 상호 이익이 되도록 하는 데 집중합니다. 그렇게 해야만 좋은 파트너로 남을 수 있기 때문입니다.”그는 마이크로소프트가 여
WordPress.com에서는 이제 AI 에이전트가 게시물을 작성하고 게시할 수 있게 되었으며, 그 외에도 다양한 기능이 추가되었습니다
인기 웹 호스팅 및 게시 플랫폼인 WordPress.com이 이제 AI 에이전트를 도입하고 있으며, 이는 웹의 모습과 사용 경험을 재편할 수 있는 움직임입니다. 이 회사는 금요일, AI 에이전트가 고객 웹사이트에서 콘텐츠를 작성, 편집 및 게시할 뿐만 아니라 댓글을 관리하고, 메타데이터를 업데이트 및 수정하며, 태그와 카테고리를 통해 콘텐츠를 정리할 수 있
這篇文章點出了一個關鍵問題:眾包評測雖然快速,但真的能反映AI模型的真實能力嗎?專家們的擔憂很有道理,學術嚴謹性和倫理風險確實需要更嚴格的把關。希望業界能盡快建立更可靠的評估標準,而不是一味追求排行榜上的名次。🤔
Crowdsourced AI benchmarks sound cool, but experts pointing out ethical issues makes me wonder if we're rushing too fast. 🤔 Are we sacrificing quality for hype?
Estou acompanhando o debate sobre benchmarks de IA crowdsourced e, honestamente, é uma bagunça. Os especialistas têm razão ao apontar as falhas, mas qual é a alternativa? É como tentar consertar um barco que vaza com mais buracos. Ainda assim, é uma leitura interessante e certamente faz você pensar sobre o futuro da ética em IA. Experimente se você gosta desse tipo de coisa! 😅
Nossa, benchmarks de IA por multidão? Parece legal, mas com falhas éticas? Tô pensando se isso não atrapalha a inovação. As big techs precisam resolver isso logo! 🚀
I've been following the debate on crowdsourced AI benchmarks and honestly, it's a mess. Experts are right to point out the flaws, but what's the alternative? It's like trying to fix a leaky boat with more holes. Still, it's an interesting read and definitely makes you think about the future of AI ethics. Give it a go if you're into that kinda stuff! 😅





집






