Experten heben schwerwiegende Mängel in Crowdsourced AI -Benchmarks auf

KI-Labore nutzen zunehmend Plattformen für crowdsourced Benchmarking wie Chatbot Arena, um die Fähigkeiten ihrer neuesten Modelle zu bewerten. Einige Experten argumentieren jedoch, dass diese Methode erhebliche ethische und akademische Bedenken aufwirft.
In den letzten Jahren haben große Akteure wie OpenAI, Google und Meta Plattformen genutzt, die Nutzer einbinden, um die Leistung ihrer kommenden Modelle zu bewerten. Ein hoher Score auf diesen Plattformen wird von den Laboren oft als Beweis für den Fortschritt ihres Modells hervorgehoben. Dieser Ansatz ist jedoch nicht ohne Kritiker.
Die Kritik am Crowdsourced Benchmarking
Emily Bender, Linguistikprofessorin an der University of Washington und Mitautorin von "The AI Con", äußert Bedenken hinsichtlich der Validität solcher Benchmarks, insbesondere Chatbot Arena. Diese Plattform lässt Freiwillige Antworten von zwei anonymen Modellen vergleichen und ihr bevorzugtes auswählen. Bender argumentiert, dass ein Benchmark effektiv sein muss, um etwas Spezifisches zu messen und Konstruktvalidität zu zeigen, was bedeutet, dass die Messung das zu bewertende Konstrukt genau widerspiegeln sollte. Sie stellt fest, dass Chatbot Arena keine Beweise dafür liefert, dass Nutzerpräferenzen für eine Antwort gegenüber einer anderen tatsächlich mit definierten Kriterien korrelieren.
Asmelash Teka Hadgu, Mitbegründer der KI-Firma Lesan und Fellow am Distributed AI Research Institute, legt nahe, dass diese Benchmarks von KI-Laboren ausgenutzt werden, um übertriebene Behauptungen über ihre Modelle aufzustellen. Er verwies auf einen kürzlichen Vorfall mit Metas Llama 4 Maverick-Modell, bei dem Meta eine Version optimierte, um auf Chatbot Arena gut abzuschneiden, aber stattdessen eine weniger effektive Version veröffentlichte. Hadgu plädiert für dynamische Benchmarks, die über mehrere unabhängige Einheiten verteilt und auf spezifische Anwendungsfälle in Bereichen wie Bildung und Gesundheitswesen zugeschnitten sind, von Fachleuten, die diese Modelle in ihrer Arbeit nutzen.
Der Ruf nach fairer Vergütung und breiteren Evaluationsmethoden
Hadgu und Kristine Gloria, ehemalige Leiterin der Emergent and Intelligent Technologies Initiative des Aspen Institute, argumentieren, dass Evaluatoren für ihre Arbeit bezahlt werden sollten, in Anlehnung an die oft ausbeuterische Datenkennzeichnungsindustrie. Gloria sieht crowdsourced Benchmarking als wertvoll, ähnlich wie Bürgerwissenschaftsinitiativen, betont jedoch, dass Benchmarks nicht das einzige Bewertungskriterium sein sollten, insbesondere angesichts des schnellen Tempos der Brancheninnovation.
Matt Fredrikson, CEO von Gray Swan AI, das crowdsourced Red-Teaming-Kampagnen durchführt, erkennt den Reiz solcher Plattformen für Freiwillige an, die neue Fähigkeiten lernen und üben möchten. Er betont jedoch, dass öffentliche Benchmarks die tiefergehenden Bewertungen durch bezahlte, private Assessments nicht ersetzen können. Fredrikson schlägt vor, dass Entwickler auch auf interne Benchmarks, algorithmische Red Teams und beauftragte Experten setzen sollten, die offenere und domänenspezifische Einblicke bieten können.
Branchenperspektiven zum Benchmarking
Alex Atallah, CEO des Modellmarktplatzes OpenRouter, und Wei-Lin Chiang, KI-Doktorand an der UC Berkeley und einer der Gründer von LMArena (das Chatbot Arena verwaltet), stimmen zu, dass offenes Testen und Benchmarking allein nicht ausreichen. Chiang betont, dass das Ziel von LMArena darin besteht, einen vertrauenswürdigen, offenen Raum zu bieten, um die Präferenzen der Gemeinschaft für verschiedene KI-Modelle zu ermitteln.
In Bezug auf die Kontroverse um den Maverick-Benchmark stellt Chiang klar, dass solche Vorfälle nicht auf Designfehler von Chatbot Arena zurückzuführen sind, sondern auf Fehlinterpretationen seiner Richtlinien durch Labore. LMArena hat seine Richtlinien seitdem aktualisiert, um faire und reproduzierbare Bewertungen sicherzustellen. Chiang unterstreicht, dass die Community der Plattform nicht nur eine Gruppe von Freiwilligen oder Testern ist, sondern eine engagierte Gruppe, die kollektives Feedback zu KI-Modellen liefert.
Die anhaltende Debatte über die Nutzung von crowdsourced Benchmarking-Plattformen unterstreicht die Notwendigkeit eines nuancierteren Ansatzes für die Bewertung von KI-Modellen, der öffentliche Beiträge mit strengen, professionellen Bewertungen kombiniert, um sowohl Genauigkeit als auch Fairness zu gewährleisten.
Verwandter Artikel
WordPress.com ermöglicht es nun KI-Agenten, Beiträge zu verfassen und zu veröffentlichen – und vieles mehr
WordPress.com, die beliebte Webhosting- und Publishing-Plattform, setzt nun auf KI-Agenten – ein Schritt, der das Erscheinungsbild des Internets grundlegend verändern könnte. Das Unternehmen gab am Fr
Die experimentelle KI „Claude“ von Anthropic wickelt in einem E-Commerce-Test Verhandlungen und Transaktionen ab
Angesichts der rasanten Fortschritte im Bereich der künstlichen Intelligenz hat Anthropic am vergangenen Freitag still und leise ein internes Experiment namens „Project Deal“ gestartet, um das Potenzi
DeepSeek Code steht kurz vor der Markteinführung
Angesichts der rasanten Entwicklung der KI-Technologie befindet sich DeepSeek an einem spannenden Wendepunkt. Das KI-Unternehmen gab kürzlich bekannt, dass es sich Finanzmittel in Höhe von über 70 Mil
Empfehlungen zu verwandten Spezialthemen
Kommentare (17)
這篇文章點出了一個關鍵問題:眾包評測雖然快速,但真的能反映AI模型的真實能力嗎?專家們的擔憂很有道理,學術嚴謹性和倫理風險確實需要更嚴格的把關。希望業界能盡快建立更可靠的評估標準,而不是一味追求排行榜上的名次。🤔
Crowdsourced AI benchmarks sound cool, but experts pointing out ethical issues makes me wonder if we're rushing too fast. 🤔 Are we sacrificing quality for hype?
Estou acompanhando o debate sobre benchmarks de IA crowdsourced e, honestamente, é uma bagunça. Os especialistas têm razão ao apontar as falhas, mas qual é a alternativa? É como tentar consertar um barco que vaza com mais buracos. Ainda assim, é uma leitura interessante e certamente faz você pensar sobre o futuro da ética em IA. Experimente se você gosta desse tipo de coisa! 😅
Nossa, benchmarks de IA por multidão? Parece legal, mas com falhas éticas? Tô pensando se isso não atrapalha a inovação. As big techs precisam resolver isso logo! 🚀
I've been following the debate on crowdsourced AI benchmarks and honestly, it's a mess. Experts are right to point out the flaws, but what's the alternative? It's like trying to fix a leaky boat with more holes. Still, it's an interesting read and definitely makes you think about the future of AI ethics. Give it a go if you're into that kinda stuff! 😅

KI-Labore nutzen zunehmend Plattformen für crowdsourced Benchmarking wie Chatbot Arena, um die Fähigkeiten ihrer neuesten Modelle zu bewerten. Einige Experten argumentieren jedoch, dass diese Methode erhebliche ethische und akademische Bedenken aufwirft.
In den letzten Jahren haben große Akteure wie OpenAI, Google und Meta Plattformen genutzt, die Nutzer einbinden, um die Leistung ihrer kommenden Modelle zu bewerten. Ein hoher Score auf diesen Plattformen wird von den Laboren oft als Beweis für den Fortschritt ihres Modells hervorgehoben. Dieser Ansatz ist jedoch nicht ohne Kritiker.
Die Kritik am Crowdsourced Benchmarking
Emily Bender, Linguistikprofessorin an der University of Washington und Mitautorin von "The AI Con", äußert Bedenken hinsichtlich der Validität solcher Benchmarks, insbesondere Chatbot Arena. Diese Plattform lässt Freiwillige Antworten von zwei anonymen Modellen vergleichen und ihr bevorzugtes auswählen. Bender argumentiert, dass ein Benchmark effektiv sein muss, um etwas Spezifisches zu messen und Konstruktvalidität zu zeigen, was bedeutet, dass die Messung das zu bewertende Konstrukt genau widerspiegeln sollte. Sie stellt fest, dass Chatbot Arena keine Beweise dafür liefert, dass Nutzerpräferenzen für eine Antwort gegenüber einer anderen tatsächlich mit definierten Kriterien korrelieren.
Asmelash Teka Hadgu, Mitbegründer der KI-Firma Lesan und Fellow am Distributed AI Research Institute, legt nahe, dass diese Benchmarks von KI-Laboren ausgenutzt werden, um übertriebene Behauptungen über ihre Modelle aufzustellen. Er verwies auf einen kürzlichen Vorfall mit Metas Llama 4 Maverick-Modell, bei dem Meta eine Version optimierte, um auf Chatbot Arena gut abzuschneiden, aber stattdessen eine weniger effektive Version veröffentlichte. Hadgu plädiert für dynamische Benchmarks, die über mehrere unabhängige Einheiten verteilt und auf spezifische Anwendungsfälle in Bereichen wie Bildung und Gesundheitswesen zugeschnitten sind, von Fachleuten, die diese Modelle in ihrer Arbeit nutzen.
Der Ruf nach fairer Vergütung und breiteren Evaluationsmethoden
Hadgu und Kristine Gloria, ehemalige Leiterin der Emergent and Intelligent Technologies Initiative des Aspen Institute, argumentieren, dass Evaluatoren für ihre Arbeit bezahlt werden sollten, in Anlehnung an die oft ausbeuterische Datenkennzeichnungsindustrie. Gloria sieht crowdsourced Benchmarking als wertvoll, ähnlich wie Bürgerwissenschaftsinitiativen, betont jedoch, dass Benchmarks nicht das einzige Bewertungskriterium sein sollten, insbesondere angesichts des schnellen Tempos der Brancheninnovation.
Matt Fredrikson, CEO von Gray Swan AI, das crowdsourced Red-Teaming-Kampagnen durchführt, erkennt den Reiz solcher Plattformen für Freiwillige an, die neue Fähigkeiten lernen und üben möchten. Er betont jedoch, dass öffentliche Benchmarks die tiefergehenden Bewertungen durch bezahlte, private Assessments nicht ersetzen können. Fredrikson schlägt vor, dass Entwickler auch auf interne Benchmarks, algorithmische Red Teams und beauftragte Experten setzen sollten, die offenere und domänenspezifische Einblicke bieten können.
Branchenperspektiven zum Benchmarking
Alex Atallah, CEO des Modellmarktplatzes OpenRouter, und Wei-Lin Chiang, KI-Doktorand an der UC Berkeley und einer der Gründer von LMArena (das Chatbot Arena verwaltet), stimmen zu, dass offenes Testen und Benchmarking allein nicht ausreichen. Chiang betont, dass das Ziel von LMArena darin besteht, einen vertrauenswürdigen, offenen Raum zu bieten, um die Präferenzen der Gemeinschaft für verschiedene KI-Modelle zu ermitteln.
In Bezug auf die Kontroverse um den Maverick-Benchmark stellt Chiang klar, dass solche Vorfälle nicht auf Designfehler von Chatbot Arena zurückzuführen sind, sondern auf Fehlinterpretationen seiner Richtlinien durch Labore. LMArena hat seine Richtlinien seitdem aktualisiert, um faire und reproduzierbare Bewertungen sicherzustellen. Chiang unterstreicht, dass die Community der Plattform nicht nur eine Gruppe von Freiwilligen oder Testern ist, sondern eine engagierte Gruppe, die kollektives Feedback zu KI-Modellen liefert.
Die anhaltende Debatte über die Nutzung von crowdsourced Benchmarking-Plattformen unterstreicht die Notwendigkeit eines nuancierteren Ansatzes für die Bewertung von KI-Modellen, der öffentliche Beiträge mit strengen, professionellen Bewertungen kombiniert, um sowohl Genauigkeit als auch Fairness zu gewährleisten.
WordPress.com ermöglicht es nun KI-Agenten, Beiträge zu verfassen und zu veröffentlichen – und vieles mehr
WordPress.com, die beliebte Webhosting- und Publishing-Plattform, setzt nun auf KI-Agenten – ein Schritt, der das Erscheinungsbild des Internets grundlegend verändern könnte. Das Unternehmen gab am Fr
Die experimentelle KI „Claude“ von Anthropic wickelt in einem E-Commerce-Test Verhandlungen und Transaktionen ab
Angesichts der rasanten Fortschritte im Bereich der künstlichen Intelligenz hat Anthropic am vergangenen Freitag still und leise ein internes Experiment namens „Project Deal“ gestartet, um das Potenzi
DeepSeek Code steht kurz vor der Markteinführung
Angesichts der rasanten Entwicklung der KI-Technologie befindet sich DeepSeek an einem spannenden Wendepunkt. Das KI-Unternehmen gab kürzlich bekannt, dass es sich Finanzmittel in Höhe von über 70 Mil
這篇文章點出了一個關鍵問題:眾包評測雖然快速,但真的能反映AI模型的真實能力嗎?專家們的擔憂很有道理,學術嚴謹性和倫理風險確實需要更嚴格的把關。希望業界能盡快建立更可靠的評估標準,而不是一味追求排行榜上的名次。🤔
Crowdsourced AI benchmarks sound cool, but experts pointing out ethical issues makes me wonder if we're rushing too fast. 🤔 Are we sacrificing quality for hype?
Estou acompanhando o debate sobre benchmarks de IA crowdsourced e, honestamente, é uma bagunça. Os especialistas têm razão ao apontar as falhas, mas qual é a alternativa? É como tentar consertar um barco que vaza com mais buracos. Ainda assim, é uma leitura interessante e certamente faz você pensar sobre o futuro da ética em IA. Experimente se você gosta desse tipo de coisa! 😅
Nossa, benchmarks de IA por multidão? Parece legal, mas com falhas éticas? Tô pensando se isso não atrapalha a inovação. As big techs precisam resolver isso logo! 🚀
I've been following the debate on crowdsourced AI benchmarks and honestly, it's a mess. Experts are right to point out the flaws, but what's the alternative? It's like trying to fix a leaky boat with more holes. Still, it's an interesting read and definitely makes you think about the future of AI ethics. Give it a go if you're into that kinda stuff! 😅





Heim






