Experten heben schwerwiegende Mängel in Crowdsourced AI -Benchmarks auf
25. April 2025
JamesWalker
6
AI Labs wenden sich zunehmend an Crowdsourcing -Benchmarking -Plattformen wie Chatbot Arena, um die Funktionen ihrer neuesten Modelle zu bewerten. Einige Experten argumentieren jedoch, dass diese Methode erhebliche ethische und akademische Bedenken aufwirft.
In den letzten Jahren haben Hauptakteure wie OpenAI, Google und Meta Plattformen verwendet, mit denen Benutzer die Leistung ihrer bevorstehenden Modelle bewerten. Eine hohe Punktzahl auf diesen Plattformen wird von den Labors häufig als Beweis für den Fortschritt ihres Modells hervorgehoben. Dieser Ansatz ist jedoch nicht ohne Kritiker.
Die Kritik an Crowdsourced -Benchmarking
Emily Bender, Linguistikprofessorin an der Universität von Washington und Co-Autor von "The AI Con", hat Bedenken hinsichtlich der Gültigkeit solcher Benchmarks, insbesondere der Chatbot-Arena, geäußert. Diese Plattform beinhaltet Freiwillige, in denen Antworten von zwei anonymen Modellen verglichen und deren bevorzugte Auswahl. Bender argumentiert, dass ein Benchmark, der wirksam ist, etwas Spezifisches messen und die Konstruktvalidität nachweisen muss, was bedeutet, dass die Messung das zu bewertende Konstrukt genau widerspiegeln sollte. Sie behauptet, dass Chatbot Arena keine Beweise dafür habe, dass Benutzerpräferenzen für eine Ausgabe über einen anderen wirklich mit allen definierten Kriterien korrelieren.
Asmelash Teka Hadgu, Mitbegründer der AI-Firma Lesan und Fellow am Distributed AI Research Institute, schlägt vor, dass diese Benchmarks von AI Labs ausgenutzt werden, um übertriebene Behauptungen über ihre Modelle zu erheben. Er zitierte kürzlich einen Vorfall mit Metas Lama 4 Maverick-Modell, bei dem Meta eine Version in der Chatbot-Arena gut abgestimmt hat, sich jedoch entschieden hat, stattdessen eine weniger effektive Version veröffentlicht. HADGU setzte sich dafür ein, dass Benchmarks dynamisch sind, auf mehrere unabhängige Unternehmen verteilt und auf bestimmte Anwendungsfälle in Bereichen wie Bildung und Gesundheitswesen von Fachleuten zugeschnitten sind, die diese Modelle in ihrer Arbeit verwenden.
Der Aufruf zur fairen Kompensation und breiteren Bewertungsmethoden
Hadgu und Kristine Gloria, ehemalige Leiterin der Emergent and Intelligent Technologies Initiative des Aspen Institute, argumentieren, dass die Bewerter für ihre Arbeiten entschädigt werden sollten und parallel zur häufig ausbeuterischen Datenkennzeichnungsindustrie ziehen sollten. Gloria betrachtet Crowdsourcing Benchmarking als wertvoll, ähnlich wie bei Bürgerwissenschaftsinitiativen, betont jedoch, dass Benchmarks nicht die einzige Metrik für die Bewertung sein sollten, insbesondere angesichts des raschen Tempos der Industrieinnovation.
Matt Fredrikson, CEO von Gray Swan AI, der Crowdsourced Red -Teaming -Kampagnen durchführt, erkennt die Anziehungskraft solcher Plattformen für Freiwillige an, die neue Fähigkeiten erlernen und üben möchten. Er betont jedoch, dass öffentliche Benchmarks nicht die detaillierteren Bewertungen ersetzen können, die durch bezahlte private Bewertungen bereitgestellt werden. Fredrikson schlägt vor, dass Entwickler sich auch auf interne Benchmarks, algorithmische rote Teams und vertragliche Experten verlassen sollten, die offenere und domänenspezifische Erkenntnisse anbieten können.
Branchenperspektiven auf Benchmarking
Alex Atallah, CEO von Model Marketplace OpenRouter, und Wei-Lin Chiang, ein AI-Doktorand an der UC Berkeley und einer der Gründer von Larena (die Chatbot Arena verwaltet), sind sich einig, dass offene Tests und Benchmarking allein nicht ausreichend sind. Chiang betont, dass Larenas Ziel darin besteht, einen vertrauenswürdigen, offenen Raum für die Bewertung der Gemeinschaftspräferenzen für verschiedene KI -Modelle zu bieten.
Chiang befasst sich mit der Kontroverse um den Maverick -Benchmark und stellt klar, dass solche Vorfälle nicht auf Fehler im Design der Chatbot Arena zurückzuführen sind, sondern auf Fehlinterpretationen ihrer Richtlinien durch Labors. Larena hat seine Richtlinien seitdem aktualisiert, um faire und reproduzierbare Bewertungen zu gewährleisten. Chiang unterstreicht, dass die Community der Plattform nicht nur eine Gruppe von Freiwilligen oder Tester ist, sondern eine engagierte Gruppe, die kollektives Feedback zu KI -Modellen gibt.

Die laufende Debatte über den Einsatz von Crowdsourced -Benchmarking -Plattformen unterstreicht die Notwendigkeit eines nuancierteren Ansatzes zur AI -Modellbewertung, die öffentliche Inputs mit strengen, professionellen Bewertungen kombiniert, um sowohl Genauigkeit als auch Fairness sicherzustellen.
Verwandter Artikel
Anthropic startet Programm zum Untersuchung von KI -Modellschutzgebieten "
Könnte zukünftige AIs bei Bewusstsein sein? Die Frage, ob zukünftige AIs die Welt auf ähnliche Weise wie Menschen erleben könnten, ist faszinierend, bleibt jedoch weitgehend unbeantwortet. Obwohl es keine endgültigen Beweise dafür gibt, dass sie werden, lehnt AI Lab Anthropic die Möglichkeit nicht direkt ab. Am Donnerstag Anthro
Schnürrocktrends: Styling-Tipps und Outfit-Ideen, um sie zu rocken
Schnürröcke sind zu einem heißen Trend geworden, der eine kräftige Kante mit einer Schuss Weiblichkeit verschmelzen. Diese Röcke, die für ihre auffälligen Schnür-Details bekannt sind, sind eine Anlaufstelle für Modeliebhaber, die ihre Garderobe aufpeppen möchten. Egal, ob Sie eine dramatische Aussage oder einen subtilen Hauch von Stil haben, um zu Gr zu kommen
Pragmatische KI: Ein Gleichgewicht zwischen Begeisterung und Skepsis in der Entwicklung steigern
In der sich ständig weiterentwickelnden Welt der künstlichen Intelligenz ist die Aufrechterhaltung einer ausgewogenen Perspektive für Entwickler, die innerhalb des .NET- und C# -ökosystems arbeiten, von wesentlicher Bedeutung. Während AIs Potenzial aufregend ist, sorgt eine Dosis Skepsis für die praktische und wirksame Integration. Dieser Artikel ist ein pragmatisches Genehmigung
Kommentare (0)
0/200






AI Labs wenden sich zunehmend an Crowdsourcing -Benchmarking -Plattformen wie Chatbot Arena, um die Funktionen ihrer neuesten Modelle zu bewerten. Einige Experten argumentieren jedoch, dass diese Methode erhebliche ethische und akademische Bedenken aufwirft.
In den letzten Jahren haben Hauptakteure wie OpenAI, Google und Meta Plattformen verwendet, mit denen Benutzer die Leistung ihrer bevorstehenden Modelle bewerten. Eine hohe Punktzahl auf diesen Plattformen wird von den Labors häufig als Beweis für den Fortschritt ihres Modells hervorgehoben. Dieser Ansatz ist jedoch nicht ohne Kritiker.
Die Kritik an Crowdsourced -Benchmarking
Emily Bender, Linguistikprofessorin an der Universität von Washington und Co-Autor von "The AI Con", hat Bedenken hinsichtlich der Gültigkeit solcher Benchmarks, insbesondere der Chatbot-Arena, geäußert. Diese Plattform beinhaltet Freiwillige, in denen Antworten von zwei anonymen Modellen verglichen und deren bevorzugte Auswahl. Bender argumentiert, dass ein Benchmark, der wirksam ist, etwas Spezifisches messen und die Konstruktvalidität nachweisen muss, was bedeutet, dass die Messung das zu bewertende Konstrukt genau widerspiegeln sollte. Sie behauptet, dass Chatbot Arena keine Beweise dafür habe, dass Benutzerpräferenzen für eine Ausgabe über einen anderen wirklich mit allen definierten Kriterien korrelieren.
Asmelash Teka Hadgu, Mitbegründer der AI-Firma Lesan und Fellow am Distributed AI Research Institute, schlägt vor, dass diese Benchmarks von AI Labs ausgenutzt werden, um übertriebene Behauptungen über ihre Modelle zu erheben. Er zitierte kürzlich einen Vorfall mit Metas Lama 4 Maverick-Modell, bei dem Meta eine Version in der Chatbot-Arena gut abgestimmt hat, sich jedoch entschieden hat, stattdessen eine weniger effektive Version veröffentlicht. HADGU setzte sich dafür ein, dass Benchmarks dynamisch sind, auf mehrere unabhängige Unternehmen verteilt und auf bestimmte Anwendungsfälle in Bereichen wie Bildung und Gesundheitswesen von Fachleuten zugeschnitten sind, die diese Modelle in ihrer Arbeit verwenden.
Der Aufruf zur fairen Kompensation und breiteren Bewertungsmethoden
Hadgu und Kristine Gloria, ehemalige Leiterin der Emergent and Intelligent Technologies Initiative des Aspen Institute, argumentieren, dass die Bewerter für ihre Arbeiten entschädigt werden sollten und parallel zur häufig ausbeuterischen Datenkennzeichnungsindustrie ziehen sollten. Gloria betrachtet Crowdsourcing Benchmarking als wertvoll, ähnlich wie bei Bürgerwissenschaftsinitiativen, betont jedoch, dass Benchmarks nicht die einzige Metrik für die Bewertung sein sollten, insbesondere angesichts des raschen Tempos der Industrieinnovation.
Matt Fredrikson, CEO von Gray Swan AI, der Crowdsourced Red -Teaming -Kampagnen durchführt, erkennt die Anziehungskraft solcher Plattformen für Freiwillige an, die neue Fähigkeiten erlernen und üben möchten. Er betont jedoch, dass öffentliche Benchmarks nicht die detaillierteren Bewertungen ersetzen können, die durch bezahlte private Bewertungen bereitgestellt werden. Fredrikson schlägt vor, dass Entwickler sich auch auf interne Benchmarks, algorithmische rote Teams und vertragliche Experten verlassen sollten, die offenere und domänenspezifische Erkenntnisse anbieten können.
Branchenperspektiven auf Benchmarking
Alex Atallah, CEO von Model Marketplace OpenRouter, und Wei-Lin Chiang, ein AI-Doktorand an der UC Berkeley und einer der Gründer von Larena (die Chatbot Arena verwaltet), sind sich einig, dass offene Tests und Benchmarking allein nicht ausreichend sind. Chiang betont, dass Larenas Ziel darin besteht, einen vertrauenswürdigen, offenen Raum für die Bewertung der Gemeinschaftspräferenzen für verschiedene KI -Modelle zu bieten.
Chiang befasst sich mit der Kontroverse um den Maverick -Benchmark und stellt klar, dass solche Vorfälle nicht auf Fehler im Design der Chatbot Arena zurückzuführen sind, sondern auf Fehlinterpretationen ihrer Richtlinien durch Labors. Larena hat seine Richtlinien seitdem aktualisiert, um faire und reproduzierbare Bewertungen zu gewährleisten. Chiang unterstreicht, dass die Community der Plattform nicht nur eine Gruppe von Freiwilligen oder Tester ist, sondern eine engagierte Gruppe, die kollektives Feedback zu KI -Modellen gibt.
Die laufende Debatte über den Einsatz von Crowdsourced -Benchmarking -Plattformen unterstreicht die Notwendigkeit eines nuancierteren Ansatzes zur AI -Modellbewertung, die öffentliche Inputs mit strengen, professionellen Bewertungen kombiniert, um sowohl Genauigkeit als auch Fairness sicherzustellen.



5 einfache Schritte zur Rückforderung für Ihre Online -Datenschutz - beginnen Sie noch heute









