Experten heben schwerwiegende Mängel in Crowdsourced AI -Benchmarks auf

Heim

Nachricht

25. April 2025

JamesWalker

Experten heben schwerwiegende Mängel in Crowdsourced AI -Benchmarks auf

KI-Labore nutzen zunehmend Plattformen für crowdsourced Benchmarking wie Chatbot Arena, um die Fähigkeiten ihrer neuesten Modelle zu bewerten. Einige Experten argumentieren jedoch, dass diese Methode erhebliche ethische und akademische Bedenken aufwirft.

In den letzten Jahren haben große Akteure wie OpenAI, Google und Meta Plattformen genutzt, die Nutzer einbinden, um die Leistung ihrer kommenden Modelle zu bewerten. Ein hoher Score auf diesen Plattformen wird von den Laboren oft als Beweis für den Fortschritt ihres Modells hervorgehoben. Dieser Ansatz ist jedoch nicht ohne Kritiker.

Die Kritik am Crowdsourced Benchmarking

Emily Bender, Linguistikprofessorin an der University of Washington und Mitautorin von "The AI Con", äußert Bedenken hinsichtlich der Validität solcher Benchmarks, insbesondere Chatbot Arena. Diese Plattform lässt Freiwillige Antworten von zwei anonymen Modellen vergleichen und ihr bevorzugtes auswählen. Bender argumentiert, dass ein Benchmark effektiv sein muss, um etwas Spezifisches zu messen und Konstruktvalidität zu zeigen, was bedeutet, dass die Messung das zu bewertende Konstrukt genau widerspiegeln sollte. Sie stellt fest, dass Chatbot Arena keine Beweise dafür liefert, dass Nutzerpräferenzen für eine Antwort gegenüber einer anderen tatsächlich mit definierten Kriterien korrelieren.

Asmelash Teka Hadgu, Mitbegründer der KI-Firma Lesan und Fellow am Distributed AI Research Institute, legt nahe, dass diese Benchmarks von KI-Laboren ausgenutzt werden, um übertriebene Behauptungen über ihre Modelle aufzustellen. Er verwies auf einen kürzlichen Vorfall mit Metas Llama 4 Maverick-Modell, bei dem Meta eine Version optimierte, um auf Chatbot Arena gut abzuschneiden, aber stattdessen eine weniger effektive Version veröffentlichte. Hadgu plädiert für dynamische Benchmarks, die über mehrere unabhängige Einheiten verteilt und auf spezifische Anwendungsfälle in Bereichen wie Bildung und Gesundheitswesen zugeschnitten sind, von Fachleuten, die diese Modelle in ihrer Arbeit nutzen.

Der Ruf nach fairer Vergütung und breiteren Evaluationsmethoden

Hadgu und Kristine Gloria, ehemalige Leiterin der Emergent and Intelligent Technologies Initiative des Aspen Institute, argumentieren, dass Evaluatoren für ihre Arbeit bezahlt werden sollten, in Anlehnung an die oft ausbeuterische Datenkennzeichnungsindustrie. Gloria sieht crowdsourced Benchmarking als wertvoll, ähnlich wie Bürgerwissenschaftsinitiativen, betont jedoch, dass Benchmarks nicht das einzige Bewertungskriterium sein sollten, insbesondere angesichts des schnellen Tempos der Brancheninnovation.

Matt Fredrikson, CEO von Gray Swan AI, das crowdsourced Red-Teaming-Kampagnen durchführt, erkennt den Reiz solcher Plattformen für Freiwillige an, die neue Fähigkeiten lernen und üben möchten. Er betont jedoch, dass öffentliche Benchmarks die tiefergehenden Bewertungen durch bezahlte, private Assessments nicht ersetzen können. Fredrikson schlägt vor, dass Entwickler auch auf interne Benchmarks, algorithmische Red Teams und beauftragte Experten setzen sollten, die offenere und domänenspezifische Einblicke bieten können.

Branchenperspektiven zum Benchmarking

Alex Atallah, CEO des Modellmarktplatzes OpenRouter, und Wei-Lin Chiang, KI-Doktorand an der UC Berkeley und einer der Gründer von LMArena (das Chatbot Arena verwaltet), stimmen zu, dass offenes Testen und Benchmarking allein nicht ausreichen. Chiang betont, dass das Ziel von LMArena darin besteht, einen vertrauenswürdigen, offenen Raum zu bieten, um die Präferenzen der Gemeinschaft für verschiedene KI-Modelle zu ermitteln.

In Bezug auf die Kontroverse um den Maverick-Benchmark stellt Chiang klar, dass solche Vorfälle nicht auf Designfehler von Chatbot Arena zurückzuführen sind, sondern auf Fehlinterpretationen seiner Richtlinien durch Labore. LMArena hat seine Richtlinien seitdem aktualisiert, um faire und reproduzierbare Bewertungen sicherzustellen. Chiang unterstreicht, dass die Community der Plattform nicht nur eine Gruppe von Freiwilligen oder Testern ist, sondern eine engagierte Gruppe, die kollektives Feedback zu KI-Modellen liefert.

Die anhaltende Debatte über die Nutzung von crowdsourced Benchmarking-Plattformen unterstreicht die Notwendigkeit eines nuancierteren Ansatzes für die Bewertung von KI-Modellen, der öffentliche Beiträge mit strengen, professionellen Bewertungen kombiniert, um sowohl Genauigkeit als auch Fairness zu gewährleisten.

Verwandter Artikel

Erhöhen Sie die Qualität Ihrer Bilder mit HitPaw AI Photo Enhancer: Ein umfassender Leitfaden Möchten Sie Ihre Bildbearbeitung revolutionieren? Dank modernster künstlicher Intelligenz ist die Verbesserung Ihrer Bilder nun mühelos. Dieser detaillierte Leitfaden stellt den HitPaw AI Photo Enhanc

KI-gestützte Musikerstellung: Songs und Videos mühelos erstellen Musikerstellung kann komplex sein und erfordert Zeit, Ressourcen und Fachwissen. Künstliche Intelligenz hat diesen Prozess revolutioniert und ihn einfach und zugänglich gemacht. Dieser Leitfaden zeigt

Erstellung KI-gestützter Malbücher: Ein umfassender Leitfaden Das Gestalten von Malbüchern ist ein lohnendes Unterfangen, das künstlerischen Ausdruck mit beruhigenden Erlebnissen für Nutzer verbindet. Der Prozess kann jedoch arbeitsintensiv sein. Glücklicherweis

Kommentare (16)

0/200

Einreichen

AlbertScott

1. August 2025 15:47:34 MESZ

Crowdsourced AI benchmarks sound cool, but experts pointing out ethical issues makes me wonder if we're rushing too fast. 🤔 Are we sacrificing quality for hype?

JonathanAllen

27. April 2025 09:34:07 MESZ

Estou acompanhando o debate sobre benchmarks de IA crowdsourced e, honestamente, é uma bagunça. Os especialistas têm razão ao apontar as falhas, mas qual é a alternativa? É como tentar consertar um barco que vaza com mais buracos. Ainda assim, é uma leitura interessante e certamente faz você pensar sobre o futuro da ética em IA. Experimente se você gosta desse tipo de coisa! 😅

AlbertWalker

27. April 2025 07:24:31 MESZ

Nossa, benchmarks de IA por multidão? Parece legal, mas com falhas éticas? Tô pensando se isso não atrapalha a inovação. As big techs precisam resolver isso logo! 🚀

RogerRodriguez

27. April 2025 05:52:29 MESZ

I've been following the debate on crowdsourced AI benchmarks and honestly, it's a mess. Experts are right to point out the flaws, but what's the alternative? It's like trying to fix a leaky boat with more holes. Still, it's an interesting read and definitely makes you think about the future of AI ethics. Give it a go if you're into that kinda stuff! 😅

JonathanAllen

27. April 2025 03:40:09 MESZ

Intéressant, mais inquiétant ! Les benchmarks par crowdsourcing, c’est innovant, mais les failles éthiques me font réfléchir. Les géants comme Google vont devoir être transparents. 🧐

BrianWalker

26. April 2025 17:31:56 MESZ

Wow, crowdsourced AI benchmarks sound cool but flawed? Kinda makes sense—random people judging AI might not be super reliable. 🤔 Curious how OpenAI and Google will fix this!

Top -Nachrichten

Gemini 2.5 Pro jetzt unbegrenzt und billiger als Claude, GPT-4O Top AI-Videogeneratoren 2025: Pika Labs im Vergleich zu Alternativen AI-Synchronisation: Ultimativer Leitfaden zur realistischen Stimmen-Erstellung OpenAI verbessert den AI -Sprachassistenten für bessere Chats So stellen Sie sicher, dass Ihre Daten für die KI -Integration vertrauenswürdig sind NotebookLM erweitert weltweit, fügt Folien und eine verbesserte Faktenprüfung hinzu Optimierungen an US -Rechenzentren könnten 76 GW neue Leistungskapazität freischalten Die KI von Cambium verwandelt Abfall Holz in Holz AI Computing, um die Leistung mehrerer NYCs bis 2026 zu verbrauchen, sagt Gründer Künstliche Intelligenz Sprachklonierung: Das ultimative Handbuch zur Beherrschung der Sprachkonvertierung

Mehr

Vorgestellt