Option
Heim
Nachricht
Experten heben schwerwiegende Mängel in Crowdsourced AI -Benchmarks auf

Experten heben schwerwiegende Mängel in Crowdsourced AI -Benchmarks auf

25. April 2025
164

Experten heben schwerwiegende Mängel in Crowdsourced AI -Benchmarks auf

KI-Labore nutzen zunehmend Plattformen für crowdsourced Benchmarking wie Chatbot Arena, um die Fähigkeiten ihrer neuesten Modelle zu bewerten. Einige Experten argumentieren jedoch, dass diese Methode erhebliche ethische und akademische Bedenken aufwirft.

In den letzten Jahren haben große Akteure wie OpenAI, Google und Meta Plattformen genutzt, die Nutzer einbinden, um die Leistung ihrer kommenden Modelle zu bewerten. Ein hoher Score auf diesen Plattformen wird von den Laboren oft als Beweis für den Fortschritt ihres Modells hervorgehoben. Dieser Ansatz ist jedoch nicht ohne Kritiker.

Die Kritik am Crowdsourced Benchmarking

Emily Bender, Linguistikprofessorin an der University of Washington und Mitautorin von "The AI Con", äußert Bedenken hinsichtlich der Validität solcher Benchmarks, insbesondere Chatbot Arena. Diese Plattform lässt Freiwillige Antworten von zwei anonymen Modellen vergleichen und ihr bevorzugtes auswählen. Bender argumentiert, dass ein Benchmark effektiv sein muss, um etwas Spezifisches zu messen und Konstruktvalidität zu zeigen, was bedeutet, dass die Messung das zu bewertende Konstrukt genau widerspiegeln sollte. Sie stellt fest, dass Chatbot Arena keine Beweise dafür liefert, dass Nutzerpräferenzen für eine Antwort gegenüber einer anderen tatsächlich mit definierten Kriterien korrelieren.

Asmelash Teka Hadgu, Mitbegründer der KI-Firma Lesan und Fellow am Distributed AI Research Institute, legt nahe, dass diese Benchmarks von KI-Laboren ausgenutzt werden, um übertriebene Behauptungen über ihre Modelle aufzustellen. Er verwies auf einen kürzlichen Vorfall mit Metas Llama 4 Maverick-Modell, bei dem Meta eine Version optimierte, um auf Chatbot Arena gut abzuschneiden, aber stattdessen eine weniger effektive Version veröffentlichte. Hadgu plädiert für dynamische Benchmarks, die über mehrere unabhängige Einheiten verteilt und auf spezifische Anwendungsfälle in Bereichen wie Bildung und Gesundheitswesen zugeschnitten sind, von Fachleuten, die diese Modelle in ihrer Arbeit nutzen.

Der Ruf nach fairer Vergütung und breiteren Evaluationsmethoden

Hadgu und Kristine Gloria, ehemalige Leiterin der Emergent and Intelligent Technologies Initiative des Aspen Institute, argumentieren, dass Evaluatoren für ihre Arbeit bezahlt werden sollten, in Anlehnung an die oft ausbeuterische Datenkennzeichnungsindustrie. Gloria sieht crowdsourced Benchmarking als wertvoll, ähnlich wie Bürgerwissenschaftsinitiativen, betont jedoch, dass Benchmarks nicht das einzige Bewertungskriterium sein sollten, insbesondere angesichts des schnellen Tempos der Brancheninnovation.

Matt Fredrikson, CEO von Gray Swan AI, das crowdsourced Red-Teaming-Kampagnen durchführt, erkennt den Reiz solcher Plattformen für Freiwillige an, die neue Fähigkeiten lernen und üben möchten. Er betont jedoch, dass öffentliche Benchmarks die tiefergehenden Bewertungen durch bezahlte, private Assessments nicht ersetzen können. Fredrikson schlägt vor, dass Entwickler auch auf interne Benchmarks, algorithmische Red Teams und beauftragte Experten setzen sollten, die offenere und domänenspezifische Einblicke bieten können.

Branchenperspektiven zum Benchmarking

Alex Atallah, CEO des Modellmarktplatzes OpenRouter, und Wei-Lin Chiang, KI-Doktorand an der UC Berkeley und einer der Gründer von LMArena (das Chatbot Arena verwaltet), stimmen zu, dass offenes Testen und Benchmarking allein nicht ausreichen. Chiang betont, dass das Ziel von LMArena darin besteht, einen vertrauenswürdigen, offenen Raum zu bieten, um die Präferenzen der Gemeinschaft für verschiedene KI-Modelle zu ermitteln.

In Bezug auf die Kontroverse um den Maverick-Benchmark stellt Chiang klar, dass solche Vorfälle nicht auf Designfehler von Chatbot Arena zurückzuführen sind, sondern auf Fehlinterpretationen seiner Richtlinien durch Labore. LMArena hat seine Richtlinien seitdem aktualisiert, um faire und reproduzierbare Bewertungen sicherzustellen. Chiang unterstreicht, dass die Community der Plattform nicht nur eine Gruppe von Freiwilligen oder Testern ist, sondern eine engagierte Gruppe, die kollektives Feedback zu KI-Modellen liefert.

Die anhaltende Debatte über die Nutzung von crowdsourced Benchmarking-Plattformen unterstreicht die Notwendigkeit eines nuancierteren Ansatzes für die Bewertung von KI-Modellen, der öffentliche Beiträge mit strengen, professionellen Bewertungen kombiniert, um sowohl Genauigkeit als auch Fairness zu gewährleisten.

Verwandter Artikel
WordPress.com ermöglicht es nun KI-Agenten, Beiträge zu verfassen und zu veröffentlichen – und vieles mehr WordPress.com ermöglicht es nun KI-Agenten, Beiträge zu verfassen und zu veröffentlichen – und vieles mehr WordPress.com, die beliebte Webhosting- und Publishing-Plattform, setzt nun auf KI-Agenten – ein Schritt, der das Erscheinungsbild des Internets grundlegend verändern könnte. Das Unternehmen gab am Fr
Die experimentelle KI „Claude“ von Anthropic wickelt in einem E-Commerce-Test Verhandlungen und Transaktionen ab Die experimentelle KI „Claude“ von Anthropic wickelt in einem E-Commerce-Test Verhandlungen und Transaktionen ab Angesichts der rasanten Fortschritte im Bereich der künstlichen Intelligenz hat Anthropic am vergangenen Freitag still und leise ein internes Experiment namens „Project Deal“ gestartet, um das Potenzi
DeepSeek Code steht kurz vor der Markteinführung DeepSeek Code steht kurz vor der Markteinführung Angesichts der rasanten Entwicklung der KI-Technologie befindet sich DeepSeek an einem spannenden Wendepunkt. Das KI-Unternehmen gab kürzlich bekannt, dass es sich Finanzmittel in Höhe von über 70 Mil
Empfehlungen zu verwandten Spezialthemen
Geschäft Die besten KI-basierten Spesenabrechnungsprogramme: Quittungen scannen und Geschäftsausgaben automatisch kategorisieren
Die besten KI-basierten Spesenabrechnungsprogramme: Quittungen scannen und Geschäftsausgaben automatisch kategorisieren

Die besten KI-basierten Spesenmanager 2026: Erstklassige Tools zum Scannen von Belegen und zur automatischen Kategorisierung von Unternehmensausgaben. Entdecken Sie leistungsstarke, bahnbrechende Lösungen für müheloses Spesenmanagement, präzise Finanzüberwachung und optimierte Compliance. Unser sorgfältig zusammengestellter, wöchentlich aktualisierter Vergleich zwischen kostenlosen und kostenpflichtigen Optionen hilft Ihnen dabei, die perfekte Lösung zu finden. Nutzen Sie Ihren KI-Vorteil mit den Expertenempfehlungen von XIX.AI.

10 Tools
xix.ai
Geschäft Die besten KI-Tools für die Personalbeschaffung: Lebensläufe prüfen und die Terminplanung für Vorstellungsgespräche automatisieren
Die besten KI-Tools für die Personalbeschaffung: Lebensläufe prüfen und die Terminplanung für Vorstellungsgespräche automatisieren

Entdecken Sie auf XIX.AI die besten KI-Tools für die Personalbeschaffung des Jahres 2026. Unsere sorgfältig zusammengestellte Liste umfasst leistungsstarke, bahnbrechende Lösungen für die Sichtung von Lebensläufen und die automatisierte Terminplanung für Vorstellungsgespräche. Vergleichen Sie kostenlose und kostenpflichtige Optionen anhand von Praxistests und wöchentlich aktualisierten Rankings. Finden Sie Ihren perfekten Assistenten für die Personalbeschaffung und optimieren Sie noch heute Ihren Rekrutierungsprozess!

10 Tools
xix.ai
Produktivität KI-Coaches für persönliches Wohlbefinden und Konzentration: Burnout bewältigen und die geistige Energie steigern
KI-Coaches für persönliches Wohlbefinden und Konzentration: Burnout bewältigen und die geistige Energie steigern

Entdecken Sie auf XIX.AI die besten KI-basierten Coaches für persönliches Wohlbefinden und Konzentration des Jahres 2026. Unsere sorgfältig zusammengestellte Rangliste umfasst erstklassige, bahnbrechende Tools zur Bewältigung von Burnout und zur Steigerung der mentalen Energie. Vergleichen Sie kostenlose und kostenpflichtige Optionen anhand von Erfahrungsberichten aus der Praxis. Schlagen Sie noch heute den Weg zu höchster Produktivität und Wohlbefinden ein.

10 Tools
xix.ai
Chatbot Die besten KI-basierten Romantik-Chatbots: Bauen Sie langfristige Beziehungen mit beständiger Persönlichkeit auf
Die besten KI-basierten Romantik-Chatbots: Bauen Sie langfristige Beziehungen mit beständiger Persönlichkeit auf

Entdecken Sie die besten KI-Romantik-Chatbots des Jahres 2026, mit denen Sie echte, langfristige Beziehungen aufbauen können. Unsere sorgfältig zusammengestellte Liste bietet Ihnen überzeugende, konsistente Persönlichkeiten, Vergleiche zwischen kostenlosen und kostenpflichtigen Angeboten sowie Tests aus der Praxis. Finden Sie Ihren perfekten Begleiter und legen Sie noch heute bei XIX.AI los.

10 Tools
xix.ai
Bildung und Lernen Die besten AI-Datenwissenschafts-Mentoren: Beherrschen Sie SQL, Pandas und Arbeitsabläufe für maschinelles Lernen.
Die besten AI-Datenwissenschafts-Mentoren: Beherrschen Sie SQL, Pandas und Arbeitsabläufe für maschinelles Lernen.

Entdecken Sie die besten AI-Data-Science-Mentoren von 2026, um SQL, Pandas und ML-Arbeitsabläufe zu meistern. Erfahren Sie mehr über unsere hochbewerteten, sorgfältig ausgewählten Angebote bei XIX.AI – für effektive und bahnbrechende Anleitung. Vergleichen Sie kostenlose und bezahlte Optionen mit praktischen Einblicken aus der Praxis. Entfalten Sie Ihr Potenzial in der Data Science noch heute.

10 Tools
xix.ai
Chatbot Die besten KI-Flirt- und Konversationstrainer: Steigere dein soziales Charisma und dein Selbstvertrauen in Echtzeit
Die besten KI-Flirt- und Konversationstrainer: Steigere dein soziales Charisma und dein Selbstvertrauen in Echtzeit

Entdecken Sie auf XIX.AI die besten KI-Flirt- und Konversationstrainer des Jahres 2026. Unsere sorgfältig zusammengestellte, erstklassige Auswahl hilft Ihnen dabei, Ihr soziales Charisma und Ihr Selbstvertrauen in Echtzeit zu stärken. Entdecken Sie unverzichtbare, bahnbrechende Tools mit Vergleichen zwischen kostenlosen und kostenpflichtigen Angeboten sowie wöchentlich aktualisierten Rankings. Schaffen Sie sich noch heute einen sozialen Vorsprung.

10 Tools
xix.ai
Kommentare (17)
0/500
EricDavis
EricDavis 19. Mai 2026 18:00:14 MESZ

這篇文章點出了一個關鍵問題:眾包評測雖然快速,但真的能反映AI模型的真實能力嗎?專家們的擔憂很有道理,學術嚴謹性和倫理風險確實需要更嚴格的把關。希望業界能盡快建立更可靠的評估標準,而不是一味追求排行榜上的名次。🤔

AlbertScott
AlbertScott 1. August 2025 15:47:34 MESZ

Crowdsourced AI benchmarks sound cool, but experts pointing out ethical issues makes me wonder if we're rushing too fast. 🤔 Are we sacrificing quality for hype?

JonathanAllen
JonathanAllen 27. April 2025 09:34:07 MESZ

Estou acompanhando o debate sobre benchmarks de IA crowdsourced e, honestamente, é uma bagunça. Os especialistas têm razão ao apontar as falhas, mas qual é a alternativa? É como tentar consertar um barco que vaza com mais buracos. Ainda assim, é uma leitura interessante e certamente faz você pensar sobre o futuro da ética em IA. Experimente se você gosta desse tipo de coisa! 😅

AlbertWalker
AlbertWalker 27. April 2025 07:24:31 MESZ

Nossa, benchmarks de IA por multidão? Parece legal, mas com falhas éticas? Tô pensando se isso não atrapalha a inovação. As big techs precisam resolver isso logo! 🚀

RogerRodriguez
RogerRodriguez 27. April 2025 05:52:29 MESZ

I've been following the debate on crowdsourced AI benchmarks and honestly, it's a mess. Experts are right to point out the flaws, but what's the alternative? It's like trying to fix a leaky boat with more holes. Still, it's an interesting read and definitely makes you think about the future of AI ethics. Give it a go if you're into that kinda stuff! 😅

JonathanAllen
JonathanAllen 27. April 2025 03:40:09 MESZ

Intéressant, mais inquiétant ! Les benchmarks par crowdsourcing, c’est innovant, mais les failles éthiques me font réfléchir. Les géants comme Google vont devoir être transparents. 🧐

OR