ニュース 専門家は、クラウドソーシングされたAIベンチマークの深刻な欠陥を強調しています

専門家は、クラウドソーシングされたAIベンチマークの深刻な欠陥を強調しています

2025年4月25日
JamesWalker
6

AI Labsは、Chatbot Arenaのようなクラウドソーシングベンチマークプラットフォームにますます目を向けており、最新のモデルの機能を評価しています。しかし、一部の専門家は、この方法が重大な倫理的および学問的懸念を提起すると主張しています。

近年、Openai、Google、Metaなどの主要なプレーヤーは、ユーザーを引き付けるプラットフォームを利用して、今後のモデルのパフォーマンスを評価しています。これらのプラットフォームの高いスコアは、モデルの進歩の証としてラボによって強調されることがよくあります。しかし、このアプローチには批評家がないわけではありません。

クラウドソーシングベンチマークの批判

ワシントン大学の言語学教授であり、「The Ai Con」の共著者であるEmily Benderは、そのようなベンチマーク、特にChatbot Arenaの有効性について懸念を表明しています。このプラットフォームには、2つの匿名モデルからの回答を比較し、好みのモデルを選択するボランティアが含まれます。ベンダーは、ベンチマークが効果的であるためには、特定の何かを測定し、構成要素の妥当性を実証する必要があると主張します。つまり、測定は評価されている構造を正確に反映する必要があります。彼女は、Chatbot Arenaには、1つの出力に対するユーザーの好みが、定義された基準と真に相関するという証拠がないと主張します。

AI会社Lesanの共同設立者であり、分散型AI Research InstituteのフェローであるAsmelash Teka Hadguは、これらのベンチマークがAI Labsによって悪用されてモデルについて誇張された主張をすることを示唆しています。彼は、メタのラマ4マーベリックモデルで最近の事件を引用しました。メタはチャットボットアリーナでうまく機能するバージョンを微調整しましたが、代わりにそれほど効果の低いバージョンをリリースすることを選択しました。 Hadguは、ベンチマークを動的であり、複数の独立したエンティティに分配され、教育やヘルスケアなどの分野の特定のユースケースに合わせて、作業でこれらのモデルを使用する専門家による特定のユースケースに合わせて提唱しています。

公正な補償とより広範な評価方法の呼びかけ

Aspen InstituteのEmergent and Intelligent Technologies Initiativeの元リーダーであるHadguとKristine Gloriaは、評価者は仕事に対して補償されるべきであると主張し、しばしば搾取的なデータラベル付け業界に類似しています。グロリアは、市民科学のイニシアチブに似たクラウドソーシングベンチマークを価値があると見なしていますが、特に業界の革新の急速なペースを考えると、ベンチマークは評価のための唯一の指標であってはなりません。

クラウドソーシングレッドチームリングキャンペーンを実施するグレイスワンAIのCEOであるマットフレドリクソンは、新しいスキルを学び、実践しようとするボランティアに対するこのようなプラットフォームの魅力を認めています。しかし、彼は、公共のベンチマークが有料のプライベート評価によって提供されるより詳細な評価を置き換えることができないと強調しています。フレドリクソンは、開発者がより多くのオープンエンドおよびドメイン固有の洞察を提供できる内部ベンチマーク、アルゴリズムレッドチーム、契約の専門家にも依存する必要があることを示唆しています。

ベンチマークに関する業界の視点

Model Marketplace OpenRouterのCEOであるAlex Atallahと、UC BerkeleyのAI博士課程の学生であり、Lmarenaの創設者の1人であるWei-Lin Chiang(Chatbot Arenaを管理する)は、オープンテストとベンチマークだけでは不十分であることに同意します。 Chiangは、Lmarenaの目標は、さまざまなAIモデルに関するコミュニティの好みを測定するための信頼できるオープンスペースを提供することであることを強調しています。

マーベリックのベンチマークに関する論争に対処するため、チェンは、そのような事件はチャットボットアリーナのデザインの欠陥ではなく、ラボによるポリシーの誤解によるものであることを明らかにしています。 Lmarenaはその後、公正かつ再現可能な評価を確保するためのポリシーを更新しました。チェンは、プラットフォームのコミュニティは単なるボランティアやテスターのグループではなく、AIモデルに関する集合的なフィードバックを提供する熱心なグループであると強調しています。

コールオブデューティ:モバイル - すべての作業償還コード2025年1月

クラウドソーシングベンチマークプラットフォームの使用に関する継続的な議論は、AIモデル評価に対するより微妙なアプローチの必要性を強調しています。

関連記事
人類が「モデル福祉」を研究するためのプログラムを開始する 人類が「モデル福祉」を研究するためのプログラムを開始する 将来のAIは意識することができますか?将来のAIが人間に似たある方法で世界を経験するかもしれないかどうかの問題は興味深いものですが、ほとんど答えられていません。彼らがそうするという決定的な証拠はありませんが、AIラボ人類はその可能性を完全に却下していません。木曜日、アントロ
レースアップスカートのトレンド:スタイリングのヒントと衣装のアイデアを揺さぶる レースアップスカートのトレンド:スタイリングのヒントと衣装のアイデアを揺さぶる レースアップスカートはホットなトレンドになり、大胆なエッジと女性らしさのダッシュを融合しています。目を引くレースアップのディテールで知られるこれらのスカートは、ワードローブを盛り上げようとしているファッション愛好家にとって頼りになるものです。劇的な声明や微妙なスタイルのヒントを求めているかどうかにかかわらず、GRに到達する
実用的なAI:開発における熱意と懐疑論のバランスをとる 実用的なAI:開発における熱意と懐疑論のバランスをとる 人工知能の進化し続ける世界では、.NETおよびC#エコシステム内で作業する開発者にとって、バランスの取れた視点を維持することが不可欠です。 AIの可能性はスリリングですが、懐疑論の用量により、その実用的で効果的な統合が保証されます。この記事では、実用的なアプリを採用しています
コメント (0)
0/200
OR