メタのAIモデルベンチマーク：誤解を招く？

家

ニュース

2025年4月10日

TimothyMitchell

104

# meta # llama # llama 4

メタのAIモデルベンチマーク：誤解を招く？

さて、Metaが週末に新しいAIモデル、Maverickをリリースし、LM Arenaで2位を獲得して早くも話題になっています。ご存知の通り、LM Arenaは人間が裁判官となってさまざまなAIモデルを比較し、気に入ったものを選ぶ場所です。でも、ちょっと待って、面白い展開が！ LM Arenaで活躍しているMaverickのバージョンは、開発者がダウンロードして使えるものと完全に同じではないことが判明しました。

X（そう、以前はTwitterとして知られていたプラットフォーム）上の鋭いAI研究者たちが、MetaがLM Arenaのバージョンを「実験的なチャットバージョン」と呼んでいることに気づきました。Llamaのウェブサイトを覗いてみると、テストは「会話に最適化されたLlama 4 Maverick」で行われたと明かしているチャートがあります。これについては以前も話しましたが、LM ArenaはAIのパフォーマンスを測るための金字塔というわけではありません。ほとんどのAI企業は、このテストで高得点を狙うためにモデルをいじることはしない——少なくとも、そう公言していません。

問題は、ベンチマークで高得点を出すようにモデルを調整しつつ、一般向けには異なる「バニラ」バージョンを公開すると、開発者がそのモデルが実際のシナリオでどれだけうまく機能するかを判断するのが難しくなることです。それに、ちょっと紛らわしいですよね？ベンチマークには欠陥があるとはいえ、モデルがさまざまなタスクで何ができて何ができないかを明確に示すべきです。

Xの研究者たちは、ダウンロード可能なMaverickとLM Arenaのものとの間に大きな違いがあることにすぐ気づきました。Arenaのバージョンは絵文字を多用し、長い、くどい回答をするのが特徴のようです。

Okay Llama 4 is def a littled cooked lol, what is this yap city pic.twitter.com/y3GvhbVz65
— Nathan Lambert (@natolambert) 2025年4月6日

for some reason, the Llama 4 model in Arena uses a lot more Emojis

on together . ai, it seems better: pic.twitter.com/f74ODX4zTt
— Tech Dev Notes (@techdevnotes) 2025年4月6日

私たちはMetaと、LM Arenaを運営するChatbot Arenaの担当者にこの件についてコメントを求めました。続報をお待ちください！

メタのザッカーバーグ、すべてのAI「超知能」モデルをオープンソース化するわけではないと発言メタ社のパーソナル・スーパーインテリジェンスへの戦略転換メタ社のマーク・ザッカーバーグCEOは今週、"パーソナル・スーパーインテリジェンス"、つまり個人的な目的を達成するために個人に力を与えるAIシステムについての野心的なビジョンを概説し、同社のAI展開戦略に変更の可能性を示唆した。オープンソースのジレンマザッカーバーグの声明は、メタ社が超知能システムを追求する中で、高度なAIモデルをオープンソー

メタのAIがインスタグラム・コンテンツの動画吹き替えに挑戦 Metaは、FacebookとInstagramで画期的なAI吹き替え技術へのアクセスを拡大し、本物の声と自然な唇の動きを維持するシームレスな動画翻訳機能を導入します。異文化コンテンツに革命を起こすMetaの新しいAI翻訳機能は、クリエイターの声の特徴や唇の同期を維持したまま、英語とスペイン語の間でリールを自動的に変換します。この革新的な技術は、昨年のMeta Connectイベントで実証されたも

Meta AIアプリがプレミアム層と広告を導入 MetaのAIアプリは、OpenAI、Google、Microsoftなどの競合他社と同様に、有料サブスクリプションを近日中に導入する可能性があります。2025年第1四半期の決算発表で、MetaのCEOマーク・ザッカーバーグは、プレミアムサービス計画を発表し、ユーザーがMeta AIで強化された計算能力や追加機能にアクセスできるようにすると述べました。ChatGPTに対抗するため、Metaは今週、

コメント (36)

0/200

提出する

ScottWalker

2025年7月28日 10:20:54 JST

Meta's Maverick hitting second on LM Arena? Impressive, but I'm skeptical about those benchmarks. Feels like a hype train—wonder if it’s more flash than substance. 🤔 Anyone tested it in real-world tasks yet?

KennethMartin

2025年4月21日 19:14:21 JST

Meta's Maverick AI model is impressive, snagging second place on LM Arena! But are the benchmarks really telling the whole story? It's cool to see AI models go head-to-head, but I'm not sure if it's all fair play. Makes you wonder, right? 🤔 Maybe we need a more transparent way to judge these models!

WalterThomas

2025年4月21日 11:55:14 JST

मेटा का नया AI मॉडल, मैवरिक, LM एरिना में दूसरे स्थान पर पहुंचा! यह प्रभावशाली है, लेकिन क्या बेंचमार्क वास्तव में पूरी कहानी बता रहे हैं? AI मॉडल्स को आपस में प्रतिस्पर्धा करते देखना मजेदार है, लेकिन मुझे नहीं पता कि यह निष्पक्ष है या नहीं। आपको सोचने पर मजबूर करता है, है ना? 🤔 शायद हमें इन मॉडल्स को जज करने का एक और पारदर्शी तरीका चाहिए!

JohnYoung

2025年4月19日 0:03:42 JST

메타의 새로운 AI 모델, 마브릭이 LM Arena에서 2위를 차지하다니 대단해요! 하지만 벤치마크가 정말 모든 것을 말해주고 있는지 궁금해요. AI 모델 간의 경쟁은 재미있지만, 공정한지 확신할 수 없네요. 더 투명한 평가 방법이 필요할 것 같아요 🤔

JohnHernández

2025年4月18日 1:58:48 JST

Meta's Maverick AI model snagging second place on LM Arena is pretty cool, but the benchmarks might be a bit off! 🤔 It's fun to see these models go head-to-head, but I'm not sure if the results are totally fair. Worth keeping an eye on! 👀

MarkScott

2025年4月17日 14:54:17 JST

Модель ИИ Maverick от Meta заняла второе место на LM Arena, это круто, но бенчмарки могут быть немного не точными! 🤔 Забавно наблюдать за соревнованием этих моделей, но я не уверен, что результаты полностью справедливы. Стоит за этим следить! 👀

トップニュース

Gemini 2.5 ProはClaudeよりも無制限で安価で、GPT-4O 2025年トップAIビデオジェネレーター：Pika Labs vs 代替案 AIボイスオーバー：リアルな声制作究極ガイドカンビウムのAIは、廃棄物を木材に変換します Openaiは、より良いチャットのためにAIの音声アシスタントを強化します AI統合のためにデータが信頼できることを確認する方法 Notebooklmはグローバルに拡張し、スライドを追加し、ファクトチェックを強化します米国のデータセンターへの微調整は、76 GWの新しい電源容量のロックを解除できます GoogleはAIを利用して、詐欺の疑いのために3900万を超える広告アカウントを一時停止します AIボイスクローン：音声変換を極めるための完全ガイド

もっと

特集