MetaはLlama 4リリースを擁護し、バグを混合品質レポートの原因として引用します

家

ニュース

2025年4月23日

BillyAdams

100

# meta # llama # nlp # llama-4 # Scandal

週末、Facebook、Instagram、WhatsApp、Quest VRを運営するMetaは、最新のAI言語モデルLlama 4を公開し、驚きを与えた。3つの新バージョンが導入され、それぞれ「Mixture-of-Experts」アーキテクチャと固定ハイパーパラメータを用いた新しいトレーニング手法MetaPにより強化された機能を持つ。さらに、3つのモデルはすべて広範なコンテキストウィンドウを備え、1回の対話でより多くの情報を処理できる。

リリースの興奮にもかかわらず、AIコミュニティの反応はせいぜい冷淡だった。土曜日、MetaはLlama 4 ScoutとLlama 4 Maverickの2つのモデルをダウンロードと使用可能にしたが、反応は熱狂的とは程遠い。

Llama 4、AIユーザーの間で混乱と批判を呼ぶ

北米の中国語コミュニティで人気の1point3acresフォーラムに投稿された未検証の投稿が、Redditのr/LocalLlamaサブレディットに広まった。この投稿は、MetaのGenAI組織の研究者によるものとされ、Llama 4が内部のサードパーティベンチマークで期待外れだったと主張。Metaの経営陣がテストセットを混ぜて結果を操作し、好ましい結果を示したと示唆した。この主張の真偽は疑問視され、MetaはVentureBeatからの問い合わせにまだ回答していない。

しかし、Llama 4のパフォーマンスに対する疑問はそれだけに止まらなかった。Xでユーザー@cto_juniorは、Llama 4 Maverickがコーディングタスクをテストするaider polyglotベンチマークでわずか16%のスコアを記録した独立テストを引用し、モデルのパフォーマンスに疑問を呈した。このスコアは、DeepSeek V3やClaude 3.7 Sonnetといった同規模の旧モデルよりも大幅に低い。

AI博士で著者のAndriy BurkovもXで、Llama 4 Scoutの宣伝されている1000万トークンのコンテキストウィンドウが「仮想」だと指摘。モデルは256kトークンを超えるプロンプトでトレーニングされておらず、長いプロンプトを送ると低品質な出力になる可能性が高いと警告した。

r/LocalLlamaサブレディットでは、ユーザーDr_KarminskiがLlama 4の性能に失望を表明し、七角形内でのボールの動きをシミュレートするタスクでDeepSeekの非推論V3モデルと比較して劣ると述べた。

元Meta研究者で現在AI2のシニア研究者であるNathan Lambertは、自身のInterconnects SubstackブログでMetaのベンチマーク比較を批判。Metaのプロモーション資料で使用されたLlama 4 Maverickモデルは公開されたものとは異なり、会話向けに最適化されていたと指摘。「狡猾だ。以下の結果は偽物で、マーケティングのために使用したモデルを公開しないのはMetaコミュニティに対する重大な侮辱だ」と述べ、プロモーションモデルは「その性格が幼稚でリリースの技術的評判を損なっている」としつつ、他のプラットフォームで利用可能な実際のモデルは「かなり賢く、合理的なトーンを持っている」と付け加えた。

Meta、テストセットでのトレーニング否定と迅速な展開によるバグを理由に反論

批判と非難に対し、MetaのGenAI副社長兼責任者のAhmad Al-DahleはXで懸念に対応。Llama 4へのコミュニティの関与に熱意を示しつつ、異なるサービスでの品質のばらつきを認め、迅速な展開と公開実装の安定化に時間がかかるためだと説明。テストセットでのトレーニングの疑惑を強く否定し、品質の変動は不正ではなく実装バグによるものだと強調。MetaはLlama 4モデルの大きな進歩を信じ、コミュニティと協力してその可能性を実現する決意を再確認した。

しかし、この対応はコミュニティの不満を鎮めるには至らず、多くの人が依然として性能の低さを報告し、モデルのトレーニングプロセスに関する詳細な技術文書を求めている。このリリースは以前のLlamaバージョンよりも多くの問題に直面し、開発と展開に関する疑問を呼んでいる。

このリリースのタイミングは、Metaの研究副社長Joelle Pineauが先週LinkedInで退社を発表し、会社での時間に感謝を述べたことに続く注目すべきもの。Pineauは週末にLlama 4モデルファミリーを宣伝していた。

Llama 4が他の推論プロバイダーに採用される中、結果はまちまちで、Metaが期待した成功とは言えない。4月29日に開催されるMeta LlamaConは、モデルファミリーのサードパーティ開発者向け初の集会となり、議論と論争の場となるだろう。引き続き動向を注視するので、注目してほしい。

GoogleがOpenAIと競合するエンタープライズ市場向けに生産準備が整ったGemini 2.5 AIモデルを公開 Googleは月曜日、AI戦略を強化し、エンタープライズ向けに高度なGemini 2.5モデルを発表し、価格と性能で競争力のあるコスト効率の高いバリアントを導入しました。Alphabet傘下の同社は、主力AIモデルであるGemini 2.5 ProとGemini 2.5 Flashをテスト段階から完全な利用可能状態に移行し、重要なビジネスアプリケーションへの準備が整っていることを示しました。さらに

MetaがAI人材に高額報酬を提供、1億ドルのサインオンボーナスは否定 Metaは新しいスーパーインテリジェンスラボにAI研究者を引き付けるため、数百万ドル規模の報酬パッケージを提供しています。しかし、採用された研究者や漏洩した内部会議の発言によると、1億ドルの「サインオンボーナス」という主張は本当ではありません。The Vergeが木曜日に報じた漏洩した全社ミーティングでは、Metaの幹部がOpenAIのCEOサム・アルトマンが主張した、Metaがトップ研究者に提供

Metaが高度なLlamaツールでAIセキュリティを強化 Metaは、新たなLlamaセキュリティツールをリリースし、AI開発を強化し、新たな脅威から保護します。これらのアップグレードされたLlama AIモデルのセキュリティツールは、Metaの新しいリソースと組み合わされ、サイバーセキュリティチームがAIを防御に活用することを支援し、すべてのAIステークホルダーの安全性を高めることを目指します。Llamaモデルを使用する開発者は、MetaのLlama

コメント (5)

0/200

提出する

CharlesYoung

2025年4月25日 4:47:05 JST

Llama 4 a l’air d’une sacrée avancée avec son architecture Mixture-of-Experts ! 😎 Mais les bugs, sérieux ? Ça sent la sortie précipitée pour faire la course avec les autres géants. Curieux de voir ce que ça donne après les correctifs.

AlbertLee

2025年4月24日 20:01:02 JST

¡Llama 4 con tres versiones nuevas! 😲 La arquitectura Mixture-of-Experts suena brutal, pero lo de los bugs me da mala espina. Meta siempre quiere estar a la cabeza, ¿no? Espero que lo pulan pronto.

HarryLewis

2025年4月24日 8:06:55 JST

ラマ4の発表、めっちゃ驚いた！😮 3つのバージョンってすごいけど、バグで品質がバラバラって…。ちょっと不安だな。AIの進化は楽しみだけど、倫理面どうするんだろ？

JackClark

2025年4月23日 15:26:04 JST

लामा 4 की रिलीज़ ने चौंका दिया! 😯 मिक्सचर-ऑफ-एक्सपर्ट्स वाला आर्किटेक्चर कमाल लगता है, पर बग्स की वजह से क्वालिटी में उतार-चढ़ाव? लगता है मेटा ने जल्दबाज़ी की। देखते हैं ये AI कितना दम दिखाता है।

DanielPerez

2025年4月23日 11:18:50 JST

Wow, Llama 4 sounds like a beast with that Mixture-of-Experts setup! 🦙 But bugs causing mixed quality? Kinda makes me wonder if Meta rushed this one out to beat the competition. Still, excited to see how it performs once they iron out the kinks!

トップニュース

Gemini 2.5 ProはClaudeよりも無制限で安価で、GPT-4O 2025年トップAIビデオジェネレーター：Pika Labs vs 代替案 Openaiは、より良いチャットのためにAIの音声アシスタントを強化します Notebooklmはグローバルに拡張し、スライドを追加し、ファクトチェックを強化します米国のデータセンターへの微調整は、76 GWの新しい電源容量のロックを解除できます AIボイスオーバー：リアルな声制作究極ガイド 2026年までに複数のNYCのパワーを消費するAIコンピューティングは、創設者によると AIボイスクローン：音声変換を極めるための完全ガイド AI搭載のI/Oクロスワードを体験する：古典的な単語ゲームのモダンなひねり Nvidia CEOは、Deepseekの市場への影響に関する誤解を明確にしています

もっと

特集