MetaはLlama 4リリースを擁護し、バグを混合品質レポートの原因として引用します
2025年4月22日
BillyAdams
29
週末に、Facebook、Instagram、Whatsapp、およびQuest VRの背後にある大国であるメタは、最新のAI言語モデルであるLlama 4を発表することで全員を驚かせました。1つだけでなく、3つの新しいバージョンが導入されました。さらに、3つのモデルにはすべて、広大なコンテキストウィンドウが付属しているため、単一の対話でより多くの情報を処理できます。
リリースの興奮にもかかわらず、AIコミュニティの反応はせいぜい温かくなりました。土曜日に、メタはこれらのモデルのうち2つ、Llama 4 ScoutとLlama 4 Maverickをダウンロードして使用できましたが、応答は熱狂的なものとはほど遠いものでした。
Llama 4は、AIユーザーの間での混乱と批判を引き起こします
北米で人気のある中国語コミュニティである1point3acresフォーラムの未検証の投稿は、RedditのR/Localllama Subredditへの道を見つけました。この投稿は、メタのGenai組織の研究者からのと言われていますが、Llama 4は内部のサードパーティのベンチマークでパフォーマンスが低かったと主張しました。メタのリーダーシップは、さまざまなメトリックを満たし、好ましい結果を提示するために、トレーニング後にテストセットをブレンドすることで結果を操作したことを示唆しました。この主張の信頼性は懐疑的なものであり、メタはまだVentureBeatからの問い合わせに応答していません。
しかし、Llama 4のパフォーマンスについての疑問は止まりませんでした。 Xでは、ユーザー@CTO_JUNIORはモデルのパフォーマンスに不信を表明し、Llama 4 MaverickがコーディングタスクをテストするAider PolyGlot Benchmarkでわずか16%を獲得した独立したテストを引用しました。このスコアは、Deepseek V3やClaude 3.7 Sonnetなど、古い、同様のサイズのモデルのスコアよりも大幅に低くなっています。
AI PhDおよび著者のAndriy BurkovもXを利用して、Llama 4 Scoutのモデルの宣伝された1,000万トークンのコンテキストウィンドウに疑問を投げかけました。これは、モデルが256Kトークンより長いプロンプトでトレーニングされていなかったため「仮想」であると述べています。彼は、より長いプロンプトを送信すると、低品質の出力が生じる可能性が高いと警告しました。
r/localllama subredditで、ユーザーdr_karminskiはllama 4と失望を共有し、そのパフォーマンスの低下を、七角形内のボールの動きをシミュレートするなどのタスクに関するディープシークの非合理的なV3モデルと比較しました。
AI2の元META研究者であり現在の上級研究科学者であるNathan Lambertは、彼の相互接続Substackブログでのメタのベンチマーク比較を批判しました。彼は、Metaのプロモーション資料で使用されているLlama 4 Maverickモデルは、会話のために最適化された公開されたものとは異なることを指摘しました。ランバートは、「卑劣です。以下の結果は偽物であり、メタのコミュニティにとって、主要なマーケティングのプッシュを作成するために使用したモデルをリリースしないことは大きなわずかです」と述べました。彼は、プロモーションモデルが「リリースの技術的な評判をタンキングしているため、そのキャラクターは少年だから」、他のプラットフォームで利用可能な実際のモデルは「非常に賢く、合理的なトーンを持っている」と付け加えました。

メタは応答し、「テストセットでのトレーニング」を拒否し、速いロールアウトによる実装のバグを引用します
批判と告発に応じて、メタの副社長であり、genaiの責任者であるアフマド・アル・ダールは、懸念に対処するためにXを利用しました。彼は、コミュニティのLlama 4との関わりに熱意を表明しましたが、さまざまなサービス全体で一貫性のない品質の報告を認めました。彼は、これらの問題を、迅速な展開と、公共の実施が安定するために必要な時間に起因すると考えました。 Al-Dahleは、テストセットでのトレーニングの申し立てをしっかりと否定し、さまざまな品質は不正行為ではなく実装バグによるものであることを強調しました。彼は、ラマ4モデルの重要な進歩に対するメタの信念と、彼らの可能性を実現するためにコミュニティと協力するという彼らのコミットメントを再確認しました。
しかし、この反応はコミュニティの不満を鎮めるのにほとんど役に立たず、多くの人がまだパフォーマンスの低下を報告しており、モデルのトレーニングプロセスに関するより技術的な文書を要求しています。このリリースは、以前のLlamaバージョンよりも多くの問題に直面しており、その開発と展開に関する疑問を提起しています。
このリリースのタイミングは注目に値します。これは、メタの研究担当副社長であるジョエルピノーの出発に続くため、先週、リンケディンでの退場を発表したことです。ピノーはまた、週末にラマ4モデルファミリーを宣伝していました。
Llama 4は、さまざまな結果を持つ他の推論プロバイダーに引き続き採用されているため、最初のリリースがメタが望んでいた成功ではないことは明らかです。モデルファミリーのサードパーティ開発者の最初の集まりとなる4月29日に開催される今後のメタラマコンは、議論と議論の温床になる可能性があります。開発に注目しているので、お楽しみに。
関連記事
ガイアは、Arc-Agiを超えた真の知性を求めて新しいベンチマークを紹介します
知性はどこにでもありますが、それを正確に測定することは、素手で雲をつかもうとしているように感じます。大まかなアイデアを得るために、大学の入学試験などのテストとベンチマークを使用しています。毎年、学生はこれらのテストのために詰め込み、時には完璧な100%を獲得します。しかし、その完璧なスコアmをします
AIスタートアップは750万ドルを確保して、アメリカの24M保護されていない中小企業の商業保険に革命をもたらします
ニューヨークに拠点を置く新興企業である1Fortは、AI駆動型プラットフォームを通じて中小企業が商業保険を保護する方法に革命をもたらすために、750万ドルのシード資金調達を確保しました。 2024年の月ごとの驚異的な月の収益の増加により、1フォートは時代遅れの手動プロセスをオーバーホールするように設定されています
法学教授は、メタとのAI著作権戦で著者を支援する
著作権法の教授のグループは、テクノロジーの巨人が著者の同意なしに電子書籍でラマAIモデルを訓練したと主張して、メタを訴える著者の背後に彼らの支持を投げかけました。教授は、金曜日にカリフォルニア州北部地区の米国地方裁判所にアミカスの概要を提出しました。
コメント (0)
0/200






週末に、Facebook、Instagram、Whatsapp、およびQuest VRの背後にある大国であるメタは、最新のAI言語モデルであるLlama 4を発表することで全員を驚かせました。1つだけでなく、3つの新しいバージョンが導入されました。さらに、3つのモデルにはすべて、広大なコンテキストウィンドウが付属しているため、単一の対話でより多くの情報を処理できます。
リリースの興奮にもかかわらず、AIコミュニティの反応はせいぜい温かくなりました。土曜日に、メタはこれらのモデルのうち2つ、Llama 4 ScoutとLlama 4 Maverickをダウンロードして使用できましたが、応答は熱狂的なものとはほど遠いものでした。
Llama 4は、AIユーザーの間での混乱と批判を引き起こします
北米で人気のある中国語コミュニティである1point3acresフォーラムの未検証の投稿は、RedditのR/Localllama Subredditへの道を見つけました。この投稿は、メタのGenai組織の研究者からのと言われていますが、Llama 4は内部のサードパーティのベンチマークでパフォーマンスが低かったと主張しました。メタのリーダーシップは、さまざまなメトリックを満たし、好ましい結果を提示するために、トレーニング後にテストセットをブレンドすることで結果を操作したことを示唆しました。この主張の信頼性は懐疑的なものであり、メタはまだVentureBeatからの問い合わせに応答していません。
しかし、Llama 4のパフォーマンスについての疑問は止まりませんでした。 Xでは、ユーザー@CTO_JUNIORはモデルのパフォーマンスに不信を表明し、Llama 4 MaverickがコーディングタスクをテストするAider PolyGlot Benchmarkでわずか16%を獲得した独立したテストを引用しました。このスコアは、Deepseek V3やClaude 3.7 Sonnetなど、古い、同様のサイズのモデルのスコアよりも大幅に低くなっています。
AI PhDおよび著者のAndriy BurkovもXを利用して、Llama 4 Scoutのモデルの宣伝された1,000万トークンのコンテキストウィンドウに疑問を投げかけました。これは、モデルが256Kトークンより長いプロンプトでトレーニングされていなかったため「仮想」であると述べています。彼は、より長いプロンプトを送信すると、低品質の出力が生じる可能性が高いと警告しました。
r/localllama subredditで、ユーザーdr_karminskiはllama 4と失望を共有し、そのパフォーマンスの低下を、七角形内のボールの動きをシミュレートするなどのタスクに関するディープシークの非合理的なV3モデルと比較しました。
AI2の元META研究者であり現在の上級研究科学者であるNathan Lambertは、彼の相互接続Substackブログでのメタのベンチマーク比較を批判しました。彼は、Metaのプロモーション資料で使用されているLlama 4 Maverickモデルは、会話のために最適化された公開されたものとは異なることを指摘しました。ランバートは、「卑劣です。以下の結果は偽物であり、メタのコミュニティにとって、主要なマーケティングのプッシュを作成するために使用したモデルをリリースしないことは大きなわずかです」と述べました。彼は、プロモーションモデルが「リリースの技術的な評判をタンキングしているため、そのキャラクターは少年だから」、他のプラットフォームで利用可能な実際のモデルは「非常に賢く、合理的なトーンを持っている」と付け加えました。
メタは応答し、「テストセットでのトレーニング」を拒否し、速いロールアウトによる実装のバグを引用します
批判と告発に応じて、メタの副社長であり、genaiの責任者であるアフマド・アル・ダールは、懸念に対処するためにXを利用しました。彼は、コミュニティのLlama 4との関わりに熱意を表明しましたが、さまざまなサービス全体で一貫性のない品質の報告を認めました。彼は、これらの問題を、迅速な展開と、公共の実施が安定するために必要な時間に起因すると考えました。 Al-Dahleは、テストセットでのトレーニングの申し立てをしっかりと否定し、さまざまな品質は不正行為ではなく実装バグによるものであることを強調しました。彼は、ラマ4モデルの重要な進歩に対するメタの信念と、彼らの可能性を実現するためにコミュニティと協力するという彼らのコミットメントを再確認しました。
しかし、この反応はコミュニティの不満を鎮めるのにほとんど役に立たず、多くの人がまだパフォーマンスの低下を報告しており、モデルのトレーニングプロセスに関するより技術的な文書を要求しています。このリリースは、以前のLlamaバージョンよりも多くの問題に直面しており、その開発と展開に関する疑問を提起しています。
このリリースのタイミングは注目に値します。これは、メタの研究担当副社長であるジョエルピノーの出発に続くため、先週、リンケディンでの退場を発表したことです。ピノーはまた、週末にラマ4モデルファミリーを宣伝していました。
Llama 4は、さまざまな結果を持つ他の推論プロバイダーに引き続き採用されているため、最初のリリースがメタが望んでいた成功ではないことは明らかです。モデルファミリーのサードパーティ開発者の最初の集まりとなる4月29日に開催される今後のメタラマコンは、議論と議論の温床になる可能性があります。開発に注目しているので、お楽しみに。












