MetaはLlama 4リリースを擁護し、バグを混合品質レポートの原因として引用します
週末に、Facebook、Instagram、Whatsapp、およびQuest VRの背後にある大国であるメタは、最新のAI言語モデルであるLlama 4を発表することで全員を驚かせました。1つだけでなく、3つの新しいバージョンが導入されました。さらに、3つのモデルにはすべて、広大なコンテキストウィンドウが付属しているため、単一の対話でより多くの情報を処理できます。
リリースの興奮にもかかわらず、AIコミュニティの反応はせいぜい温かくなりました。土曜日に、メタはこれらのモデルのうち2つ、Llama 4 ScoutとLlama 4 Maverickをダウンロードして使用できましたが、応答は熱狂的なものとはほど遠いものでした。
Llama 4は、AIユーザーの間での混乱と批判を引き起こします
北米で人気のある中国語コミュニティである1point3acresフォーラムの未検証の投稿は、RedditのR/Localllama Subredditへの道を見つけました。この投稿は、メタのGenai組織の研究者からのと言われていますが、Llama 4は内部のサードパーティのベンチマークでパフォーマンスが低かったと主張しました。メタのリーダーシップは、さまざまなメトリックを満たし、好ましい結果を提示するために、トレーニング後にテストセットをブレンドすることで結果を操作したことを示唆しました。この主張の信頼性は懐疑的なものであり、メタはまだVentureBeatからの問い合わせに応答していません。
しかし、Llama 4のパフォーマンスについての疑問は止まりませんでした。 Xでは、ユーザー@CTO_JUNIORはモデルのパフォーマンスに不信を表明し、Llama 4 MaverickがコーディングタスクをテストするAider PolyGlot Benchmarkでわずか16%を獲得した独立したテストを引用しました。このスコアは、Deepseek V3やClaude 3.7 Sonnetなど、古い、同様のサイズのモデルのスコアよりも大幅に低くなっています。
AI PhDおよび著者のAndriy BurkovもXを利用して、Llama 4 Scoutのモデルの宣伝された1,000万トークンのコンテキストウィンドウに疑問を投げかけました。これは、モデルが256Kトークンより長いプロンプトでトレーニングされていなかったため「仮想」であると述べています。彼は、より長いプロンプトを送信すると、低品質の出力が生じる可能性が高いと警告しました。
r/localllama subredditで、ユーザーdr_karminskiはllama 4と失望を共有し、そのパフォーマンスの低下を、七角形内のボールの動きをシミュレートするなどのタスクに関するディープシークの非合理的なV3モデルと比較しました。
AI2の元META研究者であり現在の上級研究科学者であるNathan Lambertは、彼の相互接続Substackブログでのメタのベンチマーク比較を批判しました。彼は、Metaのプロモーション資料で使用されているLlama 4 Maverickモデルは、会話のために最適化された公開されたものとは異なることを指摘しました。ランバートは、「卑劣です。以下の結果は偽物であり、メタのコミュニティにとって、主要なマーケティングのプッシュを作成するために使用したモデルをリリースしないことは大きなわずかです」と述べました。彼は、プロモーションモデルが「リリースの技術的な評判をタンキングしているため、そのキャラクターは少年だから」、他のプラットフォームで利用可能な実際のモデルは「非常に賢く、合理的なトーンを持っている」と付け加えました。

メタは応答し、「テストセットでのトレーニング」を拒否し、速いロールアウトによる実装のバグを引用します
批判と告発に応じて、メタの副社長であり、genaiの責任者であるアフマド・アル・ダールは、懸念に対処するためにXを利用しました。彼は、コミュニティのLlama 4との関わりに熱意を表明しましたが、さまざまなサービス全体で一貫性のない品質の報告を認めました。彼は、これらの問題を、迅速な展開と、公共の実施が安定するために必要な時間に起因すると考えました。 Al-Dahleは、テストセットでのトレーニングの申し立てをしっかりと否定し、さまざまな品質は不正行為ではなく実装バグによるものであることを強調しました。彼は、ラマ4モデルの重要な進歩に対するメタの信念と、彼らの可能性を実現するためにコミュニティと協力するという彼らのコミットメントを再確認しました。
しかし、この反応はコミュニティの不満を鎮めるのにほとんど役に立たず、多くの人がまだパフォーマンスの低下を報告しており、モデルのトレーニングプロセスに関するより技術的な文書を要求しています。このリリースは、以前のLlamaバージョンよりも多くの問題に直面しており、その開発と展開に関する疑問を提起しています。
このリリースのタイミングは注目に値します。これは、メタの研究担当副社長であるジョエルピノーの出発に続くため、先週、リンケディンでの退場を発表したことです。ピノーはまた、週末にラマ4モデルファミリーを宣伝していました。
Llama 4は、さまざまな結果を持つ他の推論プロバイダーに引き続き採用されているため、最初のリリースがメタが望んでいた成功ではないことは明らかです。モデルファミリーのサードパーティ開発者の最初の集まりとなる4月29日に開催される今後のメタラマコンは、議論と議論の温床になる可能性があります。開発に注目しているので、お楽しみに。
関連記事
谷歌AI躍升內幕:Gemini 2.5 思維更深、表達更智能且編碼更快
谷歌朝著通用AI助手的願景邁進一步在今年的Google I/O大會上,該公司揭示了其Gemini 2.5系列的重大升級,特別是在多個維度上提升其能力。最新的版本——Gemini 2.5 Flash和2.5 Pro——現在比以往更加聰明和高效。這些進步使谷歌更接近實現其創造通用AI助手的願景,這個助手能夠無縫理解情境、計劃並執行任務。### Gemini 2.
深度認知發布開源AI模型,已名列前茅
深度思睿推出革命性的人工智能模型旧金山一家尖端的人工智能研究初创公司深度思睿(Deep Cogito)正式发布了其首批开源大型语言模型(LLMs),命名为思睿v1。这些模型经过微调自Meta的Llama 3.2,具备混合推理能力,能够快速响应或进行内省思考——这一功能让人联想到OpenAI的“o”系列和DeepSeek R1。深度思睿旨在通过在其模型中促进迭
微軟在Build 2025大會上宣布推出超過50款AI工具打造『主動網路』
微軟於Build大會揭開開放式自主網路願景今天早上,微軟在其年度Build大會上發表了一項大膽宣言:「開放式自主網路」的黎明已經到來。在超過50項公告的廣泛陣容中,這家科技巨頭概述了一項全面策略,將自己置於這個轉型運動的核心位置。從GitHub到Azure,從Windows到Microsoft 365,每條產品線都收到了旨在推動AI代理技術進步的更新。這些代
コメント (0)
0/200
週末に、Facebook、Instagram、Whatsapp、およびQuest VRの背後にある大国であるメタは、最新のAI言語モデルであるLlama 4を発表することで全員を驚かせました。1つだけでなく、3つの新しいバージョンが導入されました。さらに、3つのモデルにはすべて、広大なコンテキストウィンドウが付属しているため、単一の対話でより多くの情報を処理できます。
リリースの興奮にもかかわらず、AIコミュニティの反応はせいぜい温かくなりました。土曜日に、メタはこれらのモデルのうち2つ、Llama 4 ScoutとLlama 4 Maverickをダウンロードして使用できましたが、応答は熱狂的なものとはほど遠いものでした。
Llama 4は、AIユーザーの間での混乱と批判を引き起こします
北米で人気のある中国語コミュニティである1point3acresフォーラムの未検証の投稿は、RedditのR/Localllama Subredditへの道を見つけました。この投稿は、メタのGenai組織の研究者からのと言われていますが、Llama 4は内部のサードパーティのベンチマークでパフォーマンスが低かったと主張しました。メタのリーダーシップは、さまざまなメトリックを満たし、好ましい結果を提示するために、トレーニング後にテストセットをブレンドすることで結果を操作したことを示唆しました。この主張の信頼性は懐疑的なものであり、メタはまだVentureBeatからの問い合わせに応答していません。
しかし、Llama 4のパフォーマンスについての疑問は止まりませんでした。 Xでは、ユーザー@CTO_JUNIORはモデルのパフォーマンスに不信を表明し、Llama 4 MaverickがコーディングタスクをテストするAider PolyGlot Benchmarkでわずか16%を獲得した独立したテストを引用しました。このスコアは、Deepseek V3やClaude 3.7 Sonnetなど、古い、同様のサイズのモデルのスコアよりも大幅に低くなっています。
AI PhDおよび著者のAndriy BurkovもXを利用して、Llama 4 Scoutのモデルの宣伝された1,000万トークンのコンテキストウィンドウに疑問を投げかけました。これは、モデルが256Kトークンより長いプロンプトでトレーニングされていなかったため「仮想」であると述べています。彼は、より長いプロンプトを送信すると、低品質の出力が生じる可能性が高いと警告しました。
r/localllama subredditで、ユーザーdr_karminskiはllama 4と失望を共有し、そのパフォーマンスの低下を、七角形内のボールの動きをシミュレートするなどのタスクに関するディープシークの非合理的なV3モデルと比較しました。
AI2の元META研究者であり現在の上級研究科学者であるNathan Lambertは、彼の相互接続Substackブログでのメタのベンチマーク比較を批判しました。彼は、Metaのプロモーション資料で使用されているLlama 4 Maverickモデルは、会話のために最適化された公開されたものとは異なることを指摘しました。ランバートは、「卑劣です。以下の結果は偽物であり、メタのコミュニティにとって、主要なマーケティングのプッシュを作成するために使用したモデルをリリースしないことは大きなわずかです」と述べました。彼は、プロモーションモデルが「リリースの技術的な評判をタンキングしているため、そのキャラクターは少年だから」、他のプラットフォームで利用可能な実際のモデルは「非常に賢く、合理的なトーンを持っている」と付け加えました。
メタは応答し、「テストセットでのトレーニング」を拒否し、速いロールアウトによる実装のバグを引用します
批判と告発に応じて、メタの副社長であり、genaiの責任者であるアフマド・アル・ダールは、懸念に対処するためにXを利用しました。彼は、コミュニティのLlama 4との関わりに熱意を表明しましたが、さまざまなサービス全体で一貫性のない品質の報告を認めました。彼は、これらの問題を、迅速な展開と、公共の実施が安定するために必要な時間に起因すると考えました。 Al-Dahleは、テストセットでのトレーニングの申し立てをしっかりと否定し、さまざまな品質は不正行為ではなく実装バグによるものであることを強調しました。彼は、ラマ4モデルの重要な進歩に対するメタの信念と、彼らの可能性を実現するためにコミュニティと協力するという彼らのコミットメントを再確認しました。
しかし、この反応はコミュニティの不満を鎮めるのにほとんど役に立たず、多くの人がまだパフォーマンスの低下を報告しており、モデルのトレーニングプロセスに関するより技術的な文書を要求しています。このリリースは、以前のLlamaバージョンよりも多くの問題に直面しており、その開発と展開に関する疑問を提起しています。
このリリースのタイミングは注目に値します。これは、メタの研究担当副社長であるジョエルピノーの出発に続くため、先週、リンケディンでの退場を発表したことです。ピノーはまた、週末にラマ4モデルファミリーを宣伝していました。
Llama 4は、さまざまな結果を持つ他の推論プロバイダーに引き続き採用されているため、最初のリリースがメタが望んでいた成功ではないことは明らかです。モデルファミリーのサードパーティ開発者の最初の集まりとなる4月29日に開催される今後のメタラマコンは、議論と議論の温床になる可能性があります。開発に注目しているので、お楽しみに。












