option
Maison
Nouvelles
Meta défend la version Llama 4, cite les bogues comme cause de rapports de qualité mixte

Meta défend la version Llama 4, cite les bogues comme cause de rapports de qualité mixte

23 avril 2025
72

Au cours du week-end, Meta, la puissance derrière Facebook, Instagram, WhatsApp et Quest VR, a surpris tout le monde en dévoilant son dernier modèle de langue AI, Llama 4. Pas seulement une, mais trois nouvelles versions ont été introduites, chacune se vantant de capacités améliorées grâce aux "mélanges de grévistes" et d'une nouvelle approche de formation appelée METAP, qui implique des hyperparamètres fixes. De plus, les trois modèles sont livrés avec de vastes fenêtres de contexte, ce qui leur permet de traiter plus d'informations dans une seule interaction.

Malgré l'excitation de la libération, la réaction de la communauté de l'IA a été au mieux tiède. Samedi, Meta a réalisé deux de ces modèles, Llama 4 Scout et Llama 4 Maverick, disponibles en téléchargement et en utilisation, mais la réponse a été loin d'être enthousiaste.

LLAMA 4 étimule la confusion et les critiques parmi les utilisateurs de l'IA

Un article non vérifié sur le Forum 1Point3ACRES, une communauté populaire de la langue chinoise en Amérique du Nord, a trouvé son chemin vers le Sous-Soudreddit R / Localllama sur Reddit. Le poste, prétendument d'un chercheur de l'organisation Genai de Meta, a affirmé que Llama 4 avait sous-performé sur des références tierces internes. Il a suggéré que le leadership de Meta avait manipulé les résultats en mélangeant des ensembles de tests pendant la post-formation pour respecter diverses mesures et présenter un résultat favorable. L'authenticité de cette affirmation a été rencontrée par le scepticisme, et Meta n'a pas encore répondu aux demandes de renseignements de VentureBeat.

Pourtant, les doutes sur la performance de Llama 4 ne s'arrêtaient pas là. Sur X, l'utilisateur @cto_junior a exprimé l'incrédulité aux performances du modèle, citant un test indépendant où Llama 4 Maverick a marqué un seul 16% sur la référence Aider Polyglot, qui teste les tâches de codage. Ce score est nettement inférieur à celui des modèles plus âgés de taille similaire comme Deepseek V3 et Claude 3.7 Sonnet.

L'AI PhD et l'auteur Andriy Burkov sont également allées à X pour remettre en question la fenêtre de contexte annoncée de 10 millions de personnes du modèle pour LLAMA 4 Scout, déclarant qu'il est "virtuel" car le modèle n'était pas formé à des invites plus de plus de 256K jetons. Il a averti que l'envoi plus long entraînerait probablement des résultats de faible qualité.

Sur le Sandreddit R / Localllama, l'utilisateur DR_KARMINSKI a partagé la déception avec Llama 4, en comparant sa mauvaise performance au modèle V3 non-saisonnier de Deepseek sur des tâches telles que la simulation de mouvements de balle dans un heptagon.

Nathan Lambert, ancienne chercheuse en méta et chercheur principal actuel à AI2, a critiqué les comparaisons de référence de Meta sur son blog de substitution d'interconnexion. Il a souligné que le modèle Llama 4 Maverick utilisé dans le matériel promotionnel de Meta était différent de celui publié publiquement, optimisé à la place pour la conversation. Lambert a noté l'écart, disant: "Sneaky. Les résultats ci-dessous sont faux, et c'est un léger majeur pour la communauté de Meta pour ne pas publier le modèle qu'ils ont utilisé pour créer leur poussée marketing majeure." Il a ajouté que même si le modèle promotionnel "tanking la réputation technique de la version parce que son personnage est juvénile", le modèle réel disponible sur d'autres plateformes était "assez intelligent et a un ton raisonnable".

Meta répond, niant la `` formation sur les ensembles de tests '' et citant des bogues dans la mise en œuvre en raison d'un déploiement rapide

En réponse aux critiques et aux accusations, le vice-président de Meta et chef de Genai, Ahmad al-Dahle, s'est rendu à X pour répondre aux préoccupations. Il a exprimé son enthousiasme pour l'engagement de la communauté avec Llama 4, mais a reconnu les rapports de qualité incohérente dans différents services. Il a attribué ces problèmes au déploiement rapide et le temps nécessaire aux implémentations publiques pour se stabiliser. Al-Dahle a fermement nié les allégations de formation sur les ensembles de tests, soulignant que la qualité variable était due à des bogues de mise en œuvre plutôt qu'à une faute. Il a réaffirmé la croyance de Meta dans les progrès importants des modèles Llama 4 et leur engagement à travailler avec la communauté pour réaliser leur potentiel.

Cependant, la réponse n'a pas fait peu de choses pour réprimer les frustrations de la communauté, beaucoup signalant toujours de mauvaises performances et exigeant plus de documentation technique sur les processus de formation des modèles. Cette version a été confrontée à plus de problèmes que les versions LLAMA précédentes, ce qui soulève des questions sur son développement et son déploiement.

Le moment de cette version est notable, car il suit le départ de Joelle Pineau, vice-président de la recherche de Meta, qui a annoncé sa sortie sur LinkedIn la semaine dernière avec la gratitude pour son séjour à l'entreprise. Pineau avait également fait la promotion de la famille des modèles Llama 4 au cours du week-end.

Comme Llama 4 continue d'être adopté par d'autres fournisseurs d'inférence avec des résultats mitigés, il est clair que la version initiale n'a pas été le succès que Meta aurait pu espérer. Le prochain Meta Llamacon le 29 avril, qui sera le premier rassemblement pour les développeurs tiers de la famille modèle, est probablement un foyer de discussion et de débat. Nous surveillerons de près les développements, alors restez à l'écoute.

Article connexe
谷歌AI躍升內幕:Gemini 2.5 思維更深、表達更智能且編碼更快 谷歌AI躍升內幕:Gemini 2.5 思維更深、表達更智能且編碼更快 谷歌朝著通用AI助手的願景邁進一步在今年的Google I/O大會上,該公司揭示了其Gemini 2.5系列的重大升級,特別是在多個維度上提升其能力。最新的版本——Gemini 2.5 Flash和2.5 Pro——現在比以往更加聰明和高效。這些進步使谷歌更接近實現其創造通用AI助手的願景,這個助手能夠無縫理解情境、計劃並執行任務。### Gemini 2.
深度認知發布開源AI模型,已名列前茅 深度認知發布開源AI模型,已名列前茅 深度思睿推出革命性的人工智能模型旧金山一家尖端的人工智能研究初创公司深度思睿(Deep Cogito)正式发布了其首批开源大型语言模型(LLMs),命名为思睿v1。这些模型经过微调自Meta的Llama 3.2,具备混合推理能力,能够快速响应或进行内省思考——这一功能让人联想到OpenAI的“o”系列和DeepSeek R1。深度思睿旨在通过在其模型中促进迭
微軟在Build 2025大會上宣布推出超過50款AI工具打造『主動網路』 微軟在Build 2025大會上宣布推出超過50款AI工具打造『主動網路』 微軟於Build大會揭開開放式自主網路願景今天早上,微軟在其年度Build大會上發表了一項大膽宣言:「開放式自主網路」的黎明已經到來。在超過50項公告的廣泛陣容中,這家科技巨頭概述了一項全面策略,將自己置於這個轉型運動的核心位置。從GitHub到Azure,從Windows到Microsoft 365,每條產品線都收到了旨在推動AI代理技術進步的更新。這些代
commentaires (0)
0/200
Retour en haut
OR