Maison
Meta défend la version Llama 4, cite les bogues comme cause de rapports de qualité mixte
Durant le week-end, Meta, la puissance derrière Facebook, Instagram, WhatsApp et Quest VR, a surpris tout le monde en dévoilant son dernier modèle de langage AI, Llama 4. Pas un, mais trois nouvelles versions ont été présentées, chacune dotée de capacités améliorées grâce à l'architecture "Mixture-of-Experts" et une nouvelle approche d'entraînement appelée MetaP, impliquant des hyperparamètres fixes. De plus, les trois modèles offrent des fenêtres de contexte étendues, leur permettant de traiter plus d'informations en une seule interaction.
Malgré l'enthousiasme de la sortie, la réaction de la communauté AI a été au mieux tiède. Samedi, Meta a rendu deux de ces modèles, Llama 4 Scout et Llama 4 Maverick, disponibles au téléchargement et à l'utilisation, mais la réponse a été loin d'être enthousiaste.
Llama 4 suscite confusion et critiques parmi les utilisateurs AI
Un message non vérifié sur le forum 1point3acres, une communauté populaire de langue chinoise en Amérique du Nord, a trouvé son chemin vers le subreddit r/LocalLlama sur Reddit. Le message, prétendument d'un chercheur de l'organisation GenAI de Meta, affirmait que Llama 4 sous-performait sur des benchmarks tiers internes. Il suggérait que la direction de Meta avait manipulé les résultats en mélangeant les ensembles de tests pendant l'entraînement pour atteindre divers indicateurs et présenter un résultat favorable. L'authenticité de cette affirmation a été accueillie avec scepticisme, et Meta n'a pas encore répondu aux demandes de VentureBeat.
Cependant, les doutes sur les performances de Llama 4 ne s'arrêtent pas là. Sur X, l'utilisateur @cto_junior a exprimé son incrédulité face aux performances du modèle, citant un test indépendant où Llama 4 Maverick a obtenu seulement 16 % sur le benchmark polyglot aider, qui teste les tâches de codage. Ce score est nettement inférieur à celui de modèles plus anciens de taille similaire comme DeepSeek V3 et Claude 3.7 Sonnet.
Le docteur en AI et auteur Andriy Burkov a également pris la parole sur X pour remettre en question la fenêtre de contexte annoncée de 10 millions de tokens pour Llama 4 Scout, déclarant qu'elle est "virtuelle" car le modèle n'a pas été entraîné sur des prompts dépassant 256k tokens. Il a averti que l'envoi de prompts plus longs entraînerait probablement des sorties de faible qualité.
Sur le subreddit r/LocalLlama, l'utilisateur Dr_Karminski a partagé sa déception envers Llama 4, comparant ses mauvaises performances à celles du modèle non-raisonnant V3 de DeepSeek sur des tâches comme la simulation de mouvements de balle dans un heptagone.
Nathan Lambert, ancien chercheur chez Meta et actuel scientifique senior chez AI2, a critiqué les comparaisons de benchmarks de Meta sur son blog Interconnects Substack. Il a souligné que le modèle Llama 4 Maverick utilisé dans les supports promotionnels de Meta était différent de celui publié publiquement, optimisé plutôt pour la conversation. Lambert a noté l'écart, disant : "Sournois. Les résultats ci-dessous sont faux, et c'est une grave offense à la communauté de Meta de ne pas publier le modèle utilisé pour leur grande campagne marketing." Il a ajouté que bien que le modèle promotionnel "nuise à la réputation technique de la sortie car son caractère est juvénile", le modèle réellement disponible sur d'autres plateformes était "assez intelligent et a un ton raisonnable."

Meta répond, niant l'entraînement sur les ensembles de tests et citant des bugs dans l'implémentation en raison d'un déploiement rapide
En réponse aux critiques et accusations, le vice-président et chef de GenAI de Meta, Ahmad Al-Dahle, s'est exprimé sur X pour répondre aux préoccupations. Il a exprimé son enthousiasme pour l'engagement de la communauté avec Llama 4 mais a reconnu des rapports de qualité incohérente à travers différents services. Il a attribué ces problèmes au déploiement rapide et au temps nécessaire pour stabiliser les implémentations publiques. Al-Dahle a fermement nié les allégations d'entraînement sur les ensembles de tests, soulignant que la qualité variable était due à des bugs d'implémentation plutôt qu'à une inconduite. Il a réaffirmé la croyance de Meta dans les avancées significatives des modèles Llama 4 et leur engagement à travailler avec la communauté pour réaliser leur potentiel.
Cependant, la réponse n'a pas suffi à apaiser les frustrations de la communauté, beaucoup signalant encore de mauvaises performances et exigeant plus de documentation technique sur les processus d'entraînement des modèles. Cette sortie a rencontré plus de problèmes que les versions précédentes de Llama, soulevant des questions sur son développement et son déploiement.
Le timing de cette sortie est notable, car elle suit le départ de Joelle Pineau, vice-présidente de la recherche chez Meta, qui a annoncé son départ sur LinkedIn la semaine dernière avec gratitude pour son temps dans l'entreprise. Pineau avait également promu la famille de modèles Llama 4 pendant le week-end.
Alors que Llama 4 continue d'être adopté par d'autres fournisseurs d'inférence avec des résultats mitigés, il est clair que la sortie initiale n'a pas été le succès espéré par Meta. La prochaine Meta LlamaCon, le 29 avril, qui sera le premier rassemblement pour les développeurs tiers de la famille de modèles, risque d'être un foyer de discussions et de débats. Nous suivrons de près les développements, alors restez à l'écoute.
Article connexe
Meta AI répond désormais aux messages des acheteurs sur Facebook Marketplace
Facebook Marketplace lance de nouvelles fonctionnalités basées sur l'IA de Meta, notamment des réponses automatiques aux demandes des acheteurs, a annoncé jeudi l'entreprise. La plateforme u
Meta signe un contrat portant sur plusieurs millions de processeurs IA d'Amazon
Amazon a conclu un partenariat majeur avec Meta, en s'appuyant une nouvelle fois sur ses propres puces conçues sur mesure. Meta a accepté de déployer des millions de puces AWS Graviton pour répondre à
L'essor du gaz naturel chez Meta pourrait alimenter le réseau électrique du Dakota du Sud
Les centres de données ont pris une telle ampleur que leur consommation d'électricité équivaut désormais à celle de certains États américains. Prenons l'exemple du centre de données Hyperion AI de Met
Recommandations de sujets spéciaux liés
commentaires (11)
Meta hat mal wieder die AI-Welt aufgemischt! Llama 4 klingt nach einem riesigen Schritt, aber die Meldungen über gemischte Qualität wegen Bugs sind irgendwie enttäuschend. 🤔 Finde es trotzdem cool, dass sie so transparent sind und die Probleme direkt ansprechen – das ist bei Tech-Giganten nicht immer selbstverständlich. Hoffentlich kriegen sie die Fehler schnell in den Griff, sonst könnte das Vertrauen in die Modelle leiden. Die MoE-Architektur an sich ist ja mega spannend!
Hmm, Meta's Llama 4-Release sorgt also für gemischte Qualitätsberichte und sie schieben es auf Bugs? Interessant. Kann es nicht einfach sein, dass das MoE-Design in der Praxis schwieriger zu beherrschen ist, als in der Theorie versprochen? Die Eile, mit der die großen Tech-Konzerne KI pushen, macht mich nachdenklich. Kommen diese 'Verbesserungen' überhaupt bei den normalen Anwendern an, wo es wirklich zählt? Irgendwie ein klassisches 'Release jetzt, Patch später'-Szenario... 🤔
Meta qui sort encore un modèle en catimini avec des bugs... Original cette stratégie de 'test en production' sur des millions d'utilisateurs 🙄 Ça me rappelle les mises à jour foireuses d'Instagram ! #BetaTestGéant
Meta's Llama 4 drop was wild! Three versions with that fancy Mixture-of-Experts setup? Sounds powerful, but those bugs they mentioned make me wonder if it’s ready for prime time. Anyone tried it yet? 🧐
Wow, Llama 4 sounds like a beast with that Mixture-of-Experts setup! But bugs causing mixed quality? Kinda feels like Meta rushed this out to beat the competition. Hope they patch it up soon! 🦙
Durant le week-end, Meta, la puissance derrière Facebook, Instagram, WhatsApp et Quest VR, a surpris tout le monde en dévoilant son dernier modèle de langage AI, Llama 4. Pas un, mais trois nouvelles versions ont été présentées, chacune dotée de capacités améliorées grâce à l'architecture "Mixture-of-Experts" et une nouvelle approche d'entraînement appelée MetaP, impliquant des hyperparamètres fixes. De plus, les trois modèles offrent des fenêtres de contexte étendues, leur permettant de traiter plus d'informations en une seule interaction.
Malgré l'enthousiasme de la sortie, la réaction de la communauté AI a été au mieux tiède. Samedi, Meta a rendu deux de ces modèles, Llama 4 Scout et Llama 4 Maverick, disponibles au téléchargement et à l'utilisation, mais la réponse a été loin d'être enthousiaste.
Llama 4 suscite confusion et critiques parmi les utilisateurs AI
Un message non vérifié sur le forum 1point3acres, une communauté populaire de langue chinoise en Amérique du Nord, a trouvé son chemin vers le subreddit r/LocalLlama sur Reddit. Le message, prétendument d'un chercheur de l'organisation GenAI de Meta, affirmait que Llama 4 sous-performait sur des benchmarks tiers internes. Il suggérait que la direction de Meta avait manipulé les résultats en mélangeant les ensembles de tests pendant l'entraînement pour atteindre divers indicateurs et présenter un résultat favorable. L'authenticité de cette affirmation a été accueillie avec scepticisme, et Meta n'a pas encore répondu aux demandes de VentureBeat.
Cependant, les doutes sur les performances de Llama 4 ne s'arrêtent pas là. Sur X, l'utilisateur @cto_junior a exprimé son incrédulité face aux performances du modèle, citant un test indépendant où Llama 4 Maverick a obtenu seulement 16 % sur le benchmark polyglot aider, qui teste les tâches de codage. Ce score est nettement inférieur à celui de modèles plus anciens de taille similaire comme DeepSeek V3 et Claude 3.7 Sonnet.
Le docteur en AI et auteur Andriy Burkov a également pris la parole sur X pour remettre en question la fenêtre de contexte annoncée de 10 millions de tokens pour Llama 4 Scout, déclarant qu'elle est "virtuelle" car le modèle n'a pas été entraîné sur des prompts dépassant 256k tokens. Il a averti que l'envoi de prompts plus longs entraînerait probablement des sorties de faible qualité.
Sur le subreddit r/LocalLlama, l'utilisateur Dr_Karminski a partagé sa déception envers Llama 4, comparant ses mauvaises performances à celles du modèle non-raisonnant V3 de DeepSeek sur des tâches comme la simulation de mouvements de balle dans un heptagone.
Nathan Lambert, ancien chercheur chez Meta et actuel scientifique senior chez AI2, a critiqué les comparaisons de benchmarks de Meta sur son blog Interconnects Substack. Il a souligné que le modèle Llama 4 Maverick utilisé dans les supports promotionnels de Meta était différent de celui publié publiquement, optimisé plutôt pour la conversation. Lambert a noté l'écart, disant : "Sournois. Les résultats ci-dessous sont faux, et c'est une grave offense à la communauté de Meta de ne pas publier le modèle utilisé pour leur grande campagne marketing." Il a ajouté que bien que le modèle promotionnel "nuise à la réputation technique de la sortie car son caractère est juvénile", le modèle réellement disponible sur d'autres plateformes était "assez intelligent et a un ton raisonnable."

Meta répond, niant l'entraînement sur les ensembles de tests et citant des bugs dans l'implémentation en raison d'un déploiement rapide
En réponse aux critiques et accusations, le vice-président et chef de GenAI de Meta, Ahmad Al-Dahle, s'est exprimé sur X pour répondre aux préoccupations. Il a exprimé son enthousiasme pour l'engagement de la communauté avec Llama 4 mais a reconnu des rapports de qualité incohérente à travers différents services. Il a attribué ces problèmes au déploiement rapide et au temps nécessaire pour stabiliser les implémentations publiques. Al-Dahle a fermement nié les allégations d'entraînement sur les ensembles de tests, soulignant que la qualité variable était due à des bugs d'implémentation plutôt qu'à une inconduite. Il a réaffirmé la croyance de Meta dans les avancées significatives des modèles Llama 4 et leur engagement à travailler avec la communauté pour réaliser leur potentiel.
Cependant, la réponse n'a pas suffi à apaiser les frustrations de la communauté, beaucoup signalant encore de mauvaises performances et exigeant plus de documentation technique sur les processus d'entraînement des modèles. Cette sortie a rencontré plus de problèmes que les versions précédentes de Llama, soulevant des questions sur son développement et son déploiement.
Le timing de cette sortie est notable, car elle suit le départ de Joelle Pineau, vice-présidente de la recherche chez Meta, qui a annoncé son départ sur LinkedIn la semaine dernière avec gratitude pour son temps dans l'entreprise. Pineau avait également promu la famille de modèles Llama 4 pendant le week-end.
Alors que Llama 4 continue d'être adopté par d'autres fournisseurs d'inférence avec des résultats mitigés, il est clair que la sortie initiale n'a pas été le succès espéré par Meta. La prochaine Meta LlamaCon, le 29 avril, qui sera le premier rassemblement pour les développeurs tiers de la famille de modèles, risque d'être un foyer de discussions et de débats. Nous suivrons de près les développements, alors restez à l'écoute.
Meta AI répond désormais aux messages des acheteurs sur Facebook Marketplace
Facebook Marketplace lance de nouvelles fonctionnalités basées sur l'IA de Meta, notamment des réponses automatiques aux demandes des acheteurs, a annoncé jeudi l'entreprise. La plateforme u
Meta signe un contrat portant sur plusieurs millions de processeurs IA d'Amazon
Amazon a conclu un partenariat majeur avec Meta, en s'appuyant une nouvelle fois sur ses propres puces conçues sur mesure. Meta a accepté de déployer des millions de puces AWS Graviton pour répondre à
L'essor du gaz naturel chez Meta pourrait alimenter le réseau électrique du Dakota du Sud
Les centres de données ont pris une telle ampleur que leur consommation d'électricité équivaut désormais à celle de certains États américains. Prenons l'exemple du centre de données Hyperion AI de Met
Meta hat mal wieder die AI-Welt aufgemischt! Llama 4 klingt nach einem riesigen Schritt, aber die Meldungen über gemischte Qualität wegen Bugs sind irgendwie enttäuschend. 🤔 Finde es trotzdem cool, dass sie so transparent sind und die Probleme direkt ansprechen – das ist bei Tech-Giganten nicht immer selbstverständlich. Hoffentlich kriegen sie die Fehler schnell in den Griff, sonst könnte das Vertrauen in die Modelle leiden. Die MoE-Architektur an sich ist ja mega spannend!
Hmm, Meta's Llama 4-Release sorgt also für gemischte Qualitätsberichte und sie schieben es auf Bugs? Interessant. Kann es nicht einfach sein, dass das MoE-Design in der Praxis schwieriger zu beherrschen ist, als in der Theorie versprochen? Die Eile, mit der die großen Tech-Konzerne KI pushen, macht mich nachdenklich. Kommen diese 'Verbesserungen' überhaupt bei den normalen Anwendern an, wo es wirklich zählt? Irgendwie ein klassisches 'Release jetzt, Patch später'-Szenario... 🤔
Meta qui sort encore un modèle en catimini avec des bugs... Original cette stratégie de 'test en production' sur des millions d'utilisateurs 🙄 Ça me rappelle les mises à jour foireuses d'Instagram ! #BetaTestGéant
Meta's Llama 4 drop was wild! Three versions with that fancy Mixture-of-Experts setup? Sounds powerful, but those bugs they mentioned make me wonder if it’s ready for prime time. Anyone tried it yet? 🧐
Wow, Llama 4 sounds like a beast with that Mixture-of-Experts setup! But bugs causing mixed quality? Kinda feels like Meta rushed this out to beat the competition. Hope they patch it up soon! 🦙











