Maison Nouvelles Meta défend la version Llama 4, cite les bogues comme cause de rapports de qualité mixte

Meta défend la version Llama 4, cite les bogues comme cause de rapports de qualité mixte

22 avril 2025
BillyAdams
29

Au cours du week-end, Meta, la puissance derrière Facebook, Instagram, WhatsApp et Quest VR, a surpris tout le monde en dévoilant son dernier modèle de langue AI, Llama 4. Pas seulement une, mais trois nouvelles versions ont été introduites, chacune se vantant de capacités améliorées grâce aux "mélanges de grévistes" et d'une nouvelle approche de formation appelée METAP, qui implique des hyperparamètres fixes. De plus, les trois modèles sont livrés avec de vastes fenêtres de contexte, ce qui leur permet de traiter plus d'informations dans une seule interaction.

Malgré l'excitation de la libération, la réaction de la communauté de l'IA a été au mieux tiède. Samedi, Meta a réalisé deux de ces modèles, Llama 4 Scout et Llama 4 Maverick, disponibles en téléchargement et en utilisation, mais la réponse a été loin d'être enthousiaste.

LLAMA 4 étimule la confusion et les critiques parmi les utilisateurs de l'IA

Un article non vérifié sur le Forum 1Point3ACRES, une communauté populaire de la langue chinoise en Amérique du Nord, a trouvé son chemin vers le Sous-Soudreddit R / Localllama sur Reddit. Le poste, prétendument d'un chercheur de l'organisation Genai de Meta, a affirmé que Llama 4 avait sous-performé sur des références tierces internes. Il a suggéré que le leadership de Meta avait manipulé les résultats en mélangeant des ensembles de tests pendant la post-formation pour respecter diverses mesures et présenter un résultat favorable. L'authenticité de cette affirmation a été rencontrée par le scepticisme, et Meta n'a pas encore répondu aux demandes de renseignements de VentureBeat.

Pourtant, les doutes sur la performance de Llama 4 ne s'arrêtaient pas là. Sur X, l'utilisateur @cto_junior a exprimé l'incrédulité aux performances du modèle, citant un test indépendant où Llama 4 Maverick a marqué un seul 16% sur la référence Aider Polyglot, qui teste les tâches de codage. Ce score est nettement inférieur à celui des modèles plus âgés de taille similaire comme Deepseek V3 et Claude 3.7 Sonnet.

L'AI PhD et l'auteur Andriy Burkov sont également allées à X pour remettre en question la fenêtre de contexte annoncée de 10 millions de personnes du modèle pour LLAMA 4 Scout, déclarant qu'il est "virtuel" car le modèle n'était pas formé à des invites plus de plus de 256K jetons. Il a averti que l'envoi plus long entraînerait probablement des résultats de faible qualité.

Sur le Sandreddit R / Localllama, l'utilisateur DR_KARMINSKI a partagé la déception avec Llama 4, en comparant sa mauvaise performance au modèle V3 non-saisonnier de Deepseek sur des tâches telles que la simulation de mouvements de balle dans un heptagon.

Nathan Lambert, ancienne chercheuse en méta et chercheur principal actuel à AI2, a critiqué les comparaisons de référence de Meta sur son blog de substitution d'interconnexion. Il a souligné que le modèle Llama 4 Maverick utilisé dans le matériel promotionnel de Meta était différent de celui publié publiquement, optimisé à la place pour la conversation. Lambert a noté l'écart, disant: "Sneaky. Les résultats ci-dessous sont faux, et c'est un léger majeur pour la communauté de Meta pour ne pas publier le modèle qu'ils ont utilisé pour créer leur poussée marketing majeure." Il a ajouté que même si le modèle promotionnel "tanking la réputation technique de la version parce que son personnage est juvénile", le modèle réel disponible sur d'autres plateformes était "assez intelligent et a un ton raisonnable".

Meta répond, niant la `` formation sur les ensembles de tests '' et citant des bogues dans la mise en œuvre en raison d'un déploiement rapide

En réponse aux critiques et aux accusations, le vice-président de Meta et chef de Genai, Ahmad al-Dahle, s'est rendu à X pour répondre aux préoccupations. Il a exprimé son enthousiasme pour l'engagement de la communauté avec Llama 4, mais a reconnu les rapports de qualité incohérente dans différents services. Il a attribué ces problèmes au déploiement rapide et le temps nécessaire aux implémentations publiques pour se stabiliser. Al-Dahle a fermement nié les allégations de formation sur les ensembles de tests, soulignant que la qualité variable était due à des bogues de mise en œuvre plutôt qu'à une faute. Il a réaffirmé la croyance de Meta dans les progrès importants des modèles Llama 4 et leur engagement à travailler avec la communauté pour réaliser leur potentiel.

Cependant, la réponse n'a pas fait peu de choses pour réprimer les frustrations de la communauté, beaucoup signalant toujours de mauvaises performances et exigeant plus de documentation technique sur les processus de formation des modèles. Cette version a été confrontée à plus de problèmes que les versions LLAMA précédentes, ce qui soulève des questions sur son développement et son déploiement.

Le moment de cette version est notable, car il suit le départ de Joelle Pineau, vice-président de la recherche de Meta, qui a annoncé sa sortie sur LinkedIn la semaine dernière avec la gratitude pour son séjour à l'entreprise. Pineau avait également fait la promotion de la famille des modèles Llama 4 au cours du week-end.

Comme Llama 4 continue d'être adopté par d'autres fournisseurs d'inférence avec des résultats mitigés, il est clair que la version initiale n'a pas été le succès que Meta aurait pu espérer. Le prochain Meta Llamacon le 29 avril, qui sera le premier rassemblement pour les développeurs tiers de la famille modèle, est probablement un foyer de discussion et de débat. Nous surveillerons de près les développements, alors restez à l'écoute.

Article connexe
Gaia führt einen neuen Benchmark in der Suche nach wahrer Intelligenz jenseits von Arc-Agi ein Gaia führt einen neuen Benchmark in der Suche nach wahrer Intelligenz jenseits von Arc-Agi ein Intelligenz ist überall, aber das Messen Sie es genau so, als würde man versuchen, eine Wolke mit bloßen Händen zu fangen. Wir verwenden Tests und Benchmarks wie College -Aufnahmeprüfungen, um eine grobe Idee zu bekommen. Jedes Jahr drehen die Schüler für diese Tests und erzielen manchmal sogar eine perfekte 100%. Aber macht diese perfekte Punktzahl m
Das KI -Startup sichert 7,5 Millionen US Das KI -Startup sichert 7,5 Millionen US 1Fort, ein in New York ansässiger Startup, hat eine Saatgut-Finanzierungsrunde in Höhe von 7,5 Millionen US-Dollar gesichert, um zu revolutionieren, wie kleine Unternehmen eine kommerzielle Versicherung durch seine KI-gesteuerte Plattform abschließen. Mit einem erstaunlichen Umsatzwachstum von 200% monatlich im Monat im Jahr 2024 soll 1Fort die veralteten manuellen Prozesse überarbeiten
Rechtsprofessoren unterstützen Autoren im KI -Urheberrecht gegen Meta. Rechtsprofessoren unterstützen Autoren im KI -Urheberrecht gegen Meta. Eine Gruppe von Copyright-Rechtsprofessoren hat ihre Unterstützung hinter Autoren verklagt, die Meta verklagen, und behauptet, der Tech-Riese habe seine LLAMA-AI-Modelle auf E-Books ohne Zustimmung der Autoren ausgebildet. Die Professoren haben am Freitag einen Amicus -Brief eingereicht
Commentaires (0)
0/200
Back to Top
OR