3 façons de Meta's Llama 3.1 est une avancée pour Gen Ai

Maison

Nouvelles

15 avril 2025

MichaelAdams

107

3 façons de Meta's Llama 3.1 est une avancée pour Gen Ai

Mardi, Meta a levé le voile sur la dernière addition à sa famille de modèles de langage de grande échelle (LLMs), en présentant Llama 3.1. L'entreprise revendique fièrement Llama 3.1 comme le premier modèle "frontier" open-source, un terme généralement réservé aux modèles d'IA les plus avancés du marché.

Llama 3.1 se décline en plusieurs tailles, mais c'est le gigantesque "405B" qui attire vraiment l'attention. Avec un impressionnant 405 milliards de "poids" neuronaux, ou paramètres, il surpasse d'autres modèles open-source notables comme Nemotron 4 de Nvidia, Gemma 2 de Google et Mixtral. Ce qui est encore plus intrigant, ce sont les trois décisions clés prises par l'équipe de Meta pour concevoir ce géant.

Ces décisions constituent rien de moins qu'un cours magistral d'ingénierie des réseaux neuronaux, formant l'épine dorsale de la construction et de l'entraînement de Llama 3.1 405B. Elles s'appuient également sur les gains d'efficacité démontrés par Meta avec Llama 2, qui a montré des moyens prometteurs de réduire le budget global de calcul pour l'apprentissage profond.

Tout d'abord, Llama 3.1 405B abandonne l'approche "mélange d'experts", utilisée par Google pour son modèle fermé Gemini 1.5 et par Mistral pour Mixtral. Cette méthode consiste à créer différentes combin πολιστάσεις neuronales, dont certaines peuvent être désactivées pour rationaliser les prédictions. Au lieu de cela, les chercheurs de Meta ont opté pour l'architecture éprouvée du "modèle transformateur uniquement décodeur", un standard depuis son introduction par Google en 2017. Ils affirment que ce choix conduit à un processus d'entraînement plus stable.

Deuxièmement, pour améliorer les performances de ce modèle basé sur un transformateur simple, l'équipe de Meta a mis au point une approche d'entraînement multi-étapes astucieuse. Nous savons tous que l'équilibre entre la quantité de données d'entraînement et le calcul peut avoir un impact significatif sur la qualité des prédictions. Mais les "lois d'échelle" traditionnelles, qui prédisent les performances du modèle en fonction de sa taille et des données, ne reflètent pas nécessairement la capacité d'un modèle à gérer les tâches "en aval" comme les tests de raisonnement.

Ainsi, Meta a développé sa propre loi d'échelle. Ils ont augmenté à la fois les données d'entraînement et le calcul, testant différentes combinaisons sur plusieurs itérations pour voir comment le modèle resultant performait sur ces tâches cruciales en aval. Ce processus minutieux leur a permis de trouver le point idéal, conduisant au choix de 405 milliards de paramètres pour leur modèle phare. L'entraînement final a été réalisé avec 16 000 puces GPU Nvidia H100 sur le serveur AI Grand Teton de Meta, avec un système complexe pour exécuter les données et les poids en parallèle.

La troisième innovation réside dans la phase post-entraînement. Après chaque cycle d'entraînement, Llama 3.1 passe par un processus rigoureux guidé par les retours humains, similaire à ce que font OpenAI et d'autres pour affiner les sorties de leurs modèles. Cela inclut l'"ajustement fin supervisé", où le modèle apprend à distinguer les sorties souhaitables des indésirables en fonction des préférences humaines.

Meta ajoute ensuite une touche avec l'"optimisation directe des préférences" (DPO), une version plus efficace de l'apprentissage par renforcement à partir des retours humains, initiée par des chercheurs en IA de l'Université de Stanford cette année. Ils entraînent également Llama 3.1 à utiliser des "outils", comme les moteurs de recherche externes, en lui montrant des exemples de prompts résolus avec des appels API, améliorant ainsi ses capacités d'utilisation d'outils en "zero-shot".

Pour lutter contre les "hallucinations", l'équipe sélectionne des données d'entraînement spécifiques et crée des paires de questions-réponses originales, ajustant finement le modèle pour qu'il réponde uniquement à ce qu'il sait et refuse ce dont il n'est pas sûr.

Tout au long du développement, les chercheurs de Meta ont mis l'accent sur la simplicité, déclarant que des données de haute qualité, l'échelle et des approches directes donnaient systématiquement les meilleurs résultats. Malgré l'exploration d'architectures et de recettes d'entraînement plus complexes, ils ont constaté que la complexité ajoutée ne justifiait pas les avantages.

L'échelle de Llama 3.1 405B est une étape marquante pour les modèles open-source, généralement éclipsés par leurs homologues commerciaux à source fermée. Le PDG de Meta, Mark Zuckerberg, a souligné les avantages économiques, notant que les développeurs peuvent exécuter l'inférence sur Llama 3.1 405B à la moitié du coût des modèles comme GPT-4o.

Zuckerberg a également défendu l'IA open-source comme une progression naturelle du logiciel, la comparant à l'évolution d'Unix d'un système propriétaire à un écosystème plus avancé, sécurisé et plus large grâce au développement open-source.

Cependant, comme le souligne Steven Vaughan-Nichols de ZDNET, certains détails manquent dans la publication du code de Meta sur Hugging Face, et la licence du code est plus restrictive que les licences open-source typiques. Ainsi, bien que Llama 3.1 soit en quelque sorte open-source, il ne l'est pas entièrement. Pourtant, le volume de détails sur son processus d'entraînement est un changement rafraîchissant, surtout lorsque des géants comme OpenAI et Google sont de plus en plus discrets sur leurs modèles à source fermée.

Article connexe

Anthropic résout une affaire de piratage de livres générés par l'IA Anthropic a trouvé une solution à un important litige en matière de droits d'auteur avec des auteurs américains, en acceptant une proposition de règlement de recours collectif qui évite un procès pote

Meta partage ses revenus avec les hébergeurs des modèles d'IA Llama, selon un document de référence Alors que le PDG de Meta, Mark Zuckerberg, a souligné en juillet 2023 que la "vente d'accès" n'était pas leur modèle commercial pour les modèles d'IA des lamas, des documents judiciaires récemment div

Débloquer 99 % des données cachées désormais optimisées pour l'IA Depuis des générations, les entreprises de tous les secteurs ont compris que les informations qu'elles accumulent représentent un atout transformateur, capable d'améliorer les interactions avec les cl

commentaires (27)

0/200

Soumettre

DavidRodriguez

30 août 2025 18:30:32 UTC+02:00

Interessant, dass Meta Llama 3.1 als erstes Open-Source-Modell bezeichnet. Aber wer kann so ein riesiges Modell eigentlich sinnvoll nutzen? Für kleine Unternehmen bestimmt zu teuer im Betrieb. 🧐

ThomasBaker

31 juillet 2025 03:41:20 UTC+02:00

Wow, Llama 3.1 sounds like a game-changer! Open-source and frontier-level? That’s huge for AI devs. Curious how it stacks up against closed models like GPT-4. 😎

AlbertThomas

22 avril 2025 17:18:49 UTC+02:00

O Llama 3.1 é incrível! Adoro que seja de código aberto, é como ter um superpoder no meu arsenal de programação. No começo pode ser um pouco confuso, mas vale a pena experimentar se você gosta de IA! 🚀

GaryGonzalez

22 avril 2025 10:13:48 UTC+02:00

ラマ3.1は本当にすごい！オープンソースで使えるのが最高です。最初は少し圧倒されましたが、慣れると便利です。AIに興味があるなら、ぜひ試してみてください！🚀

AnthonyPerez

22 avril 2025 09:26:53 UTC+02:00

¡Llama 3.1 es una bestia! Me encanta que sea de código abierto, es como tener un superpoder en mi arsenal de programación. Al principio puede ser un poco abrumador, pero definitivamente vale la pena probarlo si te interesa la IA! 🚀

JustinAnderson

20 avril 2025 23:42:32 UTC+02:00

¡Llama 3.1 de Meta es una maravilla! Me sorprende cómo están empujando los límites con la IA de código abierto. El rendimiento es genial, pero desearía que hubiera más documentación para principiantes. De todas formas, ¡es una herramienta que hay que probar! 💪

Top nouvelles

Meilleurs Générateurs de Vidéos IA en 2025 : Pika Labs vs Alternatives Gemini 2.5 Pro maintenant illimité et moins cher que Claude, GPT-4O Doublage par IA : Guide ultime pour la création de voix réalistes L'IA du cambium transforme le bois de déchet en bois OpenAI améliore l'assistant vocal AI pour de meilleurs chats Comment vous assurer que vos données sont dignes de confiance pour l'intégration de l'IA AI Builder et Power Automate Révolutionnent la Synthèse de Documents Notebooklm se développe à l'échelle mondiale, ajoute des diapositives et une vérification des faits améliorée Les ajustements aux centres de données américains pourraient débloquer 76 GW de nouvelle capacité d'énergie Google utilise l'IA pour suspendre plus de 39 millions de comptes d'annonces pour une fraude présumée

Plus

En vedette