3 Wege Metas Lama 3.1 ist ein Fortschritt für Gen Ai

Am Dienstag stellte Meta die neueste Ergänzung zur Llama-Familie großer Sprachmodelle (LLMs) vor: Llama 3.1. Das Unternehmen bezeichnet Llama 3.1 stolz als das erste Open-Source-"Frontiermodell", ein Begriff, der üblicherweise für die fortschrittlichsten KI-Modelle verwendet wird.
Llama 3.1 gibt es in verschiedenen Größen, aber das riesige "405B" sticht besonders hervor. Mit beeindruckenden 405 Milliarden neuronalen "Gewichten" oder Parametern übertrifft es andere bekannte Open-Source-Modelle wie Nvidias Nemotron 4, Googles Gemma 2 und Mixtral. Besonders faszinierend sind die drei zentralen Entscheidungen des Meta-Teams bei der Entwicklung dieses Giganten.
Diese Entscheidungen sind ein Meisterwerk der neuronalen Netzwerktechnik und bilden das Rückgrat für den Aufbau und das Training von Llama 3.1 405B. Sie bauen auf den Effizienzgewinnen auf, die Meta mit Llama 2 demonstriert hat, das vielversprechende Wege zeigte, um das gesamte Rechenbudget für Deep Learning zu reduzieren.
Erstens verzichtet Llama 3.1 405B auf den "Mixture of Experts"-Ansatz, den Google für sein geschlossenes Gemini 1.5 und Mistral für Mixtral verwendet. Diese Methode umfasst das Erstellen verschiedener Kombinationen neuronaler Gewichte, von denen einige deaktiviert werden können, um Vorhersagen zu optimieren. Stattdessen hielten die Meta-Forscher an der bewährten "Decoder-only-Transformer-Modellarchitektur" fest, die seit ihrer Einführung durch Google im Jahr 2017 ein Standard ist. Sie behaupten, dass diese Wahl zu einem stabileren Trainingsprozess führt.
Zweitens entwickelte das Meta-Team einen cleveren mehrstufigen Trainingsansatz, um die Leistung dieses einfachen Transformer-basierten Modells zu steigern. Es ist bekannt, dass die Balance zwischen Trainingsdatenmenge und Rechenleistung die Vorhersagequalität erheblich beeinflusst. Aber traditionelle "Skalierungsgesetze", die die Modellleistung basierend auf Größe und Daten vorhersagen, spiegeln nicht unbedingt wider, wie gut ein Modell bei "nachgelagerten" Aufgaben wie logischen Tests abschneidet.
Daher entwickelte Meta ein eigenes Skalierungsgesetz. Sie steigerten sowohl die Trainingsdaten als auch die Rechenleistung und testeten verschiedene Kombinationen über mehrere Iterationen hinweg, um zu sehen, wie gut das resultierende Modell bei diesen entscheidenden nachgelagerten Aufgaben abschnitt. Dieser sorgfältige Prozess half ihnen, den optimalen Punkt zu finden, was zur Wahl von 405 Milliarden Parametern für ihr Flaggschiffmodell führte. Das endgültige Training wurde von 16.000 Nvidia H100 GPU-Chips auf Metas Grand Teton AI-Server angetrieben, mit einem komplexen System zur parallelen Verarbeitung von Daten und Gewichten.
Die dritte Innovation liegt in der Nach-Trainings-Phase. Nach jeder Trainingsrunde durchläuft Llama 3.1 einen strengen Prozess, der von menschlichem Feedback geleitet wird, ähnlich wie es OpenAI und andere tun, um die Ausgaben ihrer Modelle zu verfeinern. Dies umfasst "überwachtes Feintuning", bei dem das Modell lernt, zwischen erwünschten und unerwünschten Ausgaben basierend auf menschlichen Präferenzen zu unterscheiden.
Meta fügt dann eine Besonderheit hinzu mit "direkter Präferenzoptimierung" (DPO), einer effizienteren Version des verstärkenden Lernens durch menschliches Feedback, die dieses Jahr von KI-Wissenschaftlern der Stanford University entwickelt wurde. Sie trainieren Llama 3.1 auch, "Werkzeuge" wie externe Suchmaschinen zu nutzen, indem sie Beispiele für Aufforderungen zeigen, die mit API-Aufrufen gelöst wurden, was seine "Zero-Shot"-Werkzeugnutzungsfähigkeiten verbessert.
Um "Halluzinationen" zu bekämpfen, kuratiert das Team spezifische Trainingsdaten und erstellt originale Frage-Antwort-Paare, um das Modell so zu optimieren, dass es nur das beantwortet, was es weiß, und ablehnt, was es nicht sicher weiß.
Während der Entwicklung betonten die Meta-Forscher Einfachheit und stellten fest, dass hochwertige Daten, Skalierung und unkomplizierte Ansätze durchweg die besten Ergebnisse lieferten. Trotz der Erkundung komplexerer Architekturen und Trainingsmethoden stellten sie fest, dass die zusätzliche Komplexität die Vorteile nicht rechtfertigte.
Die Größe von Llama 3.1 405B ist ein Meilenstein für Open-Source-Modelle, die normalerweise von ihren kommerziellen, geschlossenen Pendants übertrumpft werden. Metas CEO, Mark Zuckerberg, betonte die wirtschaftlichen Vorteile und wies darauf hin, dass Entwickler Inferenz mit Llama 3.1 405B zu halben Kosten im Vergleich zu Modellen wie GPT-4o durchführen können.
Zuckerberg setzte sich auch für Open-Source-KI ein und verglich sie mit der Entwicklung von Unix von proprietär zu einem fortschrittlicheren, sichereren und breiteren Ökosystem dank Open-Source-Entwicklung.
Wie jedoch Steven Vaughan-Nichols von ZDNET anmerkt, fehlen einige Details in Metas Code-Veröffentlichung auf Hugging Face, und die Codelizenz ist restriktiver als typische Open-Source-Lizenzen. Obwohl Llama 3.1 also gewissermaßen Open Source ist, ist es nicht vollständig so. Dennoch ist das hohe Maß an Details über den Trainingsprozess eine erfrischende Abwechslung, besonders wenn Riesen wie OpenAI und Google zunehmend zurückhaltend über ihre geschlossenen Modelle sind.
Verwandter Artikel
AI's Rolle im Hip Hop: Werkzeug für Innovation oder kreative Abkürzung?
Künstliche Intelligenz verändert den Alltag, und auch die Musikszene spürt diesen Wandel. Im Hip Hop zielen neue KI-Systeme darauf ab, den Aufbau von Tracks, das Schreiben von Versen und Live-Auftritt
Oracles 40-Mrd.-Nvidia-Chip-Investition stärkt Texas AI-Rechenzentrum
Oracle plant, etwa 40 Milliarden Dollar in Nvidia-Chips zu investieren, um ein großes neues Rechenzentrum in Texas zu betreiben, das von OpenAI entwickelt wird, wie die Financial Times berichtet. Dies
SoftBank erwirbt Sharp-Fabrik für 676 Mio. USD für KI-Datenzentrum in Japan
SoftBank verfolgt sein Ziel, ein großes KI-Zentrum in Japan zu etablieren, sowohl eigenständig als auch durch Partnerschaften wie mit OpenAI. Der Technologieriese bestätigte am Freitag, dass er 676 Mi
Kommentare (26)
0/200
ThomasBaker
31. Juli 2025 03:41:20 MESZ
Wow, Llama 3.1 sounds like a game-changer! Open-source and frontier-level? That’s huge for AI devs. Curious how it stacks up against closed models like GPT-4. 😎
0
AlbertThomas
22. April 2025 17:18:49 MESZ
O Llama 3.1 é incrível! Adoro que seja de código aberto, é como ter um superpoder no meu arsenal de programação. No começo pode ser um pouco confuso, mas vale a pena experimentar se você gosta de IA! 🚀
0
GaryGonzalez
22. April 2025 10:13:48 MESZ
ラマ3.1は本当にすごい!オープンソースで使えるのが最高です。最初は少し圧倒されましたが、慣れると便利です。AIに興味があるなら、ぜひ試してみてください!🚀
0
AnthonyPerez
22. April 2025 09:26:53 MESZ
¡Llama 3.1 es una bestia! Me encanta que sea de código abierto, es como tener un superpoder en mi arsenal de programación. Al principio puede ser un poco abrumador, pero definitivamente vale la pena probarlo si te interesa la IA! 🚀
0
JustinAnderson
20. April 2025 23:42:32 MESZ
¡Llama 3.1 de Meta es una maravilla! Me sorprende cómo están empujando los límites con la IA de código abierto. El rendimiento es genial, pero desearía que hubiera más documentación para principiantes. De todas formas, ¡es una herramienta que hay que probar! 💪
0
WilliamAllen
20. April 2025 03:52:01 MESZ
Llama 3.1 is a beast! I've been playing around with it and the open-source aspect is just awesome. It's like having a superpower in my coding arsenal. But, it can be a bit overwhelming at first. Definitely worth checking out if you're into AI! 🚀
0
Am Dienstag stellte Meta die neueste Ergänzung zur Llama-Familie großer Sprachmodelle (LLMs) vor: Llama 3.1. Das Unternehmen bezeichnet Llama 3.1 stolz als das erste Open-Source-"Frontiermodell", ein Begriff, der üblicherweise für die fortschrittlichsten KI-Modelle verwendet wird.
Llama 3.1 gibt es in verschiedenen Größen, aber das riesige "405B" sticht besonders hervor. Mit beeindruckenden 405 Milliarden neuronalen "Gewichten" oder Parametern übertrifft es andere bekannte Open-Source-Modelle wie Nvidias Nemotron 4, Googles Gemma 2 und Mixtral. Besonders faszinierend sind die drei zentralen Entscheidungen des Meta-Teams bei der Entwicklung dieses Giganten.
Diese Entscheidungen sind ein Meisterwerk der neuronalen Netzwerktechnik und bilden das Rückgrat für den Aufbau und das Training von Llama 3.1 405B. Sie bauen auf den Effizienzgewinnen auf, die Meta mit Llama 2 demonstriert hat, das vielversprechende Wege zeigte, um das gesamte Rechenbudget für Deep Learning zu reduzieren.
Erstens verzichtet Llama 3.1 405B auf den "Mixture of Experts"-Ansatz, den Google für sein geschlossenes Gemini 1.5 und Mistral für Mixtral verwendet. Diese Methode umfasst das Erstellen verschiedener Kombinationen neuronaler Gewichte, von denen einige deaktiviert werden können, um Vorhersagen zu optimieren. Stattdessen hielten die Meta-Forscher an der bewährten "Decoder-only-Transformer-Modellarchitektur" fest, die seit ihrer Einführung durch Google im Jahr 2017 ein Standard ist. Sie behaupten, dass diese Wahl zu einem stabileren Trainingsprozess führt.
Zweitens entwickelte das Meta-Team einen cleveren mehrstufigen Trainingsansatz, um die Leistung dieses einfachen Transformer-basierten Modells zu steigern. Es ist bekannt, dass die Balance zwischen Trainingsdatenmenge und Rechenleistung die Vorhersagequalität erheblich beeinflusst. Aber traditionelle "Skalierungsgesetze", die die Modellleistung basierend auf Größe und Daten vorhersagen, spiegeln nicht unbedingt wider, wie gut ein Modell bei "nachgelagerten" Aufgaben wie logischen Tests abschneidet.
Daher entwickelte Meta ein eigenes Skalierungsgesetz. Sie steigerten sowohl die Trainingsdaten als auch die Rechenleistung und testeten verschiedene Kombinationen über mehrere Iterationen hinweg, um zu sehen, wie gut das resultierende Modell bei diesen entscheidenden nachgelagerten Aufgaben abschnitt. Dieser sorgfältige Prozess half ihnen, den optimalen Punkt zu finden, was zur Wahl von 405 Milliarden Parametern für ihr Flaggschiffmodell führte. Das endgültige Training wurde von 16.000 Nvidia H100 GPU-Chips auf Metas Grand Teton AI-Server angetrieben, mit einem komplexen System zur parallelen Verarbeitung von Daten und Gewichten.
Die dritte Innovation liegt in der Nach-Trainings-Phase. Nach jeder Trainingsrunde durchläuft Llama 3.1 einen strengen Prozess, der von menschlichem Feedback geleitet wird, ähnlich wie es OpenAI und andere tun, um die Ausgaben ihrer Modelle zu verfeinern. Dies umfasst "überwachtes Feintuning", bei dem das Modell lernt, zwischen erwünschten und unerwünschten Ausgaben basierend auf menschlichen Präferenzen zu unterscheiden.
Meta fügt dann eine Besonderheit hinzu mit "direkter Präferenzoptimierung" (DPO), einer effizienteren Version des verstärkenden Lernens durch menschliches Feedback, die dieses Jahr von KI-Wissenschaftlern der Stanford University entwickelt wurde. Sie trainieren Llama 3.1 auch, "Werkzeuge" wie externe Suchmaschinen zu nutzen, indem sie Beispiele für Aufforderungen zeigen, die mit API-Aufrufen gelöst wurden, was seine "Zero-Shot"-Werkzeugnutzungsfähigkeiten verbessert.
Um "Halluzinationen" zu bekämpfen, kuratiert das Team spezifische Trainingsdaten und erstellt originale Frage-Antwort-Paare, um das Modell so zu optimieren, dass es nur das beantwortet, was es weiß, und ablehnt, was es nicht sicher weiß.
Während der Entwicklung betonten die Meta-Forscher Einfachheit und stellten fest, dass hochwertige Daten, Skalierung und unkomplizierte Ansätze durchweg die besten Ergebnisse lieferten. Trotz der Erkundung komplexerer Architekturen und Trainingsmethoden stellten sie fest, dass die zusätzliche Komplexität die Vorteile nicht rechtfertigte.
Die Größe von Llama 3.1 405B ist ein Meilenstein für Open-Source-Modelle, die normalerweise von ihren kommerziellen, geschlossenen Pendants übertrumpft werden. Metas CEO, Mark Zuckerberg, betonte die wirtschaftlichen Vorteile und wies darauf hin, dass Entwickler Inferenz mit Llama 3.1 405B zu halben Kosten im Vergleich zu Modellen wie GPT-4o durchführen können.
Zuckerberg setzte sich auch für Open-Source-KI ein und verglich sie mit der Entwicklung von Unix von proprietär zu einem fortschrittlicheren, sichereren und breiteren Ökosystem dank Open-Source-Entwicklung.
Wie jedoch Steven Vaughan-Nichols von ZDNET anmerkt, fehlen einige Details in Metas Code-Veröffentlichung auf Hugging Face, und die Codelizenz ist restriktiver als typische Open-Source-Lizenzen. Obwohl Llama 3.1 also gewissermaßen Open Source ist, ist es nicht vollständig so. Dennoch ist das hohe Maß an Details über den Trainingsprozess eine erfrischende Abwechslung, besonders wenn Riesen wie OpenAI und Google zunehmend zurückhaltend über ihre geschlossenen Modelle sind.


Wow, Llama 3.1 sounds like a game-changer! Open-source and frontier-level? That’s huge for AI devs. Curious how it stacks up against closed models like GPT-4. 😎




O Llama 3.1 é incrível! Adoro que seja de código aberto, é como ter um superpoder no meu arsenal de programação. No começo pode ser um pouco confuso, mas vale a pena experimentar se você gosta de IA! 🚀




ラマ3.1は本当にすごい!オープンソースで使えるのが最高です。最初は少し圧倒されましたが、慣れると便利です。AIに興味があるなら、ぜひ試してみてください!🚀




¡Llama 3.1 es una bestia! Me encanta que sea de código abierto, es como tener un superpoder en mi arsenal de programación. Al principio puede ser un poco abrumador, pero definitivamente vale la pena probarlo si te interesa la IA! 🚀




¡Llama 3.1 de Meta es una maravilla! Me sorprende cómo están empujando los límites con la IA de código abierto. El rendimiento es genial, pero desearía que hubiera más documentación para principiantes. De todas formas, ¡es una herramienta que hay que probar! 💪




Llama 3.1 is a beast! I've been playing around with it and the open-source aspect is just awesome. It's like having a superpower in my coding arsenal. But, it can be a bit overwhelming at first. Definitely worth checking out if you're into AI! 🚀












