Meta enthüllt llama 4 mit langen Kontext -Scout- und Maverick -Modellen, 2T -Parameter -Giganten in Kürze!

Heim

Nachricht

16. April 2025

HenryWalker

# research # openai # DeepSeek # meta # llama # science # Politics # nlp # llama-4 # trump

Im Januar 2025 wurde die Welt der KI erschüttert, als ein relativ unbekanntes chinesisches KI-Startup, DeepSeek, mit seinem bahnbrechenden Open-Source-Sprachmodell DeepSeek R1 die Herausforderung annahm. Dieses Modell übertraf nicht nur Unternehmen wie Meta, sondern tat dies zu einem Bruchteil der Kosten – Gerüchten zufolge nur wenige Millionen Dollar. Das ist der Betrag, den Meta vielleicht für nur ein paar seiner KI-Teamleiter ausgibt! Diese Nachricht versetzte Meta in einen gewissen Aufruhr, zumal ihr neuestes Llama-Modell, Version 3.3, das erst im Vormonat veröffentlicht wurde, bereits etwas veraltet wirkte.

Schnell vorwärts bis heute: Metas Gründer und CEO, Mark Zuckerberg, hat auf Instagram die Einführung der neuen Llama 4-Serie angekündigt. Diese Serie umfasst das 400-Milliarden-Parameter-Modell Llama 4 Maverick und das 109-Milliarden-Parameter-Modell Llama 4 Scout, die beide sofort für Entwickler auf llama.com und Hugging Face zum Download und Experimentieren verfügbar sind. Es gibt auch einen kleinen Ausblick auf ein kolossales 2-Billionen-Parameter-Modell, Llama 4 Behemoth, das sich noch in der Entwicklung befindet und kein Veröffentlichungsdatum in Sicht hat.

Multimodale und Langkontext-Fähigkeiten

Eine der herausragenden Eigenschaften dieser neuen Modelle ist ihre multimodale Natur. Sie beschränken sich nicht nur auf Text; sie können auch Videos und Bilder verarbeiten. Und sie verfügen über unglaublich lange Kontextfenster – 1 Million Token für Maverick und beeindruckende 10 Millionen für Scout. Um das ins Verhältnis zu setzen: Das entspricht der Verarbeitung von bis zu 1.500 bzw. 15.000 Textseiten auf einmal! Stellen Sie sich die Möglichkeiten für Bereiche wie Medizin, Wissenschaft oder Literatur vor, in denen große Mengen an Informationen verarbeitet und generiert werden müssen.

Mischung-aus-Experten-Architektur

Alle drei Llama 4-Modelle nutzen die „Mixture-of-Experts (MoE)“-Architektur, eine Technik, die Wellen schlägt und von Unternehmen wie OpenAI und Mistral populär gemacht wurde. Dieser Ansatz kombiniert mehrere kleinere, spezialisierte Modelle zu einem größeren, effizienteren Modell. Jedes Llama 4-Modell besteht aus einer Mischung von 128 verschiedenen Experten, was bedeutet, dass nur der benötigte Experte und ein gemeinsamer Experte jedes Token verarbeiten, was die Modelle kostengünstiger und schneller macht. Meta rühmt sich, dass Llama 4 Maverick auf einem einzigen Nvidia H100 DGX-Host betrieben werden kann, was die Bereitstellung erleichtert.

Kostengünstig und zugänglich

Meta legt großen Wert darauf, diese Modelle zugänglich zu machen. Sowohl Scout als auch Maverick sind für das Selbst-Hosting verfügbar, und sie haben sogar einige verlockende Kostenschätzungen geteilt. Zum Beispiel liegen die Inferenzkosten für Llama 4 Maverick zwischen 0,19 $ und 0,49 $ pro Million Token, was im Vergleich zu anderen proprietären Modellen wie GPT-4o ein Schnäppchen ist. Und wenn Sie daran interessiert sind, diese Modelle über einen Cloud-Anbieter zu nutzen, hat Groq bereits wettbewerbsfähige Preise angeboten.

Verbesserte Argumentationsfähigkeiten und MetaP

Diese Modelle sind auf Argumentation, Programmierung und Problemlösung ausgelegt. Meta hat während des Trainings einige clevere Techniken eingesetzt, um diese Fähigkeiten zu steigern, wie das Entfernen einfacher Prompts und die Verwendung von kontinuierlichem Verstärkungslernen mit zunehmend schwierigen Prompts. Sie haben auch MetaP eingeführt, eine neue Technik, die es ermöglicht, Hyperparameter für ein Modell festzulegen und sie auf andere anzuwenden, was Zeit und Geld spart. Das ist ein echter Durchbruch, insbesondere für das Training von Giganten wie Behemoth, das 32.000 GPUs verwendet und über 30 Billionen Token verarbeitet.

Leistung und Vergleiche

Wie schneiden diese Modelle also ab? Zuckerberg hat klar gemacht, dass seine Vision für Open-Source-KI führend ist, und Llama 4 ist ein großer Schritt in diese Richtung. Sie setzen vielleicht nicht überall neue Leistungsrekorde, aber sie gehören sicherlich zur Spitzenklasse. Zum Beispiel übertrifft Llama 4 Behemoth einige Schwergewichte in bestimmten Benchmarks, obwohl es in anderen noch hinter DeepSeek R1 und der o1-Serie von OpenAI zurückliegt.

Llama 4 Behemoth

Übertrifft GPT-4.5, Gemini 2.0 Pro und Claude Sonnet 3.7 bei MATH-500 (95,0), GPQA Diamond (73,7) und MMLU Pro (82,2)

Leistungsdiagramm von Llama 4 Behemoth

Llama 4 Maverick

Schlägt GPT-4o und Gemini 2.0 Flash bei den meisten multimodalen Argumentations-Benchmarks wie ChartQA, DocVQA, MathVista und MMMU
Konkurrenzfähig mit DeepSeek v3.1, während weniger als die Hälfte der aktiven Parameter verwendet werden
Benchmark-Werte: ChartQA (90,0), DocVQA (94,4), MMLU Pro (80,5)

Leistungsdiagramm von Llama 4 Maverick

Llama 4 Scout

Gleicht oder übertrifft Modelle wie Mistral 3.1, Gemini 2.0 Flash-Lite und Gemma 3 bei DocVQA (94,4), MMLU Pro (74,3) und MathVista (70,7)
Einzigartige Kontextlänge von 10 Millionen Token – ideal für lange Dokumente und Codebasen

Leistungsdiagramm von Llama 4 Scout

Vergleich mit DeepSeek R1

In der obersten Liga hält Llama 4 Behemoth stand, kann aber DeepSeek R1 oder die o1-Serie von OpenAI nicht ganz vom Thron stoßen. Es liegt bei MATH-500 und MMLU leicht zurück, ist aber bei GPQA Diamond vorn. Dennoch ist klar, dass Llama 4 ein starker Konkurrent im Bereich der Argumentation ist.

Benchmark	Llama 4 Behemoth	DeepSeek R1	OpenAI o1-1217
MATH-500	95,0	97,3	96,4
GPQA Diamond	73,7	71,5	75,7
MMLU	82,2	90,8	91,8

Sicherheit und politische Neutralität

Meta hat auch die Sicherheit nicht vergessen. Sie haben Tools wie Llama Guard, Prompt Guard und CyberSecEval eingeführt, um alles im Rahmen zu halten. Und sie legen Wert darauf, politische Voreingenommenheit zu reduzieren, mit dem Ziel eines ausgewogeneren Ansatzes, insbesondere nach Zuckerbergs bekannter Unterstützung für republikanische Politik nach der Wahl 2024.

Die Zukunft mit Llama 4

Mit Llama 4 verschiebt Meta die Grenzen von Effizienz, Offenheit und Leistung in der KI. Egal, ob Sie KI-Assistenten auf Unternehmensebene entwickeln oder tief in die KI-Forschung eintauchen möchten, Llama 4 bietet leistungsstarke, flexible Optionen, die die Argumentation in den Vordergrund stellen. Es ist klar, dass Meta entschlossen ist, KI für alle zugänglicher und wirkungsvoller zu machen.

Verwandter Artikel

Google stellt produktionsreife Gemini 2.5 KI-Modelle vor, um mit OpenAI im Unternehmensmarkt zu konkurrieren Google hat am Montag seine KI-Strategie intensiviert und seine fortschrittlichen Gemini 2.5 Modelle für den Unternehmenseinsatz gestartet sowie eine kosteneffiziente Variante eingeführt, um bei Preis

Meta bietet hohe Gehälter für KI-Talente, bestreitet 100-Millionen-Dollar-Unterschriftsboni Meta lockt KI-Forscher in sein neues Superintelligenz-Labor mit beträchtlichen Millionen-Dollar-Vergütungspaketen. Behauptungen über 100-Millionen-Dollar-"Unterschriftsboni" sind jedoch laut einem rek

Meta verbessert KI-Sicherheit mit fortschrittlichen Llama-Tools Meta hat neue Llama-Sicherheitstools veröffentlicht, um die KI-Entwicklung zu stärken und vor neuen Bedrohungen zu schützen.Diese verbesserten Llama-KI-Modell-Sicherheitstools werden mit neuen Ressour

Kommentare (25)

0/200

Einreichen

RogerSanchez

24. April 2025 21:53:44 MESZ

Llama 4 정말 대단해요! 긴 문맥 스카우트와 마버릭 모델은 놀랍네요. 2T 파라미터의 괴물이 나올 걸 기대하고 있어요. 다만, 설정하는 게 좀 복잡해요. 그래도, AI의 미래가 밝아 보이네요! 🚀

WillieHernández

24. April 2025 02:21:23 MESZ

Llama 4はすごい！長いコンテキストのスカウトやマーベリックモデルは驚異的。2Tパラメータのビーストが出るのを待ちきれない。ただ、設定が少し大変かな。でも、これでAIの未来は明るいね！🚀

GregoryWilson

22. April 2025 19:23:39 MESZ

MetaのLlama 4は最高ですね！長いコンテキストをスムーズに処理できるのが本当に便利。マーベリックモデルも面白いけど、2Tパラメータのモデルが来るのが楽しみです！🤩✨

BrianThomas

22. April 2025 08:27:50 MESZ

O Llama 4 da Meta é incrível! A função de contexto longo é uma mão na roda para minhas pesquisas. Os modelos Maverick também são legais, mas estou ansioso pelo modelo de 2T parâmetros. Mal posso esperar para ver o que ele pode fazer! 🤯🚀

JohnGarcia

22. April 2025 05:11:00 MESZ

Acabo de enterarme de Llama 4 de Meta y ¡es una locura! ¡2T parámetros! Espero que no sea solo hype, pero si cumple con las expectativas, va a ser increíble. ¿Alguien ya lo ha probado? ¡Quiero saber más! 😎

NicholasLewis

21. April 2025 15:31:17 MESZ

Acabei de ouvir sobre o Llama 4 da Meta e parece insano! 2T parâmetros? Isso é um monstro! Mal posso esperar para ver como se compara ao DeepSeek R1. Espero que não seja só hype, mas se corresponder ao burburinho, vai ser 🔥! Alguém já testou?

Top -Nachrichten

Gemini 2.5 Pro jetzt unbegrenzt und billiger als Claude, GPT-4O Top AI-Videogeneratoren 2025: Pika Labs im Vergleich zu Alternativen OpenAI verbessert den AI -Sprachassistenten für bessere Chats NotebookLM erweitert weltweit, fügt Folien und eine verbesserte Faktenprüfung hinzu Optimierungen an US -Rechenzentren könnten 76 GW neue Leistungskapazität freischalten AI-Synchronisation: Ultimativer Leitfaden zur realistischen Stimmen-Erstellung AI Computing, um die Leistung mehrerer NYCs bis 2026 zu verbrauchen, sagt Gründer Künstliche Intelligenz Sprachklonierung: Das ultimative Handbuch zur Beherrschung der Sprachkonvertierung Erleben Sie das KI-angetriebene E/A-Kreuzworträtsel: Eine moderne Wendung auf dem klassischen Wortspiel Der CEO von Nvidia verdeutlicht falsche Vorstellungen über Deepseeks Marktauswirkungen

Mehr

Vorgestellt