

Meta enthüllt llama 4 mit langen Kontext -Scout- und Maverick -Modellen, 2T -Parameter -Giganten in Kürze!
16. April 2025
HenryWalker
59
Bereits im Januar 2025 wurde die KI-Welt erschüttert, als ein relativ unbekanntes chinesisches KI-Startup, Deepseek, mit ihrem bahnbrechenden Open-Source-Sprach-Argumentationsmodell Deepseek R1 den Handschuh niederlegte. Dieses Modell übertraf nicht nur Meta wie Meta, sondern tat dies auch zu einem Bruchteil der Kosten - - als nur wenige Millionen Dollar. Das ist die Art von Budget -Meta könnte nur für ein paar seiner KI -Teamleiter ausgeben! Diese Nachricht hat Meta in ein bisschen rassig geschickt, zumal ihr neuestes Lama -Modell, Version 3.3, das erst im Monat zuvor veröffentlicht wurde, bereits ein bisschen veraltet aussah.
Der schnelle Stürmer bis heute, und Mark Zuckerberg, Gründer und CEO von Meta, hat sich auf Instagram gebracht, um die Einführung der neuen Lama 4 -Serie bekannt zu geben. Diese Serie umfasst den 400-Milliarden Parameter LLAMA 4 Maverick und den 109-Milliarden Parameter LLAMA 4 Scout, beide für Entwickler zum Herunterladen und Basteln von LLAMA.com und dem Umarmungsgesicht zur Verfügung. Es gibt auch einen kleinen Einblick in ein kolossales 2-Billion-Parametermodell, Lama 4-Gigant, das noch im Training ist, ohne Veröffentlichungsdatum in Sicht.
Multimodale und langkontextbezogene Funktionen
Eines der herausragenden Merkmale dieser neuen Modelle ist ihre multimodale Natur. Es geht nicht nur um Text; Sie können auch mit Video und Bildern umgehen. Und sie haben unglaublich lange Kontextfenster - 1 Millionen Token für Maverick und satte 10 Millionen für Scout. Um das ins rechte Licht zu rücken, ist das wie bis zu 1.500 und 15.000 Seiten Text auf einmal zu handhaben! Stellen Sie sich die Möglichkeiten für Felder wie Medizin, Wissenschaft oder Literatur vor, in denen Sie große Mengen an Informationen verarbeiten und generieren müssen.
Expertenmischung Architektur
Alle drei Lama 4-Modelle verwenden die Architektur "Expertenmischung (MOE)), eine Technik, die Wellen schlägt, die von Unternehmen wie OpenAI und Mistral populär gemacht wurde. Dieser Ansatz kombiniert mehrere kleinere, spezialisierte Modelle zu einem größeren, effizienteren Modell. Jedes Lama 4-Modell ist eine Mischung aus 128 verschiedenen Experten, was bedeutet, dass nur der notwendige Experte und ein gemeinsamer Handel mit jedem Token umgehen, was die Modelle kostengünstiger und schneller zu betreiben. Meta verfügt über, dass Lama 4 -Maverick auf einem einzelnen NVIDIA H100 DGX -Host ausgeführt werden kann, was die Bereitstellung zum Kinderspiel macht.
Kostengünstig und zugänglich
Bei Meta geht es darum, diese Modelle zugänglich zu machen. Sowohl Scout als auch Maverick sind zum Selbstveranstalter verfügbar und haben sogar einige verlockende Kostenschätzungen geteilt. Zum Beispiel liegt die Inferenzkosten für Lama 4 Maverick zwischen 0,19 und 0,49 USD pro Million Token, was im Vergleich zu anderen proprietären Modellen wie GPT-4O ein Diebstahl ist. Und wenn Sie daran interessiert sind, diese Modelle über einen Cloud -Anbieter zu verwenden, hat sich COQ bereits mit wettbewerbsfähigen Preisgestaltung verschärft.
Verbessertes Denken und Metap
Diese Modelle werden mit Bedenken von Argumentation, Codierung und Problemlösung erstellt. Metas verwendete einige clevere Techniken während des Trainings, um diese Funktionen zu steigern, z. B. das Entfernen einfacher Eingaben und die Verwendung kontinuierlicher Verstärkungslernen mit immer schwierigeren Aufforderungen. Sie haben auch Metap eingeführt, eine neue Technik, mit der Hyperparameter auf einem Modell festgelegt und auf andere angewendet werden können, um Zeit und Geld zu sparen. Es ist ein Game-Changer, insbesondere für Trainingsmonster wie Behemoth, das 32-km-GPUs verwendet und über 30 Billionen Token verarbeitet.
Leistung und Vergleiche
Wie stapeln sich diese Modelle? Zuckerberg war sich über seine Vision für Open-Source-KI, die die Anklage anführt, klar, und Lama 4 ist ein großer Schritt in diese Richtung. Während sie möglicherweise keine neuen Leistungsrekorde auf der ganzen Linie aufstellen, sind sie sicherlich ganz oben auf ihrer Klasse. Zum Beispiel übertrifft das Lama 4-Gigant einige schwere Schläger bei bestimmten Benchmarks, obwohl es in anderen immer noch mit Deepseek R1 und Openais O1-Serie aufholt.
LAMA 4 GERICHTH
- Übertrifft GPT-4,5, Gemini 2.0 Pro und Claude Sonnet 3.7 auf Math-500 (95,0), GPQA Diamond (73,7) und MMLU Pro (82,2)

Lama 4 Maverick
- Beats GPT-4O und Gemini 2.0 Flash auf den meisten multimodalen Argumentationsbenchmarks wie Chartqa, Docvqa, Mathvista und MMMU
- Wettbewerbsfähig mit Deepseek v3.1, während sie weniger als die Hälfte der aktiven Parameter verwenden
- Benchmark -Bewertungen: Chartqa (90,0), docvqa (94,4), MMLU Pro (80,5)

Lama 4 Scout
- Übereinstimmung oder übertrifft Modelle wie Mistral 3.1, Gemini 2.0 Flash-Lite und Gemma 3 auf DOCVQA (94,4), MMLU Pro (74,3) und Mathvista (70,7)
- Unübertroffen 10 m Token -Kontextlänge - ideal für lange Dokumente und Codebasen

Vergleich mit Deepseek R1
Wenn es um die Big Leagues geht, hält Llama 4 Gigantoth seine eigene, entthron Deepseek R1 oder Openais O1 -Serie nicht ganz. Es ist etwas hinter Math-500 und MMLU zurück, aber mit GPQA Diamond voraus. Trotzdem ist klar, dass Lama 4 ein starker Anwärter im Argumentationsraum ist.
Benchmark LAMA 4 GERICHTH Deepseek R1 OpenAI O1-1217 Math-500 95.0 97.3 96,4 GPQA Diamond 73.7 71,5 75.7 MMLU 82.2 90,8 91.8
Sicherheit und politische Neutralität
Meta hat auch die Sicherheit nicht vergessen. Sie haben Tools wie Lama Guard, prompt Guard und Cyberseceval eingeführt, um die Dinge auf dem Laufenden zu halten. Und sie setzen sich auf die Reduzierung der politischen Vorurteile aus und zielen auf einen ausgewogeneren Ansatz ab, insbesondere nachdem Zuckerbergs bemerkenswerte Unterstützung für die Wahl der republikanischen Politik nach 2024 Wahlen festgestellt wurde.
Die Zukunft mit Lama 4
Mit Lama 4 überschreitet Meta die Grenzen von Effizienz, Offenheit und Leistung in AI. Egal, ob Sie AI-Assistenten auf Unternehmensebene aufbauen oder tief in AI Research eintauchen, Lama 4 bietet leistungsstarke, flexible Optionen, die Argumentation priorisieren. Es ist klar, dass Meta sich dafür einsetzt, KI für alle zugänglicher und wirkungsvoller zu machen.
Verwandter Artikel
前Deepseeker和合作者發布了新的培訓可靠AI代理的方法:Ragen
人工智能代理年度:仔細研究2025年的期望和現實2025年被許多專家預示為當年的AI代理商(由高級大型語言和多式聯運公司提供支持的AI代理商),來自OpenAI,Anthropic,Google和Google和Deepseek等公司,最終將帶上中心中心中心中心。
蓋亞(Gaia
智力無處不在,但是準確地測量它就像試圖用裸手抓住雲。我們使用考試和基準(例如大學入學考試)來獲得一個大概的想法。每年,學生都會為這些測試做好準備,有時甚至得分完美的100%。但是那是完美的分數
我們如何使用AI來幫助城市應對極端熱量
看起來2024年可能會打破迄今為止最熱的一年的記錄,超過了2023年。這種趨勢對生活在城市熱島的人們來說尤為艱難,這些景點是在混凝土和瀝青浸泡太陽射線,然後散發出熱量的城市中的那些景點。這些區域可以溫暖
Kommentare (20)
0/200
TimothyEvans
19. April 2025 04:25:17 GMT
Just heard about Meta's Llama 4 and it sounds insane! 2T parameters? That's a monster! Can't wait to see how it performs compared to DeepSeek R1. Hope it's not just hype, but if it lives up to the buzz, it's gonna be 🔥! Anyone tried it yet?
0
EricJohnson
17. April 2025 12:34:32 GMT
メタのラマ4、2Tパラメータって聞いてびっくり!ディープシークR1と比べてどんな感じなのか楽しみ。期待が大きいだけに、実際に使ってみないとわからないけど、期待してるよ!誰かもう試した?😊
0
JohnGarcia
22. April 2025 03:11:00 GMT
Acabo de enterarme de Llama 4 de Meta y ¡es una locura! ¡2T parámetros! Espero que no sea solo hype, pero si cumple con las expectativas, va a ser increíble. ¿Alguien ya lo ha probado? ¡Quiero saber más! 😎
0
NicholasLewis
21. April 2025 13:31:17 GMT
Acabei de ouvir sobre o Llama 4 da Meta e parece insano! 2T parâmetros? Isso é um monstro! Mal posso esperar para ver como se compara ao DeepSeek R1. Espero que não seja só hype, mas se corresponder ao burburinho, vai ser 🔥! Alguém já testou?
0
PaulGonzalez
21. April 2025 10:16:18 GMT
Gerade von Meta's Llama 4 gehört und es klingt verrückt! 2T Parameter? Das ist ein Riese! Kann es kaum erwarten zu sehen, wie es sich im Vergleich zu DeepSeek R1 schlägt. Hoffentlich ist es nicht nur Hype, aber wenn es dem Rummel gerecht wird, wird es 🔥! Jemand schon ausprobiert?
0
IsabellaDavis
18. April 2025 12:35:20 GMT
Meta's Llama 4 is a beast! The long context scout feature is a game-changer for my research. The Maverick models are cool too, but I'm really waiting for that 2T parameter model. Can't wait to see what it can do! 🤓🚀
0






Bereits im Januar 2025 wurde die KI-Welt erschüttert, als ein relativ unbekanntes chinesisches KI-Startup, Deepseek, mit ihrem bahnbrechenden Open-Source-Sprach-Argumentationsmodell Deepseek R1 den Handschuh niederlegte. Dieses Modell übertraf nicht nur Meta wie Meta, sondern tat dies auch zu einem Bruchteil der Kosten - - als nur wenige Millionen Dollar. Das ist die Art von Budget -Meta könnte nur für ein paar seiner KI -Teamleiter ausgeben! Diese Nachricht hat Meta in ein bisschen rassig geschickt, zumal ihr neuestes Lama -Modell, Version 3.3, das erst im Monat zuvor veröffentlicht wurde, bereits ein bisschen veraltet aussah.
Der schnelle Stürmer bis heute, und Mark Zuckerberg, Gründer und CEO von Meta, hat sich auf Instagram gebracht, um die Einführung der neuen Lama 4 -Serie bekannt zu geben. Diese Serie umfasst den 400-Milliarden Parameter LLAMA 4 Maverick und den 109-Milliarden Parameter LLAMA 4 Scout, beide für Entwickler zum Herunterladen und Basteln von LLAMA.com und dem Umarmungsgesicht zur Verfügung. Es gibt auch einen kleinen Einblick in ein kolossales 2-Billion-Parametermodell, Lama 4-Gigant, das noch im Training ist, ohne Veröffentlichungsdatum in Sicht.
Multimodale und langkontextbezogene Funktionen
Eines der herausragenden Merkmale dieser neuen Modelle ist ihre multimodale Natur. Es geht nicht nur um Text; Sie können auch mit Video und Bildern umgehen. Und sie haben unglaublich lange Kontextfenster - 1 Millionen Token für Maverick und satte 10 Millionen für Scout. Um das ins rechte Licht zu rücken, ist das wie bis zu 1.500 und 15.000 Seiten Text auf einmal zu handhaben! Stellen Sie sich die Möglichkeiten für Felder wie Medizin, Wissenschaft oder Literatur vor, in denen Sie große Mengen an Informationen verarbeiten und generieren müssen.
Expertenmischung Architektur
Alle drei Lama 4-Modelle verwenden die Architektur "Expertenmischung (MOE)), eine Technik, die Wellen schlägt, die von Unternehmen wie OpenAI und Mistral populär gemacht wurde. Dieser Ansatz kombiniert mehrere kleinere, spezialisierte Modelle zu einem größeren, effizienteren Modell. Jedes Lama 4-Modell ist eine Mischung aus 128 verschiedenen Experten, was bedeutet, dass nur der notwendige Experte und ein gemeinsamer Handel mit jedem Token umgehen, was die Modelle kostengünstiger und schneller zu betreiben. Meta verfügt über, dass Lama 4 -Maverick auf einem einzelnen NVIDIA H100 DGX -Host ausgeführt werden kann, was die Bereitstellung zum Kinderspiel macht.
Kostengünstig und zugänglich
Bei Meta geht es darum, diese Modelle zugänglich zu machen. Sowohl Scout als auch Maverick sind zum Selbstveranstalter verfügbar und haben sogar einige verlockende Kostenschätzungen geteilt. Zum Beispiel liegt die Inferenzkosten für Lama 4 Maverick zwischen 0,19 und 0,49 USD pro Million Token, was im Vergleich zu anderen proprietären Modellen wie GPT-4O ein Diebstahl ist. Und wenn Sie daran interessiert sind, diese Modelle über einen Cloud -Anbieter zu verwenden, hat sich COQ bereits mit wettbewerbsfähigen Preisgestaltung verschärft.
Verbessertes Denken und Metap
Diese Modelle werden mit Bedenken von Argumentation, Codierung und Problemlösung erstellt. Metas verwendete einige clevere Techniken während des Trainings, um diese Funktionen zu steigern, z. B. das Entfernen einfacher Eingaben und die Verwendung kontinuierlicher Verstärkungslernen mit immer schwierigeren Aufforderungen. Sie haben auch Metap eingeführt, eine neue Technik, mit der Hyperparameter auf einem Modell festgelegt und auf andere angewendet werden können, um Zeit und Geld zu sparen. Es ist ein Game-Changer, insbesondere für Trainingsmonster wie Behemoth, das 32-km-GPUs verwendet und über 30 Billionen Token verarbeitet.
Leistung und Vergleiche
Wie stapeln sich diese Modelle? Zuckerberg war sich über seine Vision für Open-Source-KI, die die Anklage anführt, klar, und Lama 4 ist ein großer Schritt in diese Richtung. Während sie möglicherweise keine neuen Leistungsrekorde auf der ganzen Linie aufstellen, sind sie sicherlich ganz oben auf ihrer Klasse. Zum Beispiel übertrifft das Lama 4-Gigant einige schwere Schläger bei bestimmten Benchmarks, obwohl es in anderen immer noch mit Deepseek R1 und Openais O1-Serie aufholt.
LAMA 4 GERICHTH
- Übertrifft GPT-4,5, Gemini 2.0 Pro und Claude Sonnet 3.7 auf Math-500 (95,0), GPQA Diamond (73,7) und MMLU Pro (82,2)
Lama 4 Maverick
- Beats GPT-4O und Gemini 2.0 Flash auf den meisten multimodalen Argumentationsbenchmarks wie Chartqa, Docvqa, Mathvista und MMMU
- Wettbewerbsfähig mit Deepseek v3.1, während sie weniger als die Hälfte der aktiven Parameter verwenden
- Benchmark -Bewertungen: Chartqa (90,0), docvqa (94,4), MMLU Pro (80,5)
Lama 4 Scout
- Übereinstimmung oder übertrifft Modelle wie Mistral 3.1, Gemini 2.0 Flash-Lite und Gemma 3 auf DOCVQA (94,4), MMLU Pro (74,3) und Mathvista (70,7)
- Unübertroffen 10 m Token -Kontextlänge - ideal für lange Dokumente und Codebasen
Vergleich mit Deepseek R1
Wenn es um die Big Leagues geht, hält Llama 4 Gigantoth seine eigene, entthron Deepseek R1 oder Openais O1 -Serie nicht ganz. Es ist etwas hinter Math-500 und MMLU zurück, aber mit GPQA Diamond voraus. Trotzdem ist klar, dass Lama 4 ein starker Anwärter im Argumentationsraum ist.
Benchmark | LAMA 4 GERICHTH | Deepseek R1 | OpenAI O1-1217 |
---|---|---|---|
Math-500 | 95.0 | 97.3 | 96,4 |
GPQA Diamond | 73.7 | 71,5 | 75.7 |
MMLU | 82.2 | 90,8 | 91.8 |
Sicherheit und politische Neutralität
Meta hat auch die Sicherheit nicht vergessen. Sie haben Tools wie Lama Guard, prompt Guard und Cyberseceval eingeführt, um die Dinge auf dem Laufenden zu halten. Und sie setzen sich auf die Reduzierung der politischen Vorurteile aus und zielen auf einen ausgewogeneren Ansatz ab, insbesondere nachdem Zuckerbergs bemerkenswerte Unterstützung für die Wahl der republikanischen Politik nach 2024 Wahlen festgestellt wurde.
Die Zukunft mit Lama 4
Mit Lama 4 überschreitet Meta die Grenzen von Effizienz, Offenheit und Leistung in AI. Egal, ob Sie AI-Assistenten auf Unternehmensebene aufbauen oder tief in AI Research eintauchen, Lama 4 bietet leistungsstarke, flexible Optionen, die Argumentation priorisieren. Es ist klar, dass Meta sich dafür einsetzt, KI für alle zugänglicher und wirkungsvoller zu machen.




Just heard about Meta's Llama 4 and it sounds insane! 2T parameters? That's a monster! Can't wait to see how it performs compared to DeepSeek R1. Hope it's not just hype, but if it lives up to the buzz, it's gonna be 🔥! Anyone tried it yet?




メタのラマ4、2Tパラメータって聞いてびっくり!ディープシークR1と比べてどんな感じなのか楽しみ。期待が大きいだけに、実際に使ってみないとわからないけど、期待してるよ!誰かもう試した?😊




Acabo de enterarme de Llama 4 de Meta y ¡es una locura! ¡2T parámetros! Espero que no sea solo hype, pero si cumple con las expectativas, va a ser increíble. ¿Alguien ya lo ha probado? ¡Quiero saber más! 😎




Acabei de ouvir sobre o Llama 4 da Meta e parece insano! 2T parâmetros? Isso é um monstro! Mal posso esperar para ver como se compara ao DeepSeek R1. Espero que não seja só hype, mas se corresponder ao burburinho, vai ser 🔥! Alguém já testou?




Gerade von Meta's Llama 4 gehört und es klingt verrückt! 2T Parameter? Das ist ein Riese! Kann es kaum erwarten zu sehen, wie es sich im Vergleich zu DeepSeek R1 schlägt. Hoffentlich ist es nicht nur Hype, aber wenn es dem Rummel gerecht wird, wird es 🔥! Jemand schon ausprobiert?




Meta's Llama 4 is a beast! The long context scout feature is a game-changer for my research. The Maverick models are cool too, but I'm really waiting for that 2T parameter model. Can't wait to see what it can do! 🤓🚀












