Meta揭开了长篇小说侦察兵和特立独行的模型,2T参数庞然大物即将推出!
2025年04月16日
HenryWalker
59
早在2025年1月,当一个相对不知名的中国人工智能创业公司DeepSeek以开创性的开源语言推理模型DeepSeek R1抛弃了Gauntlet,AI世界就震撼了。该模型不仅表现出色,而且以成本的一小部分进行了元模型,而且只能达到几百万美元。这就是一种预算元可能只花在几个AI团队领导者身上!这一消息使梅塔(Meta)陷入了狂热,尤其是自从他们最新的Llama模型3.3版本即将在一个月发布的情况下看起来有些过时。
快进到今天,梅塔(Meta)的创始人兼首席执行官马克·扎克伯格(Mark Zuckerberg)已访问Instagram,宣布了新Llama 4系列的发布。该系列包括400亿参数Llama 4 Maverick和10090亿参数Llama 4 Scout,均可在Llama.com上立即下载并开始进行修补,并在Llama.com上进行修补。还有一个巨大的2-万亿参数模型,即仍在训练中,没有释放日期的巨大参数模型。
多模式和长篇文化功能
这些新模型的杰出特征之一是它们的多模式性质。他们不仅仅是文字;他们也可以处理视频和图像。他们配备了令人难以置信的漫长上下文窗口 - 小牛的100万个令牌,侦察员的侦察兵高达1000万。从角度来看,这就像一口气最多处理1,500页和15,000页的文字!想象一下,您需要处理并产生大量信息的医学,科学或文献等领域的可能性。
Experts架构的混合物
所有三种Llama 4车型都采用“ Experts(MOE)”建筑,这是一种浪潮,由Openai和Mistral等公司推广。这种方法将多个较小的专业模型结合到一个较大,更高效的模型中。每个Llama 4模型都是128个不同专家的组合,这意味着每个代币的必要专家和一个共享的手柄,使模型更具成本效益,更快地运行。 Meta夸大了Llama 4 Maverick可以在单个NVIDIA H100 DGX主机上运行,这使部署变得轻而易举。
具有成本效益且易于使用的
Meta就是要使这些模型可访问。侦察兵和小牛都可以进行自我托管,他们甚至分享了一些诱人的成本估算。例如,Llama 4 Maverick的推论成本在每百万个代币0.19美元至0.49美元之间,与GPT-4O(例如GPT-4O)相比,这是一个抢断。而且,如果您有兴趣通过云提供商使用这些模型,那么Groq已经提高了竞争性定价。
增强的推理和代码
这些模型是为了牢记推理,编码和解决问题的构建。 Meta在训练过程中使用了一些巧妙的技术来提高这些功能,例如删除轻松的提示并使用越来越困难的提示使用持续的加固学习。他们还引入了Metap,这是一种新技术,允许在一种型号上设置超参数并将其应用于其他模型,从而节省了时间和金钱。这是一个改变游戏规则的人,尤其是用于诸如Beamemoth之类的训练怪物,该怪物使用32K GPU和30万亿代币的流程。
性能和比较
那么,这些模型如何堆叠?扎克伯格(Zuckerberg)清楚地知道他对开源AI的愿景领导了这一指控,而Llama 4是朝这个方向迈出的重要一步。尽管他们可能不会全面设置新的绩效记录,但它们肯定会靠近班级的顶部。例如,Llama 4 Beymoth在某些基准测试中的表现优于一些重型击球手,尽管它仍然在其他基准和Openai的O1系列中追赶。
骆驼4庞然大物
- 在Math-500(95.0),GPQA Diamond(73.7)和MMLU Pro(82.2)上,胜过GPT-4.5,Gemini 2.0 Pro和Claude Sonnet 3.7(95.0),GPQA Diamond(73.7)

美洲驼4小牛
- 在大多数多模式推理基准上击败GPT-4O和Gemini 2.0闪光灯,例如ChartQA,DOCVQA,Mathvista和MMMU
- 使用DeepSeek v3.1竞争,而使用少于活动参数的一半
- 基准分数:ChartQA(90.0),DOCVQA(94.4),MMLU PRO(80.5)

美洲驼4侦察员
- 匹配或胜过Mistral 3.1,Gemini 2.0 Flash-lite和docvqa(94.4),MMLU Pro(74.3)和Mathvista(70.7)等匹配或胜过模型(70.7)
- 无与伦比的10m令牌上下文长度 - 长文档和代码库的理想

与DeepSeek R1进行比较
当涉及大联盟时,Llama 4 Behemoth拥有自己的,但并没有完全剥夺Dethrone DeepSeek R1或Openai的O1系列。它在Math-500和MMLU上略有落后,但在GPQA钻石上领先。尽管如此,很明显,美洲驼4是推理领域的强大竞争者。
基准 骆驼4庞然大物 DeepSeek R1 Openai O1-1217 Math-500 95.0 97.3 96.4 GPQA钻石 73.7 71.5 75.7 mmlu 82.2 90.8 91.8
安全和政治中立
梅塔也没有忘记安全。他们介绍了诸如Llama Guard,Prick Guard和Cyberseceval之类的工具,以使事情保持在进行中。他们指出要减少政治偏见,旨在采取更加平衡的方法,尤其是在扎克伯格(Zuckerberg)著名的2024年大选后对共和党政治的支持之后。
与骆驼4的未来4
使用Llama 4,Meta在AI中推动了效率,开放性和性能的界限。无论您是想建立企业级的AI助手还是深入研究AI研究,Llama 4都提供了优先推理的强大,灵活的选择。很明显,梅塔致力于使AI对每个人更容易访问和影响。
相关文章
Former DeepSeeker and collaborators release new method for training reliable AI agents: RAGEN
The Year of AI Agents: A Closer Look at 2025's Expectations and Realities2025 was heralded by many experts as the year when AI agents—specialized AI systems powered by advanced large language and multimodal models from companies like OpenAI, Anthropic, Google, and DeepSeek—would finally take center
GAIA Introduces New Benchmark in Quest for True Intelligence Beyond ARC-AGI
Intelligence is everywhere, yet gauging it accurately feels like trying to catch a cloud with your bare hands. We use tests and benchmarks, like college entrance exams, to get a rough idea. Each year, students cram for these tests, sometimes even scoring a perfect 100%. But does that perfect score m
How we’re using AI to help cities tackle extreme heat
It's looking like 2024 might just break the record for the hottest year yet, surpassing 2023. This trend is particularly tough on folks living in urban heat islands—those spots in cities where concrete and asphalt soak up the sun's rays and then radiate the heat right back out. These areas can warm
评论 (20)
0/200
TimothyEvans
2025年04月19日 04:25:17
Just heard about Meta's Llama 4 and it sounds insane! 2T parameters? That's a monster! Can't wait to see how it performs compared to DeepSeek R1. Hope it's not just hype, but if it lives up to the buzz, it's gonna be 🔥! Anyone tried it yet?
0
EricJohnson
2025年04月17日 12:34:32
メタのラマ4、2Tパラメータって聞いてびっくり!ディープシークR1と比べてどんな感じなのか楽しみ。期待が大きいだけに、実際に使ってみないとわからないけど、期待してるよ!誰かもう試した?😊
0
JohnGarcia
2025年04月22日 03:11:00
Acabo de enterarme de Llama 4 de Meta y ¡es una locura! ¡2T parámetros! Espero que no sea solo hype, pero si cumple con las expectativas, va a ser increíble. ¿Alguien ya lo ha probado? ¡Quiero saber más! 😎
0
NicholasLewis
2025年04月21日 13:31:17
Acabei de ouvir sobre o Llama 4 da Meta e parece insano! 2T parâmetros? Isso é um monstro! Mal posso esperar para ver como se compara ao DeepSeek R1. Espero que não seja só hype, mas se corresponder ao burburinho, vai ser 🔥! Alguém já testou?
0
PaulGonzalez
2025年04月21日 10:16:18
Gerade von Meta's Llama 4 gehört und es klingt verrückt! 2T Parameter? Das ist ein Riese! Kann es kaum erwarten zu sehen, wie es sich im Vergleich zu DeepSeek R1 schlägt. Hoffentlich ist es nicht nur Hype, aber wenn es dem Rummel gerecht wird, wird es 🔥! Jemand schon ausprobiert?
0
IsabellaDavis
2025年04月18日 12:35:20
Meta's Llama 4 is a beast! The long context scout feature is a game-changer for my research. The Maverick models are cool too, but I'm really waiting for that 2T parameter model. Can't wait to see what it can do! 🤓🚀
0






早在2025年1月,当一个相对不知名的中国人工智能创业公司DeepSeek以开创性的开源语言推理模型DeepSeek R1抛弃了Gauntlet,AI世界就震撼了。该模型不仅表现出色,而且以成本的一小部分进行了元模型,而且只能达到几百万美元。这就是一种预算元可能只花在几个AI团队领导者身上!这一消息使梅塔(Meta)陷入了狂热,尤其是自从他们最新的Llama模型3.3版本即将在一个月发布的情况下看起来有些过时。
快进到今天,梅塔(Meta)的创始人兼首席执行官马克·扎克伯格(Mark Zuckerberg)已访问Instagram,宣布了新Llama 4系列的发布。该系列包括400亿参数Llama 4 Maverick和10090亿参数Llama 4 Scout,均可在Llama.com上立即下载并开始进行修补,并在Llama.com上进行修补。还有一个巨大的2-万亿参数模型,即仍在训练中,没有释放日期的巨大参数模型。
多模式和长篇文化功能
这些新模型的杰出特征之一是它们的多模式性质。他们不仅仅是文字;他们也可以处理视频和图像。他们配备了令人难以置信的漫长上下文窗口 - 小牛的100万个令牌,侦察员的侦察兵高达1000万。从角度来看,这就像一口气最多处理1,500页和15,000页的文字!想象一下,您需要处理并产生大量信息的医学,科学或文献等领域的可能性。
Experts架构的混合物
所有三种Llama 4车型都采用“ Experts(MOE)”建筑,这是一种浪潮,由Openai和Mistral等公司推广。这种方法将多个较小的专业模型结合到一个较大,更高效的模型中。每个Llama 4模型都是128个不同专家的组合,这意味着每个代币的必要专家和一个共享的手柄,使模型更具成本效益,更快地运行。 Meta夸大了Llama 4 Maverick可以在单个NVIDIA H100 DGX主机上运行,这使部署变得轻而易举。
具有成本效益且易于使用的
Meta就是要使这些模型可访问。侦察兵和小牛都可以进行自我托管,他们甚至分享了一些诱人的成本估算。例如,Llama 4 Maverick的推论成本在每百万个代币0.19美元至0.49美元之间,与GPT-4O(例如GPT-4O)相比,这是一个抢断。而且,如果您有兴趣通过云提供商使用这些模型,那么Groq已经提高了竞争性定价。
增强的推理和代码
这些模型是为了牢记推理,编码和解决问题的构建。 Meta在训练过程中使用了一些巧妙的技术来提高这些功能,例如删除轻松的提示并使用越来越困难的提示使用持续的加固学习。他们还引入了Metap,这是一种新技术,允许在一种型号上设置超参数并将其应用于其他模型,从而节省了时间和金钱。这是一个改变游戏规则的人,尤其是用于诸如Beamemoth之类的训练怪物,该怪物使用32K GPU和30万亿代币的流程。
性能和比较
那么,这些模型如何堆叠?扎克伯格(Zuckerberg)清楚地知道他对开源AI的愿景领导了这一指控,而Llama 4是朝这个方向迈出的重要一步。尽管他们可能不会全面设置新的绩效记录,但它们肯定会靠近班级的顶部。例如,Llama 4 Beymoth在某些基准测试中的表现优于一些重型击球手,尽管它仍然在其他基准和Openai的O1系列中追赶。
骆驼4庞然大物
- 在Math-500(95.0),GPQA Diamond(73.7)和MMLU Pro(82.2)上,胜过GPT-4.5,Gemini 2.0 Pro和Claude Sonnet 3.7(95.0),GPQA Diamond(73.7)
美洲驼4小牛
- 在大多数多模式推理基准上击败GPT-4O和Gemini 2.0闪光灯,例如ChartQA,DOCVQA,Mathvista和MMMU
- 使用DeepSeek v3.1竞争,而使用少于活动参数的一半
- 基准分数:ChartQA(90.0),DOCVQA(94.4),MMLU PRO(80.5)
美洲驼4侦察员
- 匹配或胜过Mistral 3.1,Gemini 2.0 Flash-lite和docvqa(94.4),MMLU Pro(74.3)和Mathvista(70.7)等匹配或胜过模型(70.7)
- 无与伦比的10m令牌上下文长度 - 长文档和代码库的理想
与DeepSeek R1进行比较
当涉及大联盟时,Llama 4 Behemoth拥有自己的,但并没有完全剥夺Dethrone DeepSeek R1或Openai的O1系列。它在Math-500和MMLU上略有落后,但在GPQA钻石上领先。尽管如此,很明显,美洲驼4是推理领域的强大竞争者。
基准 | 骆驼4庞然大物 | DeepSeek R1 | Openai O1-1217 |
---|---|---|---|
Math-500 | 95.0 | 97.3 | 96.4 |
GPQA钻石 | 73.7 | 71.5 | 75.7 |
mmlu | 82.2 | 90.8 | 91.8 |
安全和政治中立
梅塔也没有忘记安全。他们介绍了诸如Llama Guard,Prick Guard和Cyberseceval之类的工具,以使事情保持在进行中。他们指出要减少政治偏见,旨在采取更加平衡的方法,尤其是在扎克伯格(Zuckerberg)著名的2024年大选后对共和党政治的支持之后。
与骆驼4的未来4
使用Llama 4,Meta在AI中推动了效率,开放性和性能的界限。无论您是想建立企业级的AI助手还是深入研究AI研究,Llama 4都提供了优先推理的强大,灵活的选择。很明显,梅塔致力于使AI对每个人更容易访问和影响。




Just heard about Meta's Llama 4 and it sounds insane! 2T parameters? That's a monster! Can't wait to see how it performs compared to DeepSeek R1. Hope it's not just hype, but if it lives up to the buzz, it's gonna be 🔥! Anyone tried it yet?




メタのラマ4、2Tパラメータって聞いてびっくり!ディープシークR1と比べてどんな感じなのか楽しみ。期待が大きいだけに、実際に使ってみないとわからないけど、期待してるよ!誰かもう試した?😊




Acabo de enterarme de Llama 4 de Meta y ¡es una locura! ¡2T parámetros! Espero que no sea solo hype, pero si cumple con las expectativas, va a ser increíble. ¿Alguien ya lo ha probado? ¡Quiero saber más! 😎




Acabei de ouvir sobre o Llama 4 da Meta e parece insano! 2T parâmetros? Isso é um monstro! Mal posso esperar para ver como se compara ao DeepSeek R1. Espero que não seja só hype, mas se corresponder ao burburinho, vai ser 🔥! Alguém já testou?




Gerade von Meta's Llama 4 gehört und es klingt verrückt! 2T Parameter? Das ist ein Riese! Kann es kaum erwarten zu sehen, wie es sich im Vergleich zu DeepSeek R1 schlägt. Hoffentlich ist es nicht nur Hype, aber wenn es dem Rummel gerecht wird, wird es 🔥! Jemand schon ausprobiert?




Meta's Llama 4 is a beast! The long context scout feature is a game-changer for my research. The Maverick models are cool too, but I'm really waiting for that 2T parameter model. Can't wait to see what it can do! 🤓🚀












