Meta揭开了长篇小说侦察兵和特立独行的模型,2T参数庞然大物即将推出!
2025年1月,人工智能界掀起波澜,一家鲜为人知的中国特色人工智能初创公司DeepSeek推出了其开创性的开源语言推理模型DeepSeek R1。该模型不仅性能超越了Meta等公司,而且成本仅为传闻中的几百万美元。相比之下,Meta可能仅在几位人工智能团队领导者身上就花费了这么多!这一消息让Meta有些慌乱,尤其是因为他们上个月刚发布的最新Llama模型3.3版已经显得有些过时。
快进到今天,Meta的创始人兼首席执行官马克·扎克伯格在Instagram上宣布推出新的Llama 4系列。该系列包括4000亿参数的Llama 4 Maverick和1090亿参数的Llama 4 Scout,开发者可立即在llama.com和Hugging Face上下载并开始使用。此外,还有一个正在训练中的庞大2万亿参数模型Llama 4 Behemoth的预览,尚未确定发布日期。
多模态和长上下文能力
这些新模型的突出特点是其多模态特性。它们不仅限于文本,还能处理视频和图像。它们的上下文窗口极长——Maverick为100万令牌,Scout更是高达1000万令牌。换句话说,这相当于一次性处理1500页和15000页的文本!想象一下,这对医学、科学或文学等领域处理和生成大量信息的可能性。
专家混合架构
所有三个Llama 4模型都采用了“专家混合(MoE)”架构,这种技术由OpenAI和Mistral等公司推广,备受关注。该方法将多个较小的专业模型组合成一个更大、更高效的模型。每个Llama 4模型由128个不同的专家组成,这意味着每个令牌仅由必要的专家和一个共享专家处理,使模型更具成本效益且运行更快。Meta宣称Llama 4 Maverick可在单个Nvidia H100 DGX主机上运行,部署非常简便。
成本效益和可访问性
Meta致力于让这些模型易于获取。Scout和Maverick均可用于自托管,他们甚至分享了一些诱人的成本估算。例如,Llama 4 Maverick的推理成本在每百万令牌0.19美元至0.49美元之间,相比其他专有模型如GPT-4o,这非常划算。如果您有兴趣通过云提供商使用这些模型,Groq已经提供了具有竞争力的定价。
增强推理和MetaP
这些模型专为推理、编码和问题解决而设计。Meta在训练中采用了一些巧妙技术来提升这些能力,例如移除简单提示并使用持续强化学习,逐步增加提示难度。他们还引入了MetaP,一种新技术,允许在一个模型上设置超参数并将其应用于其他模型,从而节省时间和成本。这对训练像Behemoth这样使用32K GPU并处理超过30万亿令牌的巨型模型尤为重要。
性能与比较
那么,这些模型表现如何?扎克伯格明确表示,他希望开源人工智能引领潮流,Llama 4是朝着这个方向迈出的一大步。虽然它们可能不会在所有方面都创下新的性能记录,但无疑名列前茅。例如,Llama 4 Behemoth在某些基准测试中超越了一些重量级选手,尽管在其他方面仍需追赶DeepSeek R1和OpenAI的o1系列。
Llama 4 Behemoth
- 在MATH-500(95.0)、GPQA Diamond(73.7)和MMLU Pro(82.2)上超越GPT-4.5、Gemini 2.0 Pro和Claude Sonnet 3.7

Llama 4 Maverick
- 在ChartQA、DocVQA、MathVista和MMMU等大多数多模态推理基准测试中击败GPT-4o和Gemini 2.0 Flash
- 与DeepSeek v3.1竞争,同时使用的活跃参数不到其一半
- 基准测试得分:ChartQA(90.0)、DocVQA(94.4)、MMLU Pro(80.5)

Llama 4 Scout
- 在DocVQA(94.4)、MMLU Pro(74.3)和MathVista(70.7)上匹配或超越Mistral 3.1、Gemini 2.0 Flash-Lite和Gemma 3等模型
- 无与伦比的1000万令牌上下文长度——非常适合长文档和代码库

与DeepSeek R1的比较
在顶级竞争中,Llama 4 Behemoth表现出色,但尚未完全超越DeepSeek R1或OpenAI的o1系列。它在MATH-500和MMLU上略逊一筹,但在GPQA Diamond上领先。即便如此,Llama 4显然是推理领域的强劲竞争者。
基准测试 Llama 4 Behemoth DeepSeek R1 OpenAI o1-1217 MATH-500 95.0 97.3 96.4 GPQA Diamond 73.7 71.5 75.7 MMLU 82.2 90.8 91.8
安全性和政治中立性
Meta也没有忽视安全性。他们推出了Llama Guard、Prompt Guard和CyberSecEval等工具以确保安全。他们还强调减少政治偏见,致力于更平衡的方法,特别是在扎克伯格在2024年选举后表示支持共和党政治之后。
Llama 4的未来
通过Llama 4,Meta正在推动人工智能的效率、开放性和性能的边界。无论您是想构建企业级人工智能助手还是深入研究人工智能,Llama 4都提供了强大而灵活的选择,优先考虑推理能力。显然,Meta致力于让人工智能对每个人更易获取且更具影响力。
相关文章
萨提亚·纳德拉准备利用与OpenAI的新合作关系
周三,一位华尔街分析师直接询问了微软首席执行官萨蒂亚·纳德拉,修订后的OpenAI合作关系将如何影响公司的财务状况。 纳德拉将这一新协议描述为对各方都有利的结果。“我们对与OpenAI的合作感到满意。我始终非常重视任何合作关系,并确保它能够实现双赢。只有这样,双方才能保持良好的合作伙伴关系。” 他强调,微软仍然可以使用OpenAI的知识产权,包括其模型和智能体产品,但不再需要为此向OpenAI支付费用。 谈到在2032年之前可以免费使用OpenAI最先进的人工智能技术,纳德拉表示:“
Meta AI 现已在 Facebook Marketplace 上回复买家消息
Facebook周四宣布,Facebook Marketplace推出了新的Meta AI功能,包括对买家咨询的自动回复。该平台还利用AI加速商品上架、总结卖家资料,并允许卖家在商品列表中提供配送服务。鉴于卖家通常会收到大量买家咨询,Facebook正通过由Meta AI驱动的自动回复功能简化这一流程。当买家询问商品库存情况时,卖家可利用Meta AI根据商品详情(如描述、库存、自提地点和价格)自
OpenAI勾勒出以公共财富基金、机器人税和每周四天工作制为核心的人工智能经济蓝图
正当各国政府竭力应对超级智能机器带来的经济影响之际,OpenAI发布了一套政策建议,概述了在“智能时代”财富与工作将如何重塑。这些构想将传统左倾机制——例如公共财富基金和扩大的社会安全网——与根本上属于资本主义、由市场驱动的经济框架相结合。OpenAI的提案本质上是一份愿望清单,这份公开声明旨在帮助民选官员、投资者和公众理解这家市值8520亿美元的公司如何看待人工智能在重塑劳动力和经济过程中带来的
相关专题推荐
评论 (30)
0/500
A 2 trillion parameter model? The environmental footprint of training these behemoths is starting to overshadow the hype for me. Meta's scale race is impressive, but I hope the next headline is about efficiency breakthroughs, not just size. 🌍💔
Honnêtement, l'IA est en train de devenir une course aux armements écologique... Meta sort un modèle de 2T paramètres, mais on ne parle jamais de l'énergie nécessaire pour l'entraîner. DeepSeek R1 montre qu'on peut être efficace sans monstre énergivore. Un peu de sobriété, peut-être ? 🌱
Ладно, Meta выпускает Llama 4 с 2 триллионами параметров... Но я до сих пор не могу заставить свою предыдущую модель правильно переводить рецепт борща! 😅 Интересно, эти «революционные» модели когда-нибудь действительно поймут культурные нюансы или просто станут мастерами генерации клише?
Meta qui continue la course aux armements avec ces modèles à 2T paramètres... mais franchement, c'est pas un peu excessif ? En janvier on avait déjà DeepSeek R1 qui montrait qu'on pouvait faire mieux avec moins. J'ai l'impression qu'ils cherchent juste à impressionner avec des chiffres gigantesques 🤔
Llama 4 sounds like a beast! That 10M token context window is wild—imagine analyzing entire books in one go. But can Meta keep up with DeepSeek’s efficiency? Excited for Behemoth, though! 🚀
2025年1月,人工智能界掀起波澜,一家鲜为人知的中国特色人工智能初创公司DeepSeek推出了其开创性的开源语言推理模型DeepSeek R1。该模型不仅性能超越了Meta等公司,而且成本仅为传闻中的几百万美元。相比之下,Meta可能仅在几位人工智能团队领导者身上就花费了这么多!这一消息让Meta有些慌乱,尤其是因为他们上个月刚发布的最新Llama模型3.3版已经显得有些过时。
快进到今天,Meta的创始人兼首席执行官马克·扎克伯格在Instagram上宣布推出新的Llama 4系列。该系列包括4000亿参数的Llama 4 Maverick和1090亿参数的Llama 4 Scout,开发者可立即在llama.com和Hugging Face上下载并开始使用。此外,还有一个正在训练中的庞大2万亿参数模型Llama 4 Behemoth的预览,尚未确定发布日期。
多模态和长上下文能力
这些新模型的突出特点是其多模态特性。它们不仅限于文本,还能处理视频和图像。它们的上下文窗口极长——Maverick为100万令牌,Scout更是高达1000万令牌。换句话说,这相当于一次性处理1500页和15000页的文本!想象一下,这对医学、科学或文学等领域处理和生成大量信息的可能性。
专家混合架构
所有三个Llama 4模型都采用了“专家混合(MoE)”架构,这种技术由OpenAI和Mistral等公司推广,备受关注。该方法将多个较小的专业模型组合成一个更大、更高效的模型。每个Llama 4模型由128个不同的专家组成,这意味着每个令牌仅由必要的专家和一个共享专家处理,使模型更具成本效益且运行更快。Meta宣称Llama 4 Maverick可在单个Nvidia H100 DGX主机上运行,部署非常简便。
成本效益和可访问性
Meta致力于让这些模型易于获取。Scout和Maverick均可用于自托管,他们甚至分享了一些诱人的成本估算。例如,Llama 4 Maverick的推理成本在每百万令牌0.19美元至0.49美元之间,相比其他专有模型如GPT-4o,这非常划算。如果您有兴趣通过云提供商使用这些模型,Groq已经提供了具有竞争力的定价。
增强推理和MetaP
这些模型专为推理、编码和问题解决而设计。Meta在训练中采用了一些巧妙技术来提升这些能力,例如移除简单提示并使用持续强化学习,逐步增加提示难度。他们还引入了MetaP,一种新技术,允许在一个模型上设置超参数并将其应用于其他模型,从而节省时间和成本。这对训练像Behemoth这样使用32K GPU并处理超过30万亿令牌的巨型模型尤为重要。
性能与比较
那么,这些模型表现如何?扎克伯格明确表示,他希望开源人工智能引领潮流,Llama 4是朝着这个方向迈出的一大步。虽然它们可能不会在所有方面都创下新的性能记录,但无疑名列前茅。例如,Llama 4 Behemoth在某些基准测试中超越了一些重量级选手,尽管在其他方面仍需追赶DeepSeek R1和OpenAI的o1系列。
Llama 4 Behemoth
- 在MATH-500(95.0)、GPQA Diamond(73.7)和MMLU Pro(82.2)上超越GPT-4.5、Gemini 2.0 Pro和Claude Sonnet 3.7

Llama 4 Maverick
- 在ChartQA、DocVQA、MathVista和MMMU等大多数多模态推理基准测试中击败GPT-4o和Gemini 2.0 Flash
- 与DeepSeek v3.1竞争,同时使用的活跃参数不到其一半
- 基准测试得分:ChartQA(90.0)、DocVQA(94.4)、MMLU Pro(80.5)

Llama 4 Scout
- 在DocVQA(94.4)、MMLU Pro(74.3)和MathVista(70.7)上匹配或超越Mistral 3.1、Gemini 2.0 Flash-Lite和Gemma 3等模型
- 无与伦比的1000万令牌上下文长度——非常适合长文档和代码库

与DeepSeek R1的比较
在顶级竞争中,Llama 4 Behemoth表现出色,但尚未完全超越DeepSeek R1或OpenAI的o1系列。它在MATH-500和MMLU上略逊一筹,但在GPQA Diamond上领先。即便如此,Llama 4显然是推理领域的强劲竞争者。
| 基准测试 | Llama 4 Behemoth | DeepSeek R1 | OpenAI o1-1217 |
|---|---|---|---|
| MATH-500 | 95.0 | 97.3 | 96.4 |
| GPQA Diamond | 73.7 | 71.5 | 75.7 |
| MMLU | 82.2 | 90.8 | 91.8 |
安全性和政治中立性
Meta也没有忽视安全性。他们推出了Llama Guard、Prompt Guard和CyberSecEval等工具以确保安全。他们还强调减少政治偏见,致力于更平衡的方法,特别是在扎克伯格在2024年选举后表示支持共和党政治之后。
Llama 4的未来
通过Llama 4,Meta正在推动人工智能的效率、开放性和性能的边界。无论您是想构建企业级人工智能助手还是深入研究人工智能,Llama 4都提供了强大而灵活的选择,优先考虑推理能力。显然,Meta致力于让人工智能对每个人更易获取且更具影响力。
萨提亚·纳德拉准备利用与OpenAI的新合作关系
周三,一位华尔街分析师直接询问了微软首席执行官萨蒂亚·纳德拉,修订后的OpenAI合作关系将如何影响公司的财务状况。 纳德拉将这一新协议描述为对各方都有利的结果。“我们对与OpenAI的合作感到满意。我始终非常重视任何合作关系,并确保它能够实现双赢。只有这样,双方才能保持良好的合作伙伴关系。” 他强调,微软仍然可以使用OpenAI的知识产权,包括其模型和智能体产品,但不再需要为此向OpenAI支付费用。 谈到在2032年之前可以免费使用OpenAI最先进的人工智能技术,纳德拉表示:“
Meta AI 现已在 Facebook Marketplace 上回复买家消息
Facebook周四宣布,Facebook Marketplace推出了新的Meta AI功能,包括对买家咨询的自动回复。该平台还利用AI加速商品上架、总结卖家资料,并允许卖家在商品列表中提供配送服务。鉴于卖家通常会收到大量买家咨询,Facebook正通过由Meta AI驱动的自动回复功能简化这一流程。当买家询问商品库存情况时,卖家可利用Meta AI根据商品详情(如描述、库存、自提地点和价格)自
OpenAI勾勒出以公共财富基金、机器人税和每周四天工作制为核心的人工智能经济蓝图
正当各国政府竭力应对超级智能机器带来的经济影响之际,OpenAI发布了一套政策建议,概述了在“智能时代”财富与工作将如何重塑。这些构想将传统左倾机制——例如公共财富基金和扩大的社会安全网——与根本上属于资本主义、由市场驱动的经济框架相结合。OpenAI的提案本质上是一份愿望清单,这份公开声明旨在帮助民选官员、投资者和公众理解这家市值8520亿美元的公司如何看待人工智能在重塑劳动力和经济过程中带来的
A 2 trillion parameter model? The environmental footprint of training these behemoths is starting to overshadow the hype for me. Meta's scale race is impressive, but I hope the next headline is about efficiency breakthroughs, not just size. 🌍💔
Honnêtement, l'IA est en train de devenir une course aux armements écologique... Meta sort un modèle de 2T paramètres, mais on ne parle jamais de l'énergie nécessaire pour l'entraîner. DeepSeek R1 montre qu'on peut être efficace sans monstre énergivore. Un peu de sobriété, peut-être ? 🌱
Ладно, Meta выпускает Llama 4 с 2 триллионами параметров... Но я до сих пор не могу заставить свою предыдущую модель правильно переводить рецепт борща! 😅 Интересно, эти «революционные» модели когда-нибудь действительно поймут культурные нюансы или просто станут мастерами генерации клише?
Meta qui continue la course aux armements avec ces modèles à 2T paramètres... mais franchement, c'est pas un peu excessif ? En janvier on avait déjà DeepSeek R1 qui montrait qu'on pouvait faire mieux avec moins. J'ai l'impression qu'ils cherchent juste à impressionner avec des chiffres gigantesques 🤔
Llama 4 sounds like a beast! That 10M token context window is wild—imagine analyzing entire books in one go. But can Meta keep up with DeepSeek’s efficiency? Excited for Behemoth, though! 🚀





首页






