Meta揭开了长篇小说侦察兵和特立独行的模型,2T参数庞然大物即将推出!
2025年1月,人工智能界掀起波澜,一家鲜为人知的中国特色人工智能初创公司DeepSeek推出了其开创性的开源语言推理模型DeepSeek R1。该模型不仅性能超越了Meta等公司,而且成本仅为传闻中的几百万美元。相比之下,Meta可能仅在几位人工智能团队领导者身上就花费了这么多!这一消息让Meta有些慌乱,尤其是因为他们上个月刚发布的最新Llama模型3.3版已经显得有些过时。
快进到今天,Meta的创始人兼首席执行官马克·扎克伯格在Instagram上宣布推出新的Llama 4系列。该系列包括4000亿参数的Llama 4 Maverick和1090亿参数的Llama 4 Scout,开发者可立即在llama.com和Hugging Face上下载并开始使用。此外,还有一个正在训练中的庞大2万亿参数模型Llama 4 Behemoth的预览,尚未确定发布日期。
多模态和长上下文能力
这些新模型的突出特点是其多模态特性。它们不仅限于文本,还能处理视频和图像。它们的上下文窗口极长——Maverick为100万令牌,Scout更是高达1000万令牌。换句话说,这相当于一次性处理1500页和15000页的文本!想象一下,这对医学、科学或文学等领域处理和生成大量信息的可能性。
专家混合架构
所有三个Llama 4模型都采用了“专家混合(MoE)”架构,这种技术由OpenAI和Mistral等公司推广,备受关注。该方法将多个较小的专业模型组合成一个更大、更高效的模型。每个Llama 4模型由128个不同的专家组成,这意味着每个令牌仅由必要的专家和一个共享专家处理,使模型更具成本效益且运行更快。Meta宣称Llama 4 Maverick可在单个Nvidia H100 DGX主机上运行,部署非常简便。
成本效益和可访问性
Meta致力于让这些模型易于获取。Scout和Maverick均可用于自托管,他们甚至分享了一些诱人的成本估算。例如,Llama 4 Maverick的推理成本在每百万令牌0.19美元至0.49美元之间,相比其他专有模型如GPT-4o,这非常划算。如果您有兴趣通过云提供商使用这些模型,Groq已经提供了具有竞争力的定价。
增强推理和MetaP
这些模型专为推理、编码和问题解决而设计。Meta在训练中采用了一些巧妙技术来提升这些能力,例如移除简单提示并使用持续强化学习,逐步增加提示难度。他们还引入了MetaP,一种新技术,允许在一个模型上设置超参数并将其应用于其他模型,从而节省时间和成本。这对训练像Behemoth这样使用32K GPU并处理超过30万亿令牌的巨型模型尤为重要。
性能与比较
那么,这些模型表现如何?扎克伯格明确表示,他希望开源人工智能引领潮流,Llama 4是朝着这个方向迈出的一大步。虽然它们可能不会在所有方面都创下新的性能记录,但无疑名列前茅。例如,Llama 4 Behemoth在某些基准测试中超越了一些重量级选手,尽管在其他方面仍需追赶DeepSeek R1和OpenAI的o1系列。
Llama 4 Behemoth
- 在MATH-500(95.0)、GPQA Diamond(73.7)和MMLU Pro(82.2)上超越GPT-4.5、Gemini 2.0 Pro和Claude Sonnet 3.7

Llama 4 Maverick
- 在ChartQA、DocVQA、MathVista和MMMU等大多数多模态推理基准测试中击败GPT-4o和Gemini 2.0 Flash
- 与DeepSeek v3.1竞争,同时使用的活跃参数不到其一半
- 基准测试得分:ChartQA(90.0)、DocVQA(94.4)、MMLU Pro(80.5)

Llama 4 Scout
- 在DocVQA(94.4)、MMLU Pro(74.3)和MathVista(70.7)上匹配或超越Mistral 3.1、Gemini 2.0 Flash-Lite和Gemma 3等模型
- 无与伦比的1000万令牌上下文长度——非常适合长文档和代码库

与DeepSeek R1的比较
在顶级竞争中,Llama 4 Behemoth表现出色,但尚未完全超越DeepSeek R1或OpenAI的o1系列。它在MATH-500和MMLU上略逊一筹,但在GPQA Diamond上领先。即便如此,Llama 4显然是推理领域的强劲竞争者。
基准测试 Llama 4 Behemoth DeepSeek R1 OpenAI o1-1217 MATH-500 95.0 97.3 96.4 GPQA Diamond 73.7 71.5 75.7 MMLU 82.2 90.8 91.8
安全性和政治中立性
Meta也没有忽视安全性。他们推出了Llama Guard、Prompt Guard和CyberSecEval等工具以确保安全。他们还强调减少政治偏见,致力于更平衡的方法,特别是在扎克伯格在2024年选举后表示支持共和党政治之后。
Llama 4的未来
通过Llama 4,Meta正在推动人工智能的效率、开放性和性能的边界。无论您是想构建企业级人工智能助手还是深入研究人工智能,Llama 4都提供了强大而灵活的选择,优先考虑推理能力。显然,Meta致力于让人工智能对每个人更易获取且更具影响力。
相关文章
谷歌发布面向生产环境的Gemini 2.5 AI模型,挑战企业市场中的OpenAI
谷歌周一加码其AI战略,推出面向企业使用的先进Gemini 2.5模型,并引入成本效益更高的变体,以在价格和性能上展开竞争。这家隶属于Alphabet的公司将其旗舰AI模型——Gemini 2.5 Pro和Gemini 2.5 Flash——从测试阶段提升至全面可用,展示其在关键业务应用中的准备就绪。同时,谷歌推出了Gemini 2.5 Flash-Lite,定位为高容量任务中最具预算友好性的选择
Meta为AI人才提供高薪,否认1亿美元签约奖金
Meta正以数百万美元的丰厚薪酬吸引AI研究人员加入其新的超级智能实验室。然而,一位被招募的研究人员和泄露的内部会议言论表示,关于1亿美元“签约奖金”的说法不实。据The Verge周四报道,在一次泄露的公司全体会议上,Meta高管回应了关于OpenAI首席执行官Sam Altman声称Meta向顶尖研究人员提供奖金的问题。Meta的首席技术官Andrew Bosworth表示,只有极少数高级领导
Meta 增强人工智能安全,推出高级 Llama 工具
Meta 发布了新的 Llama 安全工具,以加强人工智能开发并防御新兴威胁。这些升级的 Llama 人工智能模型安全工具与 Meta 的新资源相结合,旨在增强网络安全团队利用人工智能进行防御的能力,提升所有人工智能利益相关者的安全性。使用 Llama 模型的开发者现在可以直接在 Meta 的 Llama Protections 页面、Hugging Face 和 GitHub 上访问增强的工具。
评论 (25)
0/200
RogerSanchez
2025-04-25 03:53:44
Llama 4 정말 대단해요! 긴 문맥 스카우트와 마버릭 모델은 놀랍네요. 2T 파라미터의 괴물이 나올 걸 기대하고 있어요. 다만, 설정하는 게 좀 복잡해요. 그래도, AI의 미래가 밝아 보이네요! 🚀
0
WillieHernández
2025-04-24 08:21:23
Llama 4はすごい!長いコンテキストのスカウトやマーベリックモデルは驚異的。2Tパラメータのビーストが出るのを待ちきれない。ただ、設定が少し大変かな。でも、これでAIの未来は明るいね!🚀
0
GregoryWilson
2025-04-23 01:23:39
MetaのLlama 4は最高ですね!長いコンテキストをスムーズに処理できるのが本当に便利。マーベリックモデルも面白いけど、2Tパラメータのモデルが来るのが楽しみです!🤩✨
0
BrianThomas
2025-04-22 14:27:50
O Llama 4 da Meta é incrível! A função de contexto longo é uma mão na roda para minhas pesquisas. Os modelos Maverick também são legais, mas estou ansioso pelo modelo de 2T parâmetros. Mal posso esperar para ver o que ele pode fazer! 🤯🚀
0
JohnGarcia
2025-04-22 11:11:00
Acabo de enterarme de Llama 4 de Meta y ¡es una locura! ¡2T parámetros! Espero que no sea solo hype, pero si cumple con las expectativas, va a ser increíble. ¿Alguien ya lo ha probado? ¡Quiero saber más! 😎
0
NicholasLewis
2025-04-21 21:31:17
Acabei de ouvir sobre o Llama 4 da Meta e parece insano! 2T parâmetros? Isso é um monstro! Mal posso esperar para ver como se compara ao DeepSeek R1. Espero que não seja só hype, mas se corresponder ao burburinho, vai ser 🔥! Alguém já testou?
0
2025年1月,人工智能界掀起波澜,一家鲜为人知的中国特色人工智能初创公司DeepSeek推出了其开创性的开源语言推理模型DeepSeek R1。该模型不仅性能超越了Meta等公司,而且成本仅为传闻中的几百万美元。相比之下,Meta可能仅在几位人工智能团队领导者身上就花费了这么多!这一消息让Meta有些慌乱,尤其是因为他们上个月刚发布的最新Llama模型3.3版已经显得有些过时。
快进到今天,Meta的创始人兼首席执行官马克·扎克伯格在Instagram上宣布推出新的Llama 4系列。该系列包括4000亿参数的Llama 4 Maverick和1090亿参数的Llama 4 Scout,开发者可立即在llama.com和Hugging Face上下载并开始使用。此外,还有一个正在训练中的庞大2万亿参数模型Llama 4 Behemoth的预览,尚未确定发布日期。
多模态和长上下文能力
这些新模型的突出特点是其多模态特性。它们不仅限于文本,还能处理视频和图像。它们的上下文窗口极长——Maverick为100万令牌,Scout更是高达1000万令牌。换句话说,这相当于一次性处理1500页和15000页的文本!想象一下,这对医学、科学或文学等领域处理和生成大量信息的可能性。
专家混合架构
所有三个Llama 4模型都采用了“专家混合(MoE)”架构,这种技术由OpenAI和Mistral等公司推广,备受关注。该方法将多个较小的专业模型组合成一个更大、更高效的模型。每个Llama 4模型由128个不同的专家组成,这意味着每个令牌仅由必要的专家和一个共享专家处理,使模型更具成本效益且运行更快。Meta宣称Llama 4 Maverick可在单个Nvidia H100 DGX主机上运行,部署非常简便。
成本效益和可访问性
Meta致力于让这些模型易于获取。Scout和Maverick均可用于自托管,他们甚至分享了一些诱人的成本估算。例如,Llama 4 Maverick的推理成本在每百万令牌0.19美元至0.49美元之间,相比其他专有模型如GPT-4o,这非常划算。如果您有兴趣通过云提供商使用这些模型,Groq已经提供了具有竞争力的定价。
增强推理和MetaP
这些模型专为推理、编码和问题解决而设计。Meta在训练中采用了一些巧妙技术来提升这些能力,例如移除简单提示并使用持续强化学习,逐步增加提示难度。他们还引入了MetaP,一种新技术,允许在一个模型上设置超参数并将其应用于其他模型,从而节省时间和成本。这对训练像Behemoth这样使用32K GPU并处理超过30万亿令牌的巨型模型尤为重要。
性能与比较
那么,这些模型表现如何?扎克伯格明确表示,他希望开源人工智能引领潮流,Llama 4是朝着这个方向迈出的一大步。虽然它们可能不会在所有方面都创下新的性能记录,但无疑名列前茅。例如,Llama 4 Behemoth在某些基准测试中超越了一些重量级选手,尽管在其他方面仍需追赶DeepSeek R1和OpenAI的o1系列。
Llama 4 Behemoth
- 在MATH-500(95.0)、GPQA Diamond(73.7)和MMLU Pro(82.2)上超越GPT-4.5、Gemini 2.0 Pro和Claude Sonnet 3.7
Llama 4 Maverick
- 在ChartQA、DocVQA、MathVista和MMMU等大多数多模态推理基准测试中击败GPT-4o和Gemini 2.0 Flash
- 与DeepSeek v3.1竞争,同时使用的活跃参数不到其一半
- 基准测试得分:ChartQA(90.0)、DocVQA(94.4)、MMLU Pro(80.5)
Llama 4 Scout
- 在DocVQA(94.4)、MMLU Pro(74.3)和MathVista(70.7)上匹配或超越Mistral 3.1、Gemini 2.0 Flash-Lite和Gemma 3等模型
- 无与伦比的1000万令牌上下文长度——非常适合长文档和代码库
与DeepSeek R1的比较
在顶级竞争中,Llama 4 Behemoth表现出色,但尚未完全超越DeepSeek R1或OpenAI的o1系列。它在MATH-500和MMLU上略逊一筹,但在GPQA Diamond上领先。即便如此,Llama 4显然是推理领域的强劲竞争者。
基准测试 | Llama 4 Behemoth | DeepSeek R1 | OpenAI o1-1217 |
---|---|---|---|
MATH-500 | 95.0 | 97.3 | 96.4 |
GPQA Diamond | 73.7 | 71.5 | 75.7 |
MMLU | 82.2 | 90.8 | 91.8 |
安全性和政治中立性
Meta也没有忽视安全性。他们推出了Llama Guard、Prompt Guard和CyberSecEval等工具以确保安全。他们还强调减少政治偏见,致力于更平衡的方法,特别是在扎克伯格在2024年选举后表示支持共和党政治之后。
Llama 4的未来
通过Llama 4,Meta正在推动人工智能的效率、开放性和性能的边界。无论您是想构建企业级人工智能助手还是深入研究人工智能,Llama 4都提供了强大而灵活的选择,优先考虑推理能力。显然,Meta致力于让人工智能对每个人更易获取且更具影响力。



Llama 4 정말 대단해요! 긴 문맥 스카우트와 마버릭 모델은 놀랍네요. 2T 파라미터의 괴물이 나올 걸 기대하고 있어요. 다만, 설정하는 게 좀 복잡해요. 그래도, AI의 미래가 밝아 보이네요! 🚀




Llama 4はすごい!長いコンテキストのスカウトやマーベリックモデルは驚異的。2Tパラメータのビーストが出るのを待ちきれない。ただ、設定が少し大変かな。でも、これでAIの未来は明るいね!🚀




MetaのLlama 4は最高ですね!長いコンテキストをスムーズに処理できるのが本当に便利。マーベリックモデルも面白いけど、2Tパラメータのモデルが来るのが楽しみです!🤩✨




O Llama 4 da Meta é incrível! A função de contexto longo é uma mão na roda para minhas pesquisas. Os modelos Maverick também são legais, mas estou ansioso pelo modelo de 2T parâmetros. Mal posso esperar para ver o que ele pode fazer! 🤯🚀




Acabo de enterarme de Llama 4 de Meta y ¡es una locura! ¡2T parámetros! Espero que no sea solo hype, pero si cumple con las expectativas, va a ser increíble. ¿Alguien ya lo ha probado? ¡Quiero saber más! 😎




Acabei de ouvir sobre o Llama 4 da Meta e parece insano! 2T parâmetros? Isso é um monstro! Mal posso esperar para ver como se compara ao DeepSeek R1. Espero que não seja só hype, mas se corresponder ao burburinho, vai ser 🔥! Alguém já testou?












