选项
首页
新闻
Meta的Llama 3.1是AI代的进步

Meta的Llama 3.1是AI代的进步

2025-04-15
107

Meta的Llama 3.1是AI代的进步

周二,Meta揭开了其Llama系列大型语言模型(LLMs)的最新成员——Llama 3.1的面纱。该公司自豪地宣称Llama 3.1是首个开源的“前沿模型”,这一术语通常用于指代最先进的人工智能模型。

Llama 3.1有多种规模,但真正引人注目的是其巨型“405B”模型。凭借惊人的4050亿个神经“权重”或参数,它超越了其他著名开源模型,如Nvidia的Nemotron 4、Google的Gemma 2和Mixtral。更引人入胜的是Meta团队在打造这一巨型模型时所做的三个关键决策。

这些决策堪称神经网络工程的杰作,构成了Llama 3.1 405B构建和训练的支柱。它们还建立在Meta在Llama 2中展示的效率提升基础上,展示了减少深度学习总体计算预算的潜力。

首先,Llama 3.1 405B放弃了Google在其闭源Gemini 1.5和Mistral在其Mixtral中使用的“专家混合”方法。这种方法涉及创建不同的神经权重组合,其中一些可以关闭以简化预测。相反,Meta的研究人员坚持使用自Google在2017年引入的经典“仅解码器变换器模型架构”。他们声称这一选择带来了更稳定的训练过程。

其次,为了提升这种简单变换器模型的性能,Meta的团队提出了一种巧妙的多阶段训练方法。众所周知,平衡训练数据量和计算资源会显著影响预测质量。但传统的“扩展定律”,即基于模型规模和数据预测性能的规则,并不一定能反映模型在“下游”任务(如推理测试)中的表现。

因此,Meta开发了自己的扩展定律。他们增加了训练数据和计算资源,通过多次迭代测试不同组合,以查看生成的模型在关键下游任务中的表现。这一细致的过程帮助他们找到了最佳点,从而选择了4050亿个参数作为旗舰模型。最终训练由Meta的Grand Teton AI服务器上的16000个Nvidia H100 GPU芯片提供支持,并采用复杂系统并行运行数据和权重。

第三个创新在于训练后阶段。每次训练结束后,Llama 3.1都会经历一个由人类反馈指导的严格过程,类似于OpenAI和其他公司用来优化模型输出的方法。这包括“监督微调”,模型通过人类偏好学习区分理想和非理想输出。

Meta随后引入了一种名为“直接偏好优化”(DPO)的创新,这是今年由斯坦福大学AI学者开创的一种更高效的强化学习方法。他们还通过展示使用API调用解决的提示示例,训练Llama 3.1使用“工具”,如外部搜索引擎,从而提升其“零样本”工具使用能力。

为了对抗“幻觉”,团队精心挑选了特定训练数据并创建了原创问答对,微调模型以仅回答其知道的内容,并拒绝回答不确定的问题。

在整个开发过程中,Meta研究人员强调简单性,指出高质量数据、规模和直接的方法始终带来最佳结果。尽管他们探索了更复杂的架构和训练方案,但发现增加的复杂性并不足以证明其益处。

Llama 3.1 405B的规模是开源模型的一个里程碑,通常被商业闭源模型所压制。Meta的首席执行官马克·扎克伯格强调了其经济优势,指出开发者运行Llama 3.1 405B的推理成本仅为使用GPT-4o等模型的一半。

扎克伯格还将开源AI视为软件的自然发展,类比Unix从专有系统演变为更先进、安全和广泛的生态系统,这得益于开源开发。

然而,正如ZDNET的Steven Vaughan-Nichols指出的,Meta在Hugging Face上发布的代码缺少一些细节,且代码许可证比典型的开源许可证更严格。因此,尽管Llama 3.1算是开源,但并非完全如此。然而,其训练过程的详细程度令人耳目一新,尤其是当OpenAI和Google等巨头对其闭源模型越来越讳莫如深时。

相关文章
AI在嘻哈中的角色:创新工具还是创意捷径? AI在嘻哈中的角色:创新工具还是创意捷径? 人工智能正在重塑日常生活,音乐领域也感受到这种变化。在嘻哈中,新型AI系统旨在改变曲目制作、歌词创作和现场演出。本文探讨AI在嘻哈中的地位,权衡它是对艺术家的助力还是削弱真正创新的道具。我们将审视其优势、道德难题以及它可能如何塑造嘻哈未来的氛围。 主要亮点AI工具现在更常用于嘻哈的节拍制作、混音和后期处理。关于创作归属、原创性和真正艺术性的道德争论不断涌现。AI可能为更多创作者打造高质量曲目打开
甲骨文400亿美元英伟达芯片投资助推德克萨斯AI数据中心 甲骨文400亿美元英伟达芯片投资助推德克萨斯AI数据中心 据《金融时报》报道,甲骨文计划投资约400亿美元购买英伟达芯片,为OpenAI在德克萨斯州开发的大型新数据中心提供动力。这是迄今为止最大的芯片收购交易之一,凸显了对AI计算资源激增的需求。该设施位于德克萨斯州阿比林,是美国首个“星门”数据中心。由OpenAI和软银支持,这是构建大规模AI基础设施的更广泛计划的一部分。该德克萨斯中心计划于明年完工,将提供1.2吉瓦的计算能力,使其跻身全球最大数据中心
软银以6.76亿美元收购夏普工厂用于日本AI数据中心 软银以6.76亿美元收购夏普工厂用于日本AI数据中心 软银正推进其在日本建立主要AI中心的计划,采取独立及与OpenAI等合作的方式。这家科技巨头周五确认,将投资6.76亿美元收购原夏普LCD面板工厂,将其改造成AI数据中心。软银与夏普的交易包括大阪堺工厂的土地和建筑,收购价为1000亿日元(6.76亿美元)。此次收购对软银至关重要,因为数据中心是生成式AI革命的关键,需要大量容量来训练模型并支持持续服务。当被问及该工厂是否支持OpenAI模型在日本
评论 (26)
0/200
ThomasBaker
ThomasBaker 2025-07-31 09:41:20

Wow, Llama 3.1 sounds like a game-changer! Open-source and frontier-level? That’s huge for AI devs. Curious how it stacks up against closed models like GPT-4. 😎

AlbertThomas
AlbertThomas 2025-04-22 23:18:49

O Llama 3.1 é incrível! Adoro que seja de código aberto, é como ter um superpoder no meu arsenal de programação. No começo pode ser um pouco confuso, mas vale a pena experimentar se você gosta de IA! 🚀

GaryGonzalez
GaryGonzalez 2025-04-22 16:13:48

ラマ3.1は本当にすごい!オープンソースで使えるのが最高です。最初は少し圧倒されましたが、慣れると便利です。AIに興味があるなら、ぜひ試してみてください!🚀

AnthonyPerez
AnthonyPerez 2025-04-22 15:26:53

¡Llama 3.1 es una bestia! Me encanta que sea de código abierto, es como tener un superpoder en mi arsenal de programación. Al principio puede ser un poco abrumador, pero definitivamente vale la pena probarlo si te interesa la IA! 🚀

JustinAnderson
JustinAnderson 2025-04-21 05:42:32

¡Llama 3.1 de Meta es una maravilla! Me sorprende cómo están empujando los límites con la IA de código abierto. El rendimiento es genial, pero desearía que hubiera más documentación para principiantes. De todas formas, ¡es una herramienta que hay que probar! 💪

WilliamAllen
WilliamAllen 2025-04-20 09:52:01

Llama 3.1 is a beast! I've been playing around with it and the open-source aspect is just awesome. It's like having a superpower in my coding arsenal. But, it can be a bit overwhelming at first. Definitely worth checking out if you're into AI! 🚀

返回顶部
OR