选项
首页
新闻
Meta的Llama 3.1是AI代的进步

Meta的Llama 3.1是AI代的进步

2025-04-15
107

Meta的Llama 3.1是AI代的进步

周二,Meta揭开了其Llama系列大型语言模型(LLMs)的最新成员——Llama 3.1的面纱。该公司自豪地宣称Llama 3.1是首个开源的“前沿模型”,这一术语通常用于指代最先进的人工智能模型。

Llama 3.1有多种规模,但真正引人注目的是其巨型“405B”模型。凭借惊人的4050亿个神经“权重”或参数,它超越了其他著名开源模型,如Nvidia的Nemotron 4、Google的Gemma 2和Mixtral。更引人入胜的是Meta团队在打造这一巨型模型时所做的三个关键决策。

这些决策堪称神经网络工程的杰作,构成了Llama 3.1 405B构建和训练的支柱。它们还建立在Meta在Llama 2中展示的效率提升基础上,展示了减少深度学习总体计算预算的潜力。

首先,Llama 3.1 405B放弃了Google在其闭源Gemini 1.5和Mistral在其Mixtral中使用的“专家混合”方法。这种方法涉及创建不同的神经权重组合,其中一些可以关闭以简化预测。相反,Meta的研究人员坚持使用自Google在2017年引入的经典“仅解码器变换器模型架构”。他们声称这一选择带来了更稳定的训练过程。

其次,为了提升这种简单变换器模型的性能,Meta的团队提出了一种巧妙的多阶段训练方法。众所周知,平衡训练数据量和计算资源会显著影响预测质量。但传统的“扩展定律”,即基于模型规模和数据预测性能的规则,并不一定能反映模型在“下游”任务(如推理测试)中的表现。

因此,Meta开发了自己的扩展定律。他们增加了训练数据和计算资源,通过多次迭代测试不同组合,以查看生成的模型在关键下游任务中的表现。这一细致的过程帮助他们找到了最佳点,从而选择了4050亿个参数作为旗舰模型。最终训练由Meta的Grand Teton AI服务器上的16000个Nvidia H100 GPU芯片提供支持,并采用复杂系统并行运行数据和权重。

第三个创新在于训练后阶段。每次训练结束后,Llama 3.1都会经历一个由人类反馈指导的严格过程,类似于OpenAI和其他公司用来优化模型输出的方法。这包括“监督微调”,模型通过人类偏好学习区分理想和非理想输出。

Meta随后引入了一种名为“直接偏好优化”(DPO)的创新,这是今年由斯坦福大学AI学者开创的一种更高效的强化学习方法。他们还通过展示使用API调用解决的提示示例,训练Llama 3.1使用“工具”,如外部搜索引擎,从而提升其“零样本”工具使用能力。

为了对抗“幻觉”,团队精心挑选了特定训练数据并创建了原创问答对,微调模型以仅回答其知道的内容,并拒绝回答不确定的问题。

在整个开发过程中,Meta研究人员强调简单性,指出高质量数据、规模和直接的方法始终带来最佳结果。尽管他们探索了更复杂的架构和训练方案,但发现增加的复杂性并不足以证明其益处。

Llama 3.1 405B的规模是开源模型的一个里程碑,通常被商业闭源模型所压制。Meta的首席执行官马克·扎克伯格强调了其经济优势,指出开发者运行Llama 3.1 405B的推理成本仅为使用GPT-4o等模型的一半。

扎克伯格还将开源AI视为软件的自然发展,类比Unix从专有系统演变为更先进、安全和广泛的生态系统,这得益于开源开发。

然而,正如ZDNET的Steven Vaughan-Nichols指出的,Meta在Hugging Face上发布的代码缺少一些细节,且代码许可证比典型的开源许可证更严格。因此,尽管Llama 3.1算是开源,但并非完全如此。然而,其训练过程的详细程度令人耳目一新,尤其是当OpenAI和Google等巨头对其闭源模型越来越讳莫如深时。

相关文章
Anthropic 解决了人工智能生成盗版图书的法律案件 Anthropic 解决了人工智能生成盗版图书的法律案件 Anthropic公司与美国作家达成了一项重要的版权纠纷解决方案,同意拟议的集体诉讼和解,避免了可能代价高昂的审判。本周二在法庭文件中提交的这份协议源于对这家人工智能公司使用盗版文学作品训练克劳德模型的指控。尽管此案源于作家安德烈娅-巴茨(Andrea Bartz)、查尔斯-格雷伯(Charles Graeber)和柯克-华莱士-约翰逊(Kirk Wallace Johnson)的指控,但和解细节
文件显示,Meta 与 Llama 人工智能模型主机共享收入 文件显示,Meta 与 Llama 人工智能模型主机共享收入 尽管 Meta 首席执行官马克-扎克伯格(Mark Zuckerberg)在 2023 年 7 月强调,"出售访问权 "并不是 Llama AI 模型的商业模式,但最新披露的法庭文件显示,Meta 与托管这些开源模型的云提供商建立了收入共享合作关系。通过托管合作实现盈利未经编辑的 Kadrey 诉 Meta 案诉讼文件显示,Meta 从向用户提供 Llama 模型的公司那里获得收入分成,但没
解锁 99% 的隐藏数据,现在为人工智能进行了优化 解锁 99% 的隐藏数据,现在为人工智能进行了优化 几代人以来,各行各业的组织都明白,他们积累的信息是一种变革性资产--能够增强客户互动,并以无与伦比的精确度制定数据驱动型业务战略。如今,随着人工智能从理论潜力过渡到实际业务解决方案,企业数据的战略价值达到了前所未有的高度。然而,要释放这种价值,就必须对数据基础设施给予细致入微的关注--从系统化的收集和清理到严格的治理协议,从第一天起就解决隐私、法规遵从和安全问题。在与 IBM 美洲数据平台主管 H
评论 (27)
0/200
DavidRodriguez
DavidRodriguez 2025-08-31 00:30:32

Interessant, dass Meta Llama 3.1 als erstes Open-Source-Modell bezeichnet. Aber wer kann so ein riesiges Modell eigentlich sinnvoll nutzen? Für kleine Unternehmen bestimmt zu teuer im Betrieb. 🧐

ThomasBaker
ThomasBaker 2025-07-31 09:41:20

Wow, Llama 3.1 sounds like a game-changer! Open-source and frontier-level? That’s huge for AI devs. Curious how it stacks up against closed models like GPT-4. 😎

AlbertThomas
AlbertThomas 2025-04-22 23:18:49

O Llama 3.1 é incrível! Adoro que seja de código aberto, é como ter um superpoder no meu arsenal de programação. No começo pode ser um pouco confuso, mas vale a pena experimentar se você gosta de IA! 🚀

GaryGonzalez
GaryGonzalez 2025-04-22 16:13:48

ラマ3.1は本当にすごい!オープンソースで使えるのが最高です。最初は少し圧倒されましたが、慣れると便利です。AIに興味があるなら、ぜひ試してみてください!🚀

AnthonyPerez
AnthonyPerez 2025-04-22 15:26:53

¡Llama 3.1 es una bestia! Me encanta que sea de código abierto, es como tener un superpoder en mi arsenal de programación. Al principio puede ser un poco abrumador, pero definitivamente vale la pena probarlo si te interesa la IA! 🚀

JustinAnderson
JustinAnderson 2025-04-21 05:42:32

¡Llama 3.1 de Meta es una maravilla! Me sorprende cómo están empujando los límites con la IA de código abierto. El rendimiento es genial, pero desearía que hubiera más documentación para principiantes. De todas formas, ¡es una herramienta que hay que probar! 💪

返回顶部
OR