微软LAM：借助大型动作模型革新人工智能

首页

新闻

2025-05-27

SamuelJackson

探索微软的大型动作模型（LAM）

人工智能在不断发展，微软通过其创新的大型动作模型（LAM）推动了边界。与仅生成文本的传统语言模型不同，LAM设计为在Windows环境中直接执行动作。这种独特的方法旨在连接理解语言的AI与能够执行任务的AI，为更实用和无缝集成的AI解决方案铺平道路。

什么是大型动作模型（LAM）？

微软的大型动作模型（LAM）不仅仅是生成文本，而是在Windows生态系统中完成任务。想象一下，你告诉电脑执行一个任务，它不仅理解指令，还能在Microsoft Word、Excel和PowerPoint等应用中执行。LAM的目标是弥合传统语言模型与能够直接与操作系统交互的模型之间的差距，使AI更实用并融入日常工作流程。

LAM在行动

LAM的开发与设计

LAM的开发重点在于解释用户指令并将其转化为可在Microsoft Word、Excel和PowerPoint等应用中执行的可操作步骤。它关注于理解自然语言，将其转化为动作，并在软件界面中执行这些动作。LAM的设计强调自主任务执行，非常适合自动化重复任务、优化工作流程并提升整体生产力。这种直接与Windows应用交互的能力使LAM区别于主要专注于生成文本或提供信息的其他AI模型。

LAM设计过程

弥合差距：语言模型与操作系统

LAM旨在弥合仅生成文本的语言模型与能够直接与操作系统交互的模型之间的鸿沟。这是一个变革性的进步，使AI超越简单的信息检索和文本生成，进入实际任务执行。通过使AI能够直接与Windows环境交互，LAM可以处理从Word中的简单格式化到Excel中复杂数据分析的各种任务，使其成为跨领域用户的多功能实用工具。

LAM弥合差距

LAM的训练过程

训练方法：监督微调、模仿学习和强化学习

LAM的训练结合了监督微调、模仿学习和强化学习。这些方法帮助LAM学习解释用户指令、规划动作并有效执行任务。监督微调用标注数据集教导LAM语言与动作之间的关系。模仿学习使LAM能够观察并模仿专家演示，而强化学习通过试错帮助其学习，正确动作获得奖励，错误动作受到惩罚。

LAM训练方法

训练数据来源：软件文档、WikiHow文章和Bing搜索查询

LAM的训练数据来自多种来源，如官方软件文档、WikiHow文章和Bing搜索查询。这些来源为LAM提供了广泛的用户需求理解和在不同情境下执行任务的能力。软件文档提供使用Word和Excel等应用的详细指令，WikiHow文章提供各种任务的逐步指南，Bing搜索查询帮助LAM理解用户意图并相应调整响应。

LAM训练数据来源

数据演变与GPT-4的作用

GPT-4在将原始文本结构化为LAM训练的任务-计划对中发挥了关键作用。它通过引入额外条件或指令为基本任务增加复杂性，使LAM能够处理多种场景并适应不同用户需求。GPT-4的使用确保训练数据高质量且相关，从而提升性能。

GPT-4在LAM训练中的作用

构建任务-计划对：将指令转化为动作

训练LAM的关键步骤之一是将书面指令转化为Windows中可执行的动作。这涉及创建任务-计划对，包括用户指令和完成任务所需的动作序列。例如，一个任务-计划对可能包括指令“在Word中高亮显示‘Hello World’文本”和选择文本并点击高亮按钮的动作。训练这些对帮助LAM有效映射语言到动作。

LAM任务-计划对

训练阶段：从LAM1到LAM4

LAM的训练涉及多个阶段，从基础模型Mistral 7B开始，逐步发展到LAM4。LAM1学习为任务编写连贯计划，LAM2通过模仿成功示例生成动作步骤。LAM3引入新任务解决方式，LAM4通过强化学习使用奖励模型优化决策，从成功和失败的尝试中学习。

LAM训练阶段

如何在日常任务中利用微软LAM

虽然LAM仍在开发中，但其潜在应用广泛。以下是未来可能使用LAM完成常见任务的方式：

任务1：在Word中格式化文档

用户指令：“将此文档的标题加粗并将字体大小增加到16。”

LAM解释：LAM识别标题，选择它并打开格式化选项。

动作执行：LAM点击加粗按钮并将字体大小更改为16。

任务2：在PowerPoint中创建演示文稿

用户指令：“创建包含关键发现摘要的项目符号列表的新幻灯片。”

LAM解释：LAM添加新幻灯片并插入项目符号模板。

动作执行：LAM填充项目符号，总结关键发现。

任务3：在Excel中分析数据

用户指令：“计算上季度平均销售额。”

LAM解释：LAM选择上季度的销售数据。

动作执行：LAM应用平均函数并显示结果。

微软LAM的优缺点

优点

在Windows环境中自动化任务。
减少手动干预需求。
可提高生产力和准确性。
弥合语言模型与操作系统之间的差距。

缺点

仍在开发中。
需要大量训练数据。
可能不适用于所有任务。
在复杂场景中可能出现错误。

微软LAM的用例

使用LAM自动化重复任务

LAM的主要用途之一是自动化重复任务。通过理解用户指令并自动执行动作，LAM可以在多个领域节省时间和精力。例如，自动格式化文档、通过提取数据创建报告，以及通过排序消息、安排会议和起草回复管理电子邮件。

通过AI驱动的任务执行提升生产力

LAM通过使AI直接在Windows环境中执行任务，显著提升生产力。这消除了用户在应用程序之间切换和手动执行动作的需要，从而优化工作流程、提高准确性并加快任务完成速度。

通过可执行AI转换行业

LAM通过使AI根据用户指令采取可执行步骤，有潜力改变医疗、金融和教育等行业。这为自动化、决策和问题解决开辟了新的可能性。

关于微软LAM的常见问题

微软LAM的主要目标是什么？

微软LAM的主要目标是弥合仅生成文本的语言模型与能够直接与操作系统交互的模型之间的差距，使AI能在Windows环境中自主执行任务。

开发LAM使用了哪些训练方法？

LAM使用监督微调、模仿学习和强化学习进行训练，帮助其有效解释用户指令、规划动作并执行任务。

LAM的训练数据来源有哪些？

LAM的训练数据来自多种来源，包括官方软件文档、WikiHow文章和Bing搜索查询，提供广泛的用户需求理解和不同情境下的任务执行能力。

GPT-4如何为LAM的训练过程做出贡献？

GPT-4在将原始文本结构化为LAM训练的任务-计划对中发挥关键作用，并通过引入额外条件或指令为基本任务增加复杂性。

LAM训练的不同阶段是什么？

LAM的训练涉及多个阶段，从基础模型开始，逐步发展到LAM4，从成功和失败的尝试中学习。

关于AI和微软LAM未来的相关问题

LAM有潜力彻底改变我们与电脑和软件的交互方式。通过使AI自主执行任务，LAM可以节省时间和精力，提高生产力并改变行业。随着LAM的持续发展，它可能成为我们日常生活中越来越重要的部分。然而，其广泛采用也带来了重要的伦理和社会问题，如确保负责任和道德的使用、解决偏见、透明度和问责制。

人工智能漫画工厂：利用人工智能技术轻松创作令人惊叹的漫画在我们的数字时代，人工智能正前所未有地改变着创意产业。人工智能漫画工厂（AI Comic Factory）站在这场革命的前沿，提供了一个直观的平台，任何人都可以在这个平台上制作引人入胜的视觉故事--无需任何艺术专长。这一基于网络的创新解决方案正在重塑教育工作者、营销人员和故事讲述者如何通过人工智能驱动的漫画生成来进行内容创作。我们的全面探索揭示了这一工具如何在保持创作自由的同时消除技术障碍，让所有

通过 Eleven Labs 掌握人工智能配音：逼真语音合成深度指南在内容驱动的当今世界，专业配音对于吸引现代受众至关重要。Eleven Labs 不需要昂贵的录音设备或专业人才，就能提供录音棚品质的人工智能语音，从而打破了障碍。本指南将探讨这一开创性平台如何生成超逼真的语音，实现自定义语音创作，并为不同经验水平的创作者改变音频制作工作流程。主要优势Eleven Labs 提供无与伦比的人工智能语音生成功能和电影级的输出质量丰富的多语言语音库，提供多种不同的音调、

Mistral 推出两款新的人工智能推理模型，增强认知能力法国人工智能巨头 Mistral 凭借其全新的 Magistral 系列进入推理模型领域，在解决复杂问题的人工智能领域向 OpenAI 和谷歌等老牌公司发起挑战。扩展 Mistral 的人工智能能力本周二，Mistral 推出了首款推理人工智能模型 Magistral Small 和 Magistral Medium。这些模型有条不紊地处理复杂问题，类似于 OpenAI 的 o3 和谷歌的

0/200

提交

头条新闻

Gemini 2.5 Pro现在比Claude，GPT-4O更便宜，更便宜 2025顶级AI视频生成器：Pika Labs与其他对比 AI配音：真实声音创作终极指南 Cambium的AI将垃圾木头变成木材 Openai增强了AI语音助手以进行更好的聊天如何确保您的数据值得信赖AI集成 NotebookLM在全球范围内扩展，添加幻灯片并增强了事实检查对美国数据中心的调整可以解锁76 GW的新电源容量 Google利用AI暂停了超过3900万的广告帐户，以涉嫌欺诈 AI语音克隆：掌握语音转换的终极指南

精选