选项
首页
新闻
Meta FAIR 公布推进类人人工智能的五大突破性进展

Meta FAIR 公布推进类人人工智能的五大突破性进展

2025-12-28
130

Meta的基础人工智能研究(FAIR)团队近日公布了五项新项目,旨在推动其在先进机器智能(AMI)领域的研究进展。

这些最新成果聚焦于提升人工智能感知能力——即机器如何处理感官输入——同时在语言模型、机器人技术和协作式人工智能代理领域取得进展。

Meta阐明其目标是打造"能够获取、处理并解读来自现实世界的感官数据,进而运用这些信息以类人智能和速度作出决策"的机器。

五项新计划构成了一系列相互关联的努力,共同致力于实现这一宏伟目标。

感知编码器:提升人工智能的视觉智能

感知编码器作为核心成果,是一款针对多样化图像与视频任务设计的大规模视觉编码器。

视觉编码器相当于人工智能系统的"眼睛",使其能够理解视觉信息。

Meta指出,为高级人工智能创建编码器正变得越来越困难,这些编码器需要将视觉与语言联系起来,熟练处理图像和视频,并在包括对抗性攻击在内的恶劣条件下保持可靠性。

据Meta描述,理想的编码器应能识别广泛概念的同时捕捉精细细节——例如发现"藏于海底的鳐鱼"、"辨识图像背景中的小金翅雀"或"在夜视野生动物摄像机中检测快速移动的赤尾鼠"。

Meta宣称该感知编码器在零样本图像与视频分类检索任务中表现卓越,性能超越所有现有开源及专有模型。

此外,其感知能力据称还能提升语言任务的处理效能。

当与大型语言模型(LLM)结合使用时,该编码器在视觉问答(VQA)、图像描述生成、文档理解及文本-图像关联(grounding)等领域表现优于其他视觉编码器。 据报道,该编码器还能提升LLM在典型弱项任务中的表现,例如理解空间关系(如"某物体位于另一物体后方")或物体相对于摄像机的运动状态。

Meta评论道:"随着感知编码器逐步应用于新场景,我们期待其先进视觉能力如何驱动更复杂的人工智能系统。"

感知语言模型(PLM):推动开放式视觉语言研究

与编码器协同工作的感知语言模型(PLM)是一款开放且可复现的视觉语言模型,专为复杂视觉识别任务设计。

PLM在训练过程中结合了海量合成数据与公开视觉语言数据集,刻意规避了外部专有模型提炼的知识。

鉴于现有视频理解数据的局限性,FAIR团队汇集了250万个全新人工标注样本,重点聚焦于精细化视频问答与时空描述任务。Meta宣称这是"迄今同类数据集中规模最大者"。

PLM提供10亿、30亿和80亿参数版本,以满足学术研究对完全透明的需求。

除模型外,Meta同步发布专为测试现有基准常忽略能力而设计的新基准——PLM-VideoBench,重点考察"精细化活动理解与时空关联推理"能力。

Meta希望通过开放模型、海量数据集和高难度基准测试,推动开源社区发展。

Meta Locate 3D:赋予机器人情境感知能力

Meta Locate 3D 致力于实现语言指令与物理动作的衔接。该端到端模型旨在使机器人能够根据开放式自然语言查询,在三维空间中精确定位物体。

Meta Locate 3D直接处理来自RGB-D传感器(如某些机器人或深度感知相机)的3D点云数据。当接收到"电视柜附近的鲜花花瓶"等文本指令时,系统会分析空间关系与上下文,精准识别目标实例——例如区分"桌子上的花瓶"与"电视柜旁的花瓶"。

该系统包含三大核心组件:预处理阶段将二维特征转换为三维特征化点云;3D-JEPA编码器(预训练模型,构建语境化三维世界表征);以及Locate 3D解码器,通过三维表征与语言查询生成目标物体的边界框和遮罩。

除模型外,Meta同步发布了基于指代表达的物体定位大型新数据集。该数据集整合了ARKitScenes、ScanNet及ScanNet++三大数据集中的1346个场景,共计13万条语言注释,使该领域现有标注数据量实现翻倍增长。

Meta认为这项技术对开发更强大的机器人系统至关重要,包括其自主研发的PARTNR机器人项目,将促进更自然的人机交互与协作。

动态字节潜在变换器:高效稳健的语言建模

继2024年末发表研究成果后,Meta现正式发布其80亿参数动态字节潜在转换器的模型权重。

该架构突破传统基于分词的语言模型,直接在字节层面运作。Meta宣称此方法在规模化应用中能实现同等性能,同时显著提升推理效率与鲁棒性。

传统大型语言模型将文本分割为"词元",易受拼写错误、新词汇或对抗性输入影响。字节级模型直接处理原始字节,有望提供更强韧性。

Meta报告称,动态字节潜在转换器"在多项任务中超越基于标记化模型,平均鲁棒性优势达+7分(基于扰动HellaSwag数据集),在CUTE标记理解基准测试任务中最高优势达+55分"。

Meta在公开权重参数的同时也分享了代码库,以此鼓励研究界探索这种语言建模的替代方案。

协作推理器:推动社交智能AI代理发展

最终发布的协作推理器致力于解决创建能与人类或其他AI高效协作的智能体这一复杂挑战。

Meta指出人类协作往往能产生更优结果,因此致力于赋予AI类似能力以完成作业辅导或求职面试准备等任务。

此类协作不仅需要解决问题,还需具备沟通、共情、反馈及理解他人视角(心理理论)等社交技能,通常需通过多次对话迭代实现。

当前大型语言模型(LLM)的训练与评估方法往往忽视这些社交协作维度。此外,收集相关对话数据成本高昂且充满挑战。

协作推理器提供了一个评估和提升这些技能的框架。它包含需要两个智能体通过对话实现多步推理的目标导向任务。该框架测试了建设性分歧、说服和达成互利解决方案等能力。

Meta的评估表明,现有模型往往无法持续利用协作来改善结果。为解决此问题,他们提出了一种基于合成交互数据的自我改进技术,让LLM智能体与自身进行协作。

名为Matrix的新型高性能模型服务引擎实现了该数据的大规模生成。据称在数学、科学及社会推理任务中应用此方法,相较单一LLM采用标准"思维链"方法的性能,提升幅度最高达29.4%。

通过开源数据生成与建模管道,Meta旨在加速研发真正"能与人类及其他智能体协作的社交智能体"。

这五项发布共同彰显了Meta在基础人工智能研究领域的持续投入,尤其致力于构建能够以更类人方式感知、理解并交互世界的机器基础组件。

另请参阅:Meta将使用欧盟用户数据训练AI模型

想向行业领袖学习人工智能与大数据知识?欢迎参加在阿姆斯特丹、加州和伦敦举办的人工智能与大数据博览会。这场综合性盛会将与智能自动化大会、BlockX区块链大会、数字化转型周及网络安全与云计算博览会同期举行。

探索更多由TechForge主办的企业技术活动与网络研讨会,请点击此处。

相关文章
Notion 将其工作区转变为人工智能代理的枢纽 Notion 将其工作区转变为人工智能代理的枢纽 生产力软件公司 Notion 正迈入智能代理时代。在周三的一场直播产品发布会上,以协作式笔记应用而闻名的 Notion 推出了一款全新的开发者平台。该平台不仅扩展了其定制 AI 代理的功能,还能与外部代理连接,并允许团队构建能够从任何数据库提取数据的自动化多步骤工作流。通过构建一个编排层——即一个能在多个工具和数据源之间协调AI工作的系统——Notion将自身定位为不仅仅是一款具备AI功能的笔记应
ElevenLabs宣布黑石集团、杰米·福克斯和伊娃·朗格利亚成为新投资者 ElevenLabs宣布黑石集团、杰米·福克斯和伊娃·朗格利亚成为新投资者 语音人工智能公司ElevenLabs披露了其5亿美元D轮融资的更多投资者名单,该轮融资最初于2月宣布。 其中包括贝莱德(BlackRock)、威灵顿(Wellington)、D.E. Shaw和施罗德(Schroders)等机构投资者;英伟达(NVIDIA)、Salesforce、桑坦德银行(Santander)、KPN和德国电信(Deutsche Telekom)等企业;以及杰米·福克斯(Jam
WordPress.com 现已支持 AI 助手撰写和发布文章,还有更多功能 WordPress.com 现已支持 AI 助手撰写和发布文章,还有更多功能 广受欢迎的网站托管和发布平台 WordPress.com 现已开始引入人工智能助手——这一举措或将重塑网络的呈现方式。该公司于周五宣布,将允许人工智能助手在用户网站上起草、编辑和发布内容,同时还能管理评论、更新和修正元数据,并通过标签和分类对内容进行整理。所有这些操作均通过一个界面进行控制,网站所有者只需使用自然语言命令说明其需求即可。凭借这些新功能,网站几乎可以完全由人工指导的AI代理来创建和运
相关专题推荐
健康养生 AI孕期伴侣:生成安全可靠的各孕期运动与营养计划
AI孕期伴侣:生成安全可靠的各孕期运动与营养计划

探索2026年最佳AI孕期伴侣,获取安全、个性化的各孕期运动与营养计划。获取经过精心筛选的高评分推荐,包含免费与付费版本的对比分析及真实用户反馈。借助XIX.AI的专家指南,开启您最健康的孕期之旅。立即探索。

10 个工具
xix.ai
写作 最佳免费且无法被识别的AI写作工具:将生硬的草稿转化为自然流畅、宛如人类撰写的文字
最佳免费且无法被识别的AI写作工具:将生硬的草稿转化为自然流畅、宛如人类撰写的文字

在 XIX.AI 探索 2026 年最佳免费且难以被察觉的 AI 写作工具。我们精心筛选的顶级推荐清单,助您将生硬的草稿转化为自然流畅、宛如人类撰写的文字。通过实际测试和每周更新的排行榜,对比免费与付费选项。立即解锁您的 AI 写作优势。

10 个工具
xix.ai
图像编辑 用于短剧故事板的AI艺术生成工具:幻想与都市浪漫题材的角色设计
用于短剧故事板的AI艺术生成工具:幻想与都市浪漫题材的角色设计

2026最新推荐:探索最适合用于短剧故事板制作的AI艺术生成工具。我们精心挑选了众多顶级工具,帮助您创作出引人入胜的幻想角色和都市浪漫角色。您可以对比免费与付费选项,查看实际测试结果,从而找到最适合自己的创意工具。XIX.AI还会每周更新排名并提供专家分析,让您立即开始将故事可视化呈现吧!

10 个工具
xix.ai
写作 最适合广播和播客使用的AI脚本编写工具:帮助您创作引人入胜的音频广告
最适合广播和播客使用的AI脚本编写工具:帮助您创作引人入胜的音频广告

在XIX.AI上,发现2026年最适合用于广播和播客制作的AI脚本工具。我们精心挑选的这些高评分工具能够提供强大的功能,帮助您快速制作出引人入胜的音频广告。通过实际测试和每周更新的排名,您可以了解免费选项与付费选项之间的差异。今天就释放您的创造力吧!

10 个工具
xix.ai
商业 最佳 AI 合同审查软件:即时发现法律漏洞与合规风险
最佳 AI 合同审查软件:即时发现法律漏洞与合规风险

在 XIX.AI 上探索 2026 年最佳 AI 合同审查软件。我们精心筛选的顶级榜单汇集了功能强大的工具,能够即时发现法律漏洞和合规风险。通过实际测试和每周更新的排名,对比免费与付费选项。找到能彻底改变游戏规则的解决方案,实现安全、高效的合同分析。立即探索这本权威指南。

10 个工具
xix.ai
动画创作 专为东华设计的AI动漫生成器:可用于创建网络小说角色及漫画头像
专为东华设计的AI动漫生成器:可用于创建网络小说角色及漫画头像

探索2026年最适合制作中文动画的人工智能工具。我们精心挑选的顶级列表中包含了各种强大的工具,能够帮助你创建出令人惊叹的网络小说角色和漫画头像。通过实际测试来对比免费选项和付费选项,找到最适合你的创作工具,今天就在XIX.AI上将你的故事变为现实吧。

10 个工具
xix.ai
评论 (1)
0/500
StevenMartin
StevenMartin 2026-01-01 20:30:56

So these advancements focus on perception and reasoning, huh? As someone who deals with automation at work, I find the 'AMI' goal both exciting and a bit unsettling. It feels like we're closing the loop between what a machine 'sees' and what it 'understands', which could revolutionize everything from logistics to creative tools. But honestly, I hope the focus stays on augmenting human ability rather than just chasing benchmarks that sound cool in research papers. The ethics of human-like perception need to be front and center. 🧠

OR