美团发布LongCat-Next人工智能模型,采用统一的视觉与语音架构

4月3日,MiTi团队正式发布了原生多模态大模型LongCat-Next。该模型突破了传统的“语言基础模型加插件”模式,将图像、音频和文本转换为统一的离散令牌流。这使得AI能够原生地“看见”和“听见”物理世界,并像处理文本一样处理这些输入。
技术核心:DiNA架构实现“模态内化”
为消除不同数据类型之间的壁垒,MiTi开发了DiNA(离散原生自回归)架构,实现了多模态建模的深度统一:
完整的模态统一:该模型对文本、图像和音频使用相同的参数、注意力机制和损失函数。
理解与生成对称性:在单一数学框架内,预测下一个文本令牌即为“理解”,而预测图像令牌即为“生成”。这两个过程在训练中展现出显著的协同效应。
极致压缩:借助 dNaViT 视觉分词器,该模型可处理任意分辨率的输入。通过 8 层残差向量量化过程,在像素空间中实现高达 28 倍的压缩率,同时保留了 OCR 和金融文档分析等任务所需的关键细节。
实证性能:离散建模不存在固有局限
LongCat-Next 在多个基准测试中表现优于专用模型,有力地挑战了“离散化必然导致信息丢失”这一传统观念:
精细感知:在密集文本场景的 OmniDocBench 测试中,其表现不仅优于 Qwen3-Omni,甚至超越了专用视觉模型 Qwen3-VL。
视觉推理:在 MathVista 测试中取得 83.1 分的高分,展现出稳健的工业级逻辑推理能力。
跨模态协作:在保持领先的语言能力(C-Eval 86.80)的同时,支持文本与语音的低延迟并行生成,并具备可定制的语音克隆功能。
行业洞见:物理世界AI的基石
大型语言模型长期以来一直以文本为中心。LongCat-Next的突破性在于,它证明了物理世界信息可以像语言一样被离散化和建模。当人工智能拥有统一的“母语”时,它在使用工具、编写代码或解读复杂图表时将变得更加智能和直观。
MiTi现已开源LongCat-Next模型及dNaViT分词器。这一高效且潜力巨大的原生离散架构,为开发者提供了构建能够感知并交互于现实世界的AI所必需的工具。
相关文章
阿里巴巴Tuhao M890上市,凭借三重性能优势开启芯片-云-模型-推理的全栈代理时代
2026年5月20日,在阿里云峰会上,阿里云宣布完成了专为“智能体时代”设计的全栈技术系统升级。这一变革重塑了整个技术体系——从底层芯片和云平台到模型与推理方案。此次升级使阿里云成为一家能够让大量智能体实现24/7连续运行的“AI工厂”,从而超越了单纯为人类用户提供服务的范畴。1. 核心基础:腾迅振武M890芯片与超级节点服务器此次升级的核心是腾迅推出的新一代AI芯片——振武M890,该芯片集训练与推理功能于一体。性能提升:M890拥有144GB的内存,其性能是前代产品振武810E的三倍。
奔腾4的复兴:这款已有20年历史的CPU能够运行Meta Llama 3大型模型
最近,YouTube技术频道Fully Buffered进行了一项令人印象深刻且极具挑战性的实验:他们成功地在2006年推出的Pentium 4 641处理器上运行了Meta最新的Llama 3.2 3B大型模型。这项测试迫使现代人工智能技术与二十年前的硬件设备进行了碰撞,不仅揭示了大语言模型的基本兼容性限制,还引发了众多观众的思考:在人工智能时代,摩尔定律是如何以这种不同寻常的方式实现跨代际应用的。硬件考古学:将2006年的组件推向极限为了完成这项测试,Fully Buffered团队重
杭州市上城区推出了浙江省首个基于AIGC技术的视听产业“黄金十项措施”,并设立了50亿规模的产业发展基金。
16日,AIGC视听产业创新生态大会在杭州上城区举行。会议期间,该省推出了针对AIGC视听产业的的首项专项政策——“黄金十项措施”。这项政策涵盖了技术创新、成本降低、内容质量提升、人才培养以及全球发展等多个方面。这些政策提供了强有力的激励措施。对于技术创新领域,凡是专注于AIGC工具、AI虚拟拍摄和AI交互叙事系统的研究开发项目,均可获得最高300万元的补贴。而对于高质量的内容创作,那些在年内通过知名平台发布的AIGC视听作品,每部可获得最高30万元的奖励,每家企业的年度奖励总额上限为100万
相关专题推荐
评论 (1)
0/500
Interesting approach! Unifying vision and speech into a single stream sounds like a step towards more 'native' multimodal understanding, unlike just bolting on separate modules. Makes me wonder how this affects real-time processing efficiency for delivery robots or AR navigation apps. Could be a game-changer for Meituan's on-demand services if it works smoothly in the wild. 🧐

4月3日,MiTi团队正式发布了原生多模态大模型LongCat-Next。该模型突破了传统的“语言基础模型加插件”模式,将图像、音频和文本转换为统一的离散令牌流。这使得AI能够原生地“看见”和“听见”物理世界,并像处理文本一样处理这些输入。
技术核心:DiNA架构实现“模态内化”
为消除不同数据类型之间的壁垒,MiTi开发了DiNA(离散原生自回归)架构,实现了多模态建模的深度统一:
完整的模态统一:该模型对文本、图像和音频使用相同的参数、注意力机制和损失函数。
理解与生成对称性:在单一数学框架内,预测下一个文本令牌即为“理解”,而预测图像令牌即为“生成”。这两个过程在训练中展现出显著的协同效应。
极致压缩:借助 dNaViT 视觉分词器,该模型可处理任意分辨率的输入。通过 8 层残差向量量化过程,在像素空间中实现高达 28 倍的压缩率,同时保留了 OCR 和金融文档分析等任务所需的关键细节。
实证性能:离散建模不存在固有局限
LongCat-Next 在多个基准测试中表现优于专用模型,有力地挑战了“离散化必然导致信息丢失”这一传统观念:
精细感知:在密集文本场景的 OmniDocBench 测试中,其表现不仅优于 Qwen3-Omni,甚至超越了专用视觉模型 Qwen3-VL。
视觉推理:在 MathVista 测试中取得 83.1 分的高分,展现出稳健的工业级逻辑推理能力。
跨模态协作:在保持领先的语言能力(C-Eval 86.80)的同时,支持文本与语音的低延迟并行生成,并具备可定制的语音克隆功能。
行业洞见:物理世界AI的基石
大型语言模型长期以来一直以文本为中心。LongCat-Next的突破性在于,它证明了物理世界信息可以像语言一样被离散化和建模。当人工智能拥有统一的“母语”时,它在使用工具、编写代码或解读复杂图表时将变得更加智能和直观。
MiTi现已开源LongCat-Next模型及dNaViT分词器。这一高效且潜力巨大的原生离散架构,为开发者提供了构建能够感知并交互于现实世界的AI所必需的工具。
阿里巴巴Tuhao M890上市,凭借三重性能优势开启芯片-云-模型-推理的全栈代理时代
2026年5月20日,在阿里云峰会上,阿里云宣布完成了专为“智能体时代”设计的全栈技术系统升级。这一变革重塑了整个技术体系——从底层芯片和云平台到模型与推理方案。此次升级使阿里云成为一家能够让大量智能体实现24/7连续运行的“AI工厂”,从而超越了单纯为人类用户提供服务的范畴。1. 核心基础:腾迅振武M890芯片与超级节点服务器此次升级的核心是腾迅推出的新一代AI芯片——振武M890,该芯片集训练与推理功能于一体。性能提升:M890拥有144GB的内存,其性能是前代产品振武810E的三倍。
奔腾4的复兴:这款已有20年历史的CPU能够运行Meta Llama 3大型模型
最近,YouTube技术频道Fully Buffered进行了一项令人印象深刻且极具挑战性的实验:他们成功地在2006年推出的Pentium 4 641处理器上运行了Meta最新的Llama 3.2 3B大型模型。这项测试迫使现代人工智能技术与二十年前的硬件设备进行了碰撞,不仅揭示了大语言模型的基本兼容性限制,还引发了众多观众的思考:在人工智能时代,摩尔定律是如何以这种不同寻常的方式实现跨代际应用的。硬件考古学:将2006年的组件推向极限为了完成这项测试,Fully Buffered团队重
杭州市上城区推出了浙江省首个基于AIGC技术的视听产业“黄金十项措施”,并设立了50亿规模的产业发展基金。
16日,AIGC视听产业创新生态大会在杭州上城区举行。会议期间,该省推出了针对AIGC视听产业的的首项专项政策——“黄金十项措施”。这项政策涵盖了技术创新、成本降低、内容质量提升、人才培养以及全球发展等多个方面。这些政策提供了强有力的激励措施。对于技术创新领域,凡是专注于AIGC工具、AI虚拟拍摄和AI交互叙事系统的研究开发项目,均可获得最高300万元的补贴。而对于高质量的内容创作,那些在年内通过知名平台发布的AIGC视听作品,每部可获得最高30万元的奖励,每家企业的年度奖励总额上限为100万
Interesting approach! Unifying vision and speech into a single stream sounds like a step towards more 'native' multimodal understanding, unlike just bolting on separate modules. Makes me wonder how this affects real-time processing efficiency for delivery robots or AR navigation apps. Could be a game-changer for Meituan's on-demand services if it works smoothly in the wild. 🧐





首页






