美团发布LongCat-Next人工智能模型，采用统一的视觉与语音架构

首页

新闻

2026-04-12

StephenMiller

112

美团发布LongCat-Next人工智能模型，采用统一的视觉与语音架构

4月3日，MiTi团队正式发布了原生多模态大模型LongCat-Next。该模型突破了传统的“语言基础模型加插件”模式，将图像、音频和文本转换为统一的离散令牌流。这使得AI能够原生地“看见”和“听见”物理世界，并像处理文本一样处理这些输入。

技术核心：DiNA架构实现“模态内化”

为消除不同数据类型之间的壁垒，MiTi开发了DiNA（离散原生自回归）架构，实现了多模态建模的深度统一：

完整的模态统一：该模型对文本、图像和音频使用相同的参数、注意力机制和损失函数。

理解与生成对称性：在单一数学框架内，预测下一个文本令牌即为“理解”，而预测图像令牌即为“生成”。这两个过程在训练中展现出显著的协同效应。

极致压缩：借助 dNaViT 视觉分词器，该模型可处理任意分辨率的输入。通过 8 层残差向量量化过程，在像素空间中实现高达 28 倍的压缩率，同时保留了 OCR 和金融文档分析等任务所需的关键细节。

实证性能：离散建模不存在固有局限

LongCat-Next 在多个基准测试中表现优于专用模型，有力地挑战了“离散化必然导致信息丢失”这一传统观念：

精细感知：在密集文本场景的 OmniDocBench 测试中，其表现不仅优于 Qwen3-Omni，甚至超越了专用视觉模型 Qwen3-VL。

视觉推理：在 MathVista 测试中取得 83.1 分的高分，展现出稳健的工业级逻辑推理能力。

跨模态协作：在保持领先的语言能力（C-Eval 86.80）的同时，支持文本与语音的低延迟并行生成，并具备可定制的语音克隆功能。

行业洞见：物理世界AI的基石

大型语言模型长期以来一直以文本为中心。LongCat-Next的突破性在于，它证明了物理世界信息可以像语言一样被离散化和建模。当人工智能拥有统一的“母语”时，它在使用工具、编写代码或解读复杂图表时将变得更加智能和直观。

MiTi现已开源LongCat-Next模型及dNaViT分词器。这一高效且潜力巨大的原生离散架构，为开发者提供了构建能够感知并交互于现实世界的AI所必需的工具。

阿里巴巴Tuhao M890上市，凭借三重性能优势开启芯片-云-模型-推理的全栈代理时代 2026年5月20日，在阿里云峰会上，阿里云宣布完成了专为“智能体时代”设计的全栈技术系统升级。这一变革重塑了整个技术体系——从底层芯片和云平台到模型与推理方案。此次升级使阿里云成为一家能够让大量智能体实现24/7连续运行的“AI工厂”，从而超越了单纯为人类用户提供服务的范畴。1. 核心基础：腾迅振武M890芯片与超级节点服务器此次升级的核心是腾迅推出的新一代AI芯片——振武M890，该芯片集训练与推理功能于一体。性能提升：M890拥有144GB的内存，其性能是前代产品振武810E的三倍。

奔腾4的复兴：这款已有20年历史的CPU能够运行Meta Llama 3大型模型最近，YouTube技术频道Fully Buffered进行了一项令人印象深刻且极具挑战性的实验：他们成功地在2006年推出的Pentium 4 641处理器上运行了Meta最新的Llama 3.2 3B大型模型。这项测试迫使现代人工智能技术与二十年前的硬件设备进行了碰撞，不仅揭示了大语言模型的基本兼容性限制，还引发了众多观众的思考：在人工智能时代，摩尔定律是如何以这种不同寻常的方式实现跨代际应用的。硬件考古学：将2006年的组件推向极限为了完成这项测试，Fully Buffered团队重

杭州市上城区推出了浙江省首个基于AIGC技术的视听产业“黄金十项措施”，并设立了50亿规模的产业发展基金。 16日，AIGC视听产业创新生态大会在杭州上城区举行。会议期间，该省推出了针对AIGC视听产业的的首项专项政策——“黄金十项措施”。这项政策涵盖了技术创新、成本降低、内容质量提升、人才培养以及全球发展等多个方面。这些政策提供了强有力的激励措施。对于技术创新领域，凡是专注于AIGC工具、AI虚拟拍摄和AI交互叙事系统的研究开发项目，均可获得最高300万元的补贴。而对于高质量的内容创作，那些在年内通过知名平台发布的AIGC视听作品，每部可获得最高30万元的奖励，每家企业的年度奖励总额上限为100万

相关专题推荐

聊天机器人

使用这些角色扮演工具，创作属于你的AI爱情故事

探索2026年最新、最受好评的AI角色扮演工具，打造身临其境的叙事体验。XIX.AI精心整理的这份清单汇集了功能强大、颠覆传统的助手，助您释放创意叙事潜力，挖掘情感深度。通过实际测试对比免费与付费选项。立即开启您的独特旅程。

10 个工具

xix.ai

文字转语音

独立游戏开发者必备的顶级AI配音工具：为RPG和视觉小说节省配音时间

探索2026年最适合游戏开发者的AI配音工具！XIX.AI精心整理的这份清单汇集了广受好评、能彻底改变游戏开发格局的解决方案，助您在角色扮演游戏（RPG）和视觉小说的配音制作中节省时间和成本。了解免费与付费版本的对比分析、实际测试结果以及每周更新的排行榜。立即找到最适合您的配音工具吧！

10 个工具

xix.ai

教育与学习

最佳人工智能间隔重复学习工具：帮助医学生和法律专业学生优化学习计划

探索由 XIX.AI 精心挑选的 2026 年最佳 AI 间隔重复学习工具。我们推荐的这些极具创新性的工具能帮助医学和法律专业的学生优化学习计划，从而提高知识记忆效果。通过真实案例测试和每周更新的排名信息，你可以了解免费选项与付费选项之间的差异。现在就开启你的学习优势吧！

10 个工具

xix.ai

视频创作

最适合剧本创作和视觉叙事的AI文本转视频平台

2026年最新最佳AI文字转视频平台：备受好评的剧本创作与视觉叙事工具。探索这些功能强大、颠覆传统的解决方案，将您的文字转化为引人入胜的视频。通过我们每周更新的排行榜和实际测试，对比免费与付费选项。找到最适合您的平台，激发创意，提升效率。立即访问XIX.AI，探索精心精选的优质平台。

10 个工具

xix.ai

聊天机器人

AI多智能体编排器：通过自然语言设计复杂的自动化工作流程

2026最新资讯：探索最优秀的人工智能多智能体协调工具，通过自然语言设计复杂的自动化工作流程。我们精心挑选的列表中包含了评分最高、功能强大的平台，这些平台能够实现无缝的任务自动化和智能化的流程管理。对比免费与付费选项，并了解实际应用中的效果。借助XIX.AI每周更新的专家排名，让你在人工智能领域取得领先优势。

10 个工具

xix.ai

图像编辑

最佳AI降噪软件：消除低光夜间摄影中的颗粒感和伪影

探索2026年最适合低光夜间摄影的AI降噪软件。我们精心挑选了最受欢迎的免费及付费工具，通过实际测试并每周更新排名来进行对比。轻松去除图像中的颗粒感与瑕疵，在XIX.AI上释放你的AI潜力。

10 个工具

xix.ai

0/500

请登录后再操作

CharlesHernández

2026-05-17 02:00:15

Interesting approach! Unifying vision and speech into a single stream sounds like a step towards more 'native' multimodal understanding, unlike just bolting on separate modules. Makes me wonder how this affects real-time processing efficiency for delivery robots or AR navigation apps. Could be a game-changer for Meituan's on-demand services if it works smoothly in the wild. 🧐

头条新闻

AI Builder和Power Automate革新文档摘要 AI寄主Notebooklm播客现已上中国发布人形机器人及具身智能国家标准 Ramp 数据显示企业人工智能应用趋于平稳 Bing图像创建者教程：AI艺术生成指南学习使用您的声音创建AI音乐：逐步Suno教程 iMyFone MagicMic：实时AI变声器评测与教程 2025顶级AI视频生成器：Pika Labs与其他对比 Embodied Intelligence 发布首个行业标准，旨在遏制无序增长 DeepSeek V4 作为多模态人工智能变革者横空出世

精选