美團推出「LongCat-Next」AI 模型，具備統一的視覺與語音架構

首頁

新聞

2026-04-12

StephenMiller

112

美團推出「LongCat-Next」AI 模型，具備統一的視覺與語音架構

4月3日，MiTi團隊正式推出原生多模態大型模型 LongCat-Next。該模型突破了傳統的「語言基礎架構加外掛程式」模式，將圖像、音訊和文字轉換為統一的離散標記流。這使人工智慧能夠原生地「看見」和「聽見」物理世界，並像處理文字一樣處理這些輸入。

技術核心：DiNA 架構實現「模態內化」

為消除不同資料類型之間的隔閡，MiTi 開發了 DiNA（離散原生自迴歸）架構，實現了多模態建模的深度統一：

完整的模態統一：該模型針對文字、圖像和音訊使用相同的參數、注意力機制及損失函數。

理解與生成對稱性：在單一數學框架內，預測下一個文字標記即為「理解」，而預測圖像標記則為「生成」。這兩項過程在訓練期間展現出顯著的協同效益。

極致壓縮：透過 dNaViT 視覺分詞器，可處理任何解析度的輸入。藉由 8 層殘差向量量化過程，在像素空間中實現最高 28 倍的壓縮率，同時保留 OCR 和財務文件分析等任務所需的關鍵細節。

實證表現：離散建模並無固有限制

LongCat-Next 在多項基準測試中展現出超越專用模型的表現，有效挑戰了「離散化必然導致資訊損失」的傳統觀念：

細粒度感知：在密集文本場景的 OmniDocBench 測試中，其表現不僅超越 Qwen3-Omni，更勝過專用的視覺模型 Qwen3-VL。

視覺推理：在 MathVista 測試中取得 83.1 分的高分，展現出強健的產業級邏輯推理能力。

跨模態協作：在維持領先的語言能力（C-Eval 86.80）的同時，支援文字與語音的低延遲並行生成，並具備可自訂的語音克隆功能。

產業洞見：實體世界 AI 的基礎

大型語言模型長期以來都以文字為核心。LongCat-Next 的突破性之處在於，它證明了實體世界資訊可以像語言一樣被離散化並建模。當 AI 擁有統一的「母語」時，無論是使用工具、編寫程式碼，還是解讀複雜圖表，都能變得更加智能且直覺。

MiTi 現已將 LongCat-Next 模型與 dNaViT 詞法分析器開源。這套高效且潛力巨大的原生離散架構，為開發者提供了打造能感知並與現實世界互動的人工智慧所需的關鍵工具。

SpaceX的IPO申請檔案重點體現了其在衛星網際網路和人工智慧領域的發展雄心在為即將進行的IPO提交的S-1註冊檔案中，SpaceX公佈了一系列令人矚目的業務資料，這些資料凸顯了其在航空航天通訊和人工智慧領域的強大實力：Starlink使用者數突破1000萬：截至2026年第一季度，全球付費Starlink使用者數量已達到1030萬，這一數字在過去一年內翻了一番。這一增長充分證明了作為全球最大的近地軌道衛星星座，Starlink在寬頻和行動通訊領域的領先地位。目前該衛星網路由大約9600顆衛星組成，這些衛星佔在軌所有活躍衛星總數的65%。Grok與X人工智慧生態體系：通

阿里巴巴Tuhao M890上市，憑藉三重效能優勢開啟晶片-雲-模型-推理的全棧代理時代 2026年5月20日，在阿里雲峰會上，阿里雲宣佈完成了專為“智慧體時代”設計的全棧技術系統升級。這一變革重塑了整個技術體系——從底層晶片和雲平臺到模型與推理方案。此次升級使阿里雲成為一家能夠讓大量智慧體實現24/7連續執行的“AI工廠”，從而超越了單純為人類使用者提供服務的範疇。1. 核心基礎：騰迅振武M890晶片與超級節點伺服器此次升級的核心是騰迅推出的新一代AI晶片——振武M890，該晶片集訓練與推理功能於一體。效能提升：M890擁有144GB的記憶體，其效能是前代產品振武810E的三倍。

奔騰4的復興：這款已有20年曆史的CPU能夠執行Meta Llama 3大型模型最近，YouTube技術頻道Fully Buffered進行了一項令人印象深刻且極具挑戰性的實驗：他們成功地在2006年推出的Pentium 4 641處理器上執行了Meta最新的Llama 3.2 3B大型模型。這項測試迫使現代人工智慧技術與二十年前的硬體裝置進行了碰撞，不僅揭示了大語言模型的基本相容性限制，還引發了眾多觀眾的思考：在人工智慧時代，摩爾定律是如何以這種不同尋常的方式實現跨代際應用的。硬體考古學：將2006年的元件推向極限為了完成這項測試，Fully Buffered團隊重

相關專題推薦

視頻創作

播客創作者首選的頂尖 AI 影片製作工具：將音訊波形轉化為引人入勝的談話頭像影片

立即前往 XIX.AI，探索 2026 年最適合播客的頂尖 AI 影片製作工具。我們精心挑選並評選出的這份榜單，收錄了多款強大工具，能輕鬆將您的音訊轉化為引人入勝的談話頭像影片。透過實際測試與每週更新的排行榜，比較免費與付費選項的差異。立即解鎖您的視覺敘事優勢。

10 個工具

xix.ai

聊天機器人

利用這些角色扮演工具，打造屬於你的 AI 愛情故事

探索 2026 年最新、評價最高的 AI 角色扮演工具，打造身臨其境的敘事體驗。XIX.AI 精心整理的清單收錄了多款功能強大、能徹底改變遊戲規則的助手，助您釋放創意敘事潛能並增添情感深度。透過實際測試，比較免費與付費選項的差異。立即展開您的獨特旅程。

10 個工具

xix.ai

文字轉語音

獨立遊戲開發者必備的頂尖 AI 配音工具：為 RPG 與視覺小說節省配音時間

探索 2026 年最適合遊戲開發者的 AI 配音工具！XIX.AI 精心整理的清單收錄了備受好評、能徹底改變遊戲開發模式的解決方案，助您在角色扮演遊戲（RPG）和視覺小說（Visual Novel）的配音製作上節省時間與成本。探索免費與付費版本的比較、實際測試結果，以及每週更新的排行榜。立即找到最適合您的配音工具！

10 個工具

xix.ai

教育與學習

最佳人工智慧間隔重複學習工具：幫助醫學生和法律專業學生最佳化學習計劃

探索由 XIX.AI 精心挑選的 2026 年最佳 AI 間隔重複學習工具。我們推薦的這些極具創新性的工具能幫助醫學和法律專業的學生最佳化學習計劃，從而提高知識記憶效果。透過真實案例測試和每週更新的排名資訊，你可以瞭解免費選項與付費選項之間的差異。現在就開啟你的學習優勢吧！

10 個工具

xix.ai

視頻創作

最適合劇本創作與視覺敘事的 AI 文字轉影片平台

2026 年最新最佳 AI 文字轉影片平台：頂級劇本撰寫與視覺敘事工具。探索強大且顛覆傳統的解決方案，將您的文字轉化為引人入勝的影片。透過我們每週更新的排行榜與實際測試，比較免費與付費選項。找到最適合您的平台，提升創造力與生產力。立即探索 XIX.AI 精選推薦。

10 個工具

xix.ai

聊天機器人

AI多智慧體編排器：透過自然語言設計複雜的自動化工作流程

2026最新資訊：探索最優秀的人工智慧多智慧體協調工具，透過自然語言設計複雜的自動化工作流程。我們精心挑選的列表中包含了評分最高、功能強大的平臺，這些平臺能夠實現無縫的任務自動化和智慧化的流程管理。對比免費與付費選項，並瞭解實際應用中的效果。藉助XIX.AI每週更新的專家排名，讓你在人工智慧領域取得領先優勢。

10 個工具

xix.ai

評論 (1)

0/500

請登錄後再操作

CharlesHernández

2026-05-17 02:00:15

Interesting approach! Unifying vision and speech into a single stream sounds like a step towards more 'native' multimodal understanding, unlike just bolting on separate modules. Makes me wonder how this affects real-time processing efficiency for delivery robots or AR navigation apps. Could be a game-changer for Meituan's on-demand services if it works smoothly in the wild. 🧐

頭號新聞

AI Builder和Power Automate革新文件摘要 AI寄主Notebooklm播客現已上中國發布國家級人形機器人與具身智能標準 Ramp 數據顯示，企業對 AI 的採納已進入停滯期 Bing圖像創作者教程：AI藝術生成指南學習使用您的聲音創建AI音樂：逐步Suno教程 iMyFone MagicMic：實時AI變聲器評測與教程 2025頂級AI影片生成器：Pika Labs與其他對比 Embodied Intelligence 公布首項業界標準，以遏止無序擴張 DeepSeek V4 崛起為多模態人工智慧的變革者

精選