美團推出「LongCat-Next」AI 模型,具備統一的視覺與語音架構

4月3日,MiTi團隊正式推出原生多模態大型模型 LongCat-Next。該模型突破了傳統的「語言基礎架構加外掛程式」模式,將圖像、音訊和文字轉換為統一的離散標記流。這使人工智慧能夠原生地「看見」和「聽見」物理世界,並像處理文字一樣處理這些輸入。
技術核心:DiNA 架構實現「模態內化」
為消除不同資料類型之間的隔閡,MiTi 開發了 DiNA(離散原生自迴歸)架構,實現了多模態建模的深度統一:
完整的模態統一:該模型針對文字、圖像和音訊使用相同的參數、注意力機制及損失函數。
理解與生成對稱性:在單一數學框架內,預測下一個文字標記即為「理解」,而預測圖像標記則為「生成」。這兩項過程在訓練期間展現出顯著的協同效益。
極致壓縮:透過 dNaViT 視覺分詞器,可處理任何解析度的輸入。藉由 8 層殘差向量量化過程,在像素空間中實現最高 28 倍的壓縮率,同時保留 OCR 和財務文件分析等任務所需的關鍵細節。
實證表現:離散建模並無固有限制
LongCat-Next 在多項基準測試中展現出超越專用模型的表現,有效挑戰了「離散化必然導致資訊損失」的傳統觀念:
細粒度感知:在密集文本場景的 OmniDocBench 測試中,其表現不僅超越 Qwen3-Omni,更勝過專用的視覺模型 Qwen3-VL。
視覺推理:在 MathVista 測試中取得 83.1 分的高分,展現出強健的產業級邏輯推理能力。
跨模態協作:在維持領先的語言能力(C-Eval 86.80)的同時,支援文字與語音的低延遲並行生成,並具備可自訂的語音克隆功能。
產業洞見:實體世界 AI 的基礎
大型語言模型長期以來都以文字為核心。LongCat-Next 的突破性之處在於,它證明了實體世界資訊可以像語言一樣被離散化並建模。當 AI 擁有統一的「母語」時,無論是使用工具、編寫程式碼,還是解讀複雜圖表,都能變得更加智能且直覺。
MiTi 現已將 LongCat-Next 模型與 dNaViT 詞法分析器開源。這套高效且潛力巨大的原生離散架構,為開發者提供了打造能感知並與現實世界互動的人工智慧所需的關鍵工具。
相關文章
SpaceX的IPO申請檔案重點體現了其在衛星網際網路和人工智慧領域的發展雄心
在為即將進行的IPO提交的S-1註冊檔案中,SpaceX公佈了一系列令人矚目的業務資料,這些資料凸顯了其在航空航天通訊和人工智慧領域的強大實力:Starlink使用者數突破1000萬:截至2026年第一季度,全球付費Starlink使用者數量已達到1030萬,這一數字在過去一年內翻了一番。這一增長充分證明了作為全球最大的近地軌道衛星星座,Starlink在寬頻和行動通訊領域的領先地位。目前該衛星網路由大約9600顆衛星組成,這些衛星佔在軌所有活躍衛星總數的65%。Grok與X人工智慧生態體系:通
阿里巴巴Tuhao M890上市,憑藉三重效能優勢開啟晶片-雲-模型-推理的全棧代理時代
2026年5月20日,在阿里雲峰會上,阿里雲宣佈完成了專為“智慧體時代”設計的全棧技術系統升級。這一變革重塑了整個技術體系——從底層晶片和雲平臺到模型與推理方案。此次升級使阿里雲成為一家能夠讓大量智慧體實現24/7連續執行的“AI工廠”,從而超越了單純為人類使用者提供服務的範疇。1. 核心基礎:騰迅振武M890晶片與超級節點伺服器此次升級的核心是騰迅推出的新一代AI晶片——振武M890,該晶片集訓練與推理功能於一體。效能提升:M890擁有144GB的記憶體,其效能是前代產品振武810E的三倍。
奔騰4的復興:這款已有20年曆史的CPU能夠執行Meta Llama 3大型模型
最近,YouTube技術頻道Fully Buffered進行了一項令人印象深刻且極具挑戰性的實驗:他們成功地在2006年推出的Pentium 4 641處理器上執行了Meta最新的Llama 3.2 3B大型模型。這項測試迫使現代人工智慧技術與二十年前的硬體裝置進行了碰撞,不僅揭示了大語言模型的基本相容性限制,還引發了眾多觀眾的思考:在人工智慧時代,摩爾定律是如何以這種不同尋常的方式實現跨代際應用的。硬體考古學:將2006年的元件推向極限為了完成這項測試,Fully Buffered團隊重
相關專題推薦
評論 (1)
0/500
Interesting approach! Unifying vision and speech into a single stream sounds like a step towards more 'native' multimodal understanding, unlike just bolting on separate modules. Makes me wonder how this affects real-time processing efficiency for delivery robots or AR navigation apps. Could be a game-changer for Meituan's on-demand services if it works smoothly in the wild. 🧐

4月3日,MiTi團隊正式推出原生多模態大型模型 LongCat-Next。該模型突破了傳統的「語言基礎架構加外掛程式」模式,將圖像、音訊和文字轉換為統一的離散標記流。這使人工智慧能夠原生地「看見」和「聽見」物理世界,並像處理文字一樣處理這些輸入。
技術核心:DiNA 架構實現「模態內化」
為消除不同資料類型之間的隔閡,MiTi 開發了 DiNA(離散原生自迴歸)架構,實現了多模態建模的深度統一:
完整的模態統一:該模型針對文字、圖像和音訊使用相同的參數、注意力機制及損失函數。
理解與生成對稱性:在單一數學框架內,預測下一個文字標記即為「理解」,而預測圖像標記則為「生成」。這兩項過程在訓練期間展現出顯著的協同效益。
極致壓縮:透過 dNaViT 視覺分詞器,可處理任何解析度的輸入。藉由 8 層殘差向量量化過程,在像素空間中實現最高 28 倍的壓縮率,同時保留 OCR 和財務文件分析等任務所需的關鍵細節。
實證表現:離散建模並無固有限制
LongCat-Next 在多項基準測試中展現出超越專用模型的表現,有效挑戰了「離散化必然導致資訊損失」的傳統觀念:
細粒度感知:在密集文本場景的 OmniDocBench 測試中,其表現不僅超越 Qwen3-Omni,更勝過專用的視覺模型 Qwen3-VL。
視覺推理:在 MathVista 測試中取得 83.1 分的高分,展現出強健的產業級邏輯推理能力。
跨模態協作:在維持領先的語言能力(C-Eval 86.80)的同時,支援文字與語音的低延遲並行生成,並具備可自訂的語音克隆功能。
產業洞見:實體世界 AI 的基礎
大型語言模型長期以來都以文字為核心。LongCat-Next 的突破性之處在於,它證明了實體世界資訊可以像語言一樣被離散化並建模。當 AI 擁有統一的「母語」時,無論是使用工具、編寫程式碼,還是解讀複雜圖表,都能變得更加智能且直覺。
MiTi 現已將 LongCat-Next 模型與 dNaViT 詞法分析器開源。這套高效且潛力巨大的原生離散架構,為開發者提供了打造能感知並與現實世界互動的人工智慧所需的關鍵工具。
SpaceX的IPO申請檔案重點體現了其在衛星網際網路和人工智慧領域的發展雄心
在為即將進行的IPO提交的S-1註冊檔案中,SpaceX公佈了一系列令人矚目的業務資料,這些資料凸顯了其在航空航天通訊和人工智慧領域的強大實力:Starlink使用者數突破1000萬:截至2026年第一季度,全球付費Starlink使用者數量已達到1030萬,這一數字在過去一年內翻了一番。這一增長充分證明了作為全球最大的近地軌道衛星星座,Starlink在寬頻和行動通訊領域的領先地位。目前該衛星網路由大約9600顆衛星組成,這些衛星佔在軌所有活躍衛星總數的65%。Grok與X人工智慧生態體系:通
阿里巴巴Tuhao M890上市,憑藉三重效能優勢開啟晶片-雲-模型-推理的全棧代理時代
2026年5月20日,在阿里雲峰會上,阿里雲宣佈完成了專為“智慧體時代”設計的全棧技術系統升級。這一變革重塑了整個技術體系——從底層晶片和雲平臺到模型與推理方案。此次升級使阿里雲成為一家能夠讓大量智慧體實現24/7連續執行的“AI工廠”,從而超越了單純為人類使用者提供服務的範疇。1. 核心基礎:騰迅振武M890晶片與超級節點伺服器此次升級的核心是騰迅推出的新一代AI晶片——振武M890,該晶片集訓練與推理功能於一體。效能提升:M890擁有144GB的記憶體,其效能是前代產品振武810E的三倍。
奔騰4的復興:這款已有20年曆史的CPU能夠執行Meta Llama 3大型模型
最近,YouTube技術頻道Fully Buffered進行了一項令人印象深刻且極具挑戰性的實驗:他們成功地在2006年推出的Pentium 4 641處理器上執行了Meta最新的Llama 3.2 3B大型模型。這項測試迫使現代人工智慧技術與二十年前的硬體裝置進行了碰撞,不僅揭示了大語言模型的基本相容性限制,還引發了眾多觀眾的思考:在人工智慧時代,摩爾定律是如何以這種不同尋常的方式實現跨代際應用的。硬體考古學:將2006年的元件推向極限為了完成這項測試,Fully Buffered團隊重
Interesting approach! Unifying vision and speech into a single stream sounds like a step towards more 'native' multimodal understanding, unlike just bolting on separate modules. Makes me wonder how this affects real-time processing efficiency for delivery robots or AR navigation apps. Could be a game-changer for Meituan's on-demand services if it works smoothly in the wild. 🧐





首頁






