美団(Meituan)、視覚と音声のアーキテクチャを統合したAIモデル「LongCat-Next」を発表

4月3日、MiTiチームはネイティブ型マルチモーダル大規模モデル「LongCat-Next」を正式にリリースしました。このモデルは、画像、音声、テキストを統一された離散トークンのストリームに変換することで、従来の「言語基盤+プラグイン」というアプローチを超越しています。これにより、AIは物理世界をネイティブに「見る」ことや「聞く」ことが可能となり、テキストと同様にこれらの入力を処理できるようになります。
技術的核:DiNAアーキテクチャが実現する「モダリティの内部化」
異なるデータタイプ間の障壁を取り除くため、MiTiはDiNA(Discrete Native Autoregressive)アーキテクチャを開発し、マルチモーダルモデリングにおける深い統合を実現しました:
完全なモダリティ統合:このモデルは、テキスト、画像、音声に対して同一のパラメータ、アテンション機構、損失関数を使用します。
理解と生成の対称性:単一の数学的枠組みにおいて、次のテキストトークンの予測は「理解」を構成し、画像トークンの予測は「生成」を構成します。両プロセスは、トレーニング中に著しい相乗効果を発揮します。
極端な圧縮:dNaViTビジュアルトークナイザーを活用し、あらゆる解像度の入力を処理します。8層の残差ベクトル量子化プロセスを通じて、OCRや金融文書分析などのタスクに必要な重要な詳細情報を保持しつつ、ピクセル空間で最大28倍の圧縮を実現します。
実証的な性能:離散モデリングに固有の限界はない
LongCat-Nextは、複数のベンチマークにおいて専用モデルを上回る性能を発揮し、「離散化は必然的に情報損失を招く」という従来の通念に効果的に異議を唱えています:
きめ細かな認識:高密度テキストシナリオ向けのOmniDocBenchにおいて、Qwen3-Omniだけでなく、専門のビジョンモデルであるQwen3-VLをも上回る性能を発揮しました。
視覚的推論:MathVistaで83.1という高いスコアを記録し、堅牢で産業レベルの論理的推論能力を実証しました。
クロスモーダル連携:最先端の言語能力(C-Eval 86.80)を維持しつつ、テキストと音声の低遅延並列生成に加え、カスタマイズ可能なボイスクローニングをサポートします。
業界インサイト:実世界AIの基盤
大規模言語モデルは、長らくテキスト中心でした。LongCat-Nextの画期的な点は、物理世界の情報も言語と同様に離散化・モデル化できることを実証したことです。AIが統一された「ネイティブ言語」を保有すれば、ツールの使用、コードの記述、複雑な図表の解釈において、より知的かつ直感的な動作が可能になります。
MiTiは現在、LongCat-NextモデルとdNaViTトークナイザーをオープンソース化しています。この効率的で可能性に満ちたネイティブ離散アーキテクチャは、現実世界を認識し、それと対話できるAIを構築するために、開発者に不可欠なツールを提供します。
関連記事
MIIT、AIモデルコンテキストプロトコルを含む121の業界標準について一般の意見を求める
中国工業情報化省は、「人工知能セキュリティガバナンスモデルコンテキストプロトコルのアプリケーションセキュリティ要求」を含む121件の産業標準化プロジェクトについて、一般からの意見を求める通知を正式に発表しました。この公告は、中国がAIの基盤となる標準や安全監督枠組みを確立する取り組みにおいて重要なマイルストーンとなります。一般からの意見募集期間中は、モデルコンテキストプロトコルのアプリケーションセキュリティに焦点を当て、標準化された技術仕様を通じて、マルチモーダルインタラクション、長文処理、クロ
オープンAI、米国防総省と提携 ChatGPTのアンインストール件数が295%増加
公衆の怒り:OpenAIの軍事提携が「アンインストールブーム」を引き起こす最近、AI分野のリーダーであるOpenAIは、米国国防総省との深い協力関係を発表し、自社のAIモデルを極秘の軍事ネットワークに統合するとした。このニュースは米国内で広範なユーザーからの反発を招き、「ChatGPTボイコット」運動が盛り上がっている。市場分析会社Sensor Towerによると、2026年2月28日にOpenAIが正式にこの協力関係を発表した当日、米国市場におけるChatGPTモバイルアプリのアンインスト
OpenAIが「Sites」機能をリリース、テキストベースのウェブサイトにより「ノーコード」時代の幕を閉じる
OpenAIは、ソフトウェアエンジニアリング向けAI「Codex」の新機能「Sites」を発表しました。現在プレビュー版として提供されており、有料のBusinessおよびEnterpriseプランの加入者のみが利用可能です。この機能は、Webおよびアプリケーション開発における従来の障壁を取り除くことを目的としています。Sitesの本質は、抽象的なアイデアを実際に使えるツールへと変換するプラットフォ
関連特集おすすめ
コメント (1)
0/500
Interesting approach! Unifying vision and speech into a single stream sounds like a step towards more 'native' multimodal understanding, unlike just bolting on separate modules. Makes me wonder how this affects real-time processing efficiency for delivery robots or AR navigation apps. Could be a game-changer for Meituan's on-demand services if it works smoothly in the wild. 🧐

4月3日、MiTiチームはネイティブ型マルチモーダル大規模モデル「LongCat-Next」を正式にリリースしました。このモデルは、画像、音声、テキストを統一された離散トークンのストリームに変換することで、従来の「言語基盤+プラグイン」というアプローチを超越しています。これにより、AIは物理世界をネイティブに「見る」ことや「聞く」ことが可能となり、テキストと同様にこれらの入力を処理できるようになります。
技術的核:DiNAアーキテクチャが実現する「モダリティの内部化」
異なるデータタイプ間の障壁を取り除くため、MiTiはDiNA(Discrete Native Autoregressive)アーキテクチャを開発し、マルチモーダルモデリングにおける深い統合を実現しました:
完全なモダリティ統合:このモデルは、テキスト、画像、音声に対して同一のパラメータ、アテンション機構、損失関数を使用します。
理解と生成の対称性:単一の数学的枠組みにおいて、次のテキストトークンの予測は「理解」を構成し、画像トークンの予測は「生成」を構成します。両プロセスは、トレーニング中に著しい相乗効果を発揮します。
極端な圧縮:dNaViTビジュアルトークナイザーを活用し、あらゆる解像度の入力を処理します。8層の残差ベクトル量子化プロセスを通じて、OCRや金融文書分析などのタスクに必要な重要な詳細情報を保持しつつ、ピクセル空間で最大28倍の圧縮を実現します。
実証的な性能:離散モデリングに固有の限界はない
LongCat-Nextは、複数のベンチマークにおいて専用モデルを上回る性能を発揮し、「離散化は必然的に情報損失を招く」という従来の通念に効果的に異議を唱えています:
きめ細かな認識:高密度テキストシナリオ向けのOmniDocBenchにおいて、Qwen3-Omniだけでなく、専門のビジョンモデルであるQwen3-VLをも上回る性能を発揮しました。
視覚的推論:MathVistaで83.1という高いスコアを記録し、堅牢で産業レベルの論理的推論能力を実証しました。
クロスモーダル連携:最先端の言語能力(C-Eval 86.80)を維持しつつ、テキストと音声の低遅延並列生成に加え、カスタマイズ可能なボイスクローニングをサポートします。
業界インサイト:実世界AIの基盤
大規模言語モデルは、長らくテキスト中心でした。LongCat-Nextの画期的な点は、物理世界の情報も言語と同様に離散化・モデル化できることを実証したことです。AIが統一された「ネイティブ言語」を保有すれば、ツールの使用、コードの記述、複雑な図表の解釈において、より知的かつ直感的な動作が可能になります。
MiTiは現在、LongCat-NextモデルとdNaViTトークナイザーをオープンソース化しています。この効率的で可能性に満ちたネイティブ離散アーキテクチャは、現実世界を認識し、それと対話できるAIを構築するために、開発者に不可欠なツールを提供します。
MIIT、AIモデルコンテキストプロトコルを含む121の業界標準について一般の意見を求める
中国工業情報化省は、「人工知能セキュリティガバナンスモデルコンテキストプロトコルのアプリケーションセキュリティ要求」を含む121件の産業標準化プロジェクトについて、一般からの意見を求める通知を正式に発表しました。この公告は、中国がAIの基盤となる標準や安全監督枠組みを確立する取り組みにおいて重要なマイルストーンとなります。一般からの意見募集期間中は、モデルコンテキストプロトコルのアプリケーションセキュリティに焦点を当て、標準化された技術仕様を通じて、マルチモーダルインタラクション、長文処理、クロ
オープンAI、米国防総省と提携 ChatGPTのアンインストール件数が295%増加
公衆の怒り:OpenAIの軍事提携が「アンインストールブーム」を引き起こす最近、AI分野のリーダーであるOpenAIは、米国国防総省との深い協力関係を発表し、自社のAIモデルを極秘の軍事ネットワークに統合するとした。このニュースは米国内で広範なユーザーからの反発を招き、「ChatGPTボイコット」運動が盛り上がっている。市場分析会社Sensor Towerによると、2026年2月28日にOpenAIが正式にこの協力関係を発表した当日、米国市場におけるChatGPTモバイルアプリのアンインスト
OpenAIが「Sites」機能をリリース、テキストベースのウェブサイトにより「ノーコード」時代の幕を閉じる
OpenAIは、ソフトウェアエンジニアリング向けAI「Codex」の新機能「Sites」を発表しました。現在プレビュー版として提供されており、有料のBusinessおよびEnterpriseプランの加入者のみが利用可能です。この機能は、Webおよびアプリケーション開発における従来の障壁を取り除くことを目的としています。Sitesの本質は、抽象的なアイデアを実際に使えるツールへと変換するプラットフォ
Interesting approach! Unifying vision and speech into a single stream sounds like a step towards more 'native' multimodal understanding, unlike just bolting on separate modules. Makes me wonder how this affects real-time processing efficiency for delivery robots or AR navigation apps. Could be a game-changer for Meituan's on-demand services if it works smoothly in the wild. 🧐





家






