オプション
ニュース
美団(Meituan)、視覚と音声のアーキテクチャを統合したAIモデル「LongCat-Next」を発表

美団(Meituan)、視覚と音声のアーキテクチャを統合したAIモデル「LongCat-Next」を発表

2026年4月12日
112

美団(Meituan)、視覚と音声のアーキテクチャを統合したAIモデル「LongCat-Next」を発表

4月3日、MiTiチームはネイティブ型マルチモーダル大規模モデル「LongCat-Next」を正式にリリースしました。このモデルは、画像、音声、テキストを統一された離散トークンのストリームに変換することで、従来の「言語基盤+プラグイン」というアプローチを超越しています。これにより、AIは物理世界をネイティブに「見る」ことや「聞く」ことが可能となり、テキストと同様にこれらの入力を処理できるようになります。

技術的核:DiNAアーキテクチャが実現する「モダリティの内部化」

異なるデータタイプ間の障壁を取り除くため、MiTiはDiNA(Discrete Native Autoregressive)アーキテクチャを開発し、マルチモーダルモデリングにおける深い統合を実現しました:

完全なモダリティ統合:このモデルは、テキスト、画像、音声に対して同一のパラメータ、アテンション機構、損失関数を使用します。

理解と生成の対称性:単一の数学的枠組みにおいて、次のテキストトークンの予測は「理解」を構成し、画像トークンの予測は「生成」を構成します。両プロセスは、トレーニング中に著しい相乗効果を発揮します。

極端な圧縮:dNaViTビジュアルトークナイザーを活用し、あらゆる解像度の入力を処理します。8層の残差ベクトル量子化プロセスを通じて、OCRや金融文書分析などのタスクに必要な重要な詳細情報を保持しつつ、ピクセル空間で最大28倍の圧縮を実現します。

実証的な性能:離散モデリングに固有の限界はない

LongCat-Nextは、複数のベンチマークにおいて専用モデルを上回る性能を発揮し、「離散化は必然的に情報損失を招く」という従来の通念に効果的に異議を唱えています:

きめ細かな認識:高密度テキストシナリオ向けのOmniDocBenchにおいて、Qwen3-Omniだけでなく、専門のビジョンモデルであるQwen3-VLをも上回る性能を発揮しました。

視覚的推論:MathVistaで83.1という高いスコアを記録し、堅牢で産業レベルの論理的推論能力を実証しました。

クロスモーダル連携:最先端の言語能力(C-Eval 86.80)を維持しつつ、テキストと音声の低遅延並列生成に加え、カスタマイズ可能なボイスクローニングをサポートします。

業界インサイト:実世界AIの基盤

大規模言語モデルは、長らくテキスト中心でした。LongCat-Nextの画期的な点は、物理世界の情報も言語と同様に離散化・モデル化できることを実証したことです。AIが統一された「ネイティブ言語」を保有すれば、ツールの使用、コードの記述、複雑な図表の解釈において、より知的かつ直感的な動作が可能になります。

MiTiは現在、LongCat-NextモデルとdNaViTトークナイザーをオープンソース化しています。この効率的で可能性に満ちたネイティブ離散アーキテクチャは、現実世界を認識し、それと対話できるAIを構築するために、開発者に不可欠なツールを提供します。

関連記事
MIIT、AIモデルコンテキストプロトコルを含む121の業界標準について一般の意見を求める MIIT、AIモデルコンテキストプロトコルを含む121の業界標準について一般の意見を求める 中国工業情報化省は、「人工知能セキュリティガバナンスモデルコンテキストプロトコルのアプリケーションセキュリティ要求」を含む121件の産業標準化プロジェクトについて、一般からの意見を求める通知を正式に発表しました。この公告は、中国がAIの基盤となる標準や安全監督枠組みを確立する取り組みにおいて重要なマイルストーンとなります。一般からの意見募集期間中は、モデルコンテキストプロトコルのアプリケーションセキュリティに焦点を当て、標準化された技術仕様を通じて、マルチモーダルインタラクション、長文処理、クロ
オープンAI、米国防総省と提携 ChatGPTのアンインストール件数が295%増加 オープンAI、米国防総省と提携 ChatGPTのアンインストール件数が295%増加 公衆の怒り:OpenAIの軍事提携が「アンインストールブーム」を引き起こす最近、AI分野のリーダーであるOpenAIは、米国国防総省との深い協力関係を発表し、自社のAIモデルを極秘の軍事ネットワークに統合するとした。このニュースは米国内で広範なユーザーからの反発を招き、「ChatGPTボイコット」運動が盛り上がっている。市場分析会社Sensor Towerによると、2026年2月28日にOpenAIが正式にこの協力関係を発表した当日、米国市場におけるChatGPTモバイルアプリのアンインスト
OpenAIが「Sites」機能をリリース、テキストベースのウェブサイトにより「ノーコード」時代の幕を閉じる OpenAIが「Sites」機能をリリース、テキストベースのウェブサイトにより「ノーコード」時代の幕を閉じる OpenAIは、ソフトウェアエンジニアリング向けAI「Codex」の新機能「Sites」を発表しました。現在プレビュー版として提供されており、有料のBusinessおよびEnterpriseプランの加入者のみが利用可能です。この機能は、Webおよびアプリケーション開発における従来の障壁を取り除くことを目的としています。Sitesの本質は、抽象的なアイデアを実際に使えるツールへと変換するプラットフォ
関連特集おすすめ
テキスト読み上げ インディーゲーム開発者向けのおすすめAIボイスツール:RPGやビジュアルノベルのボイス収録時間を短縮
インディーゲーム開発者向けのおすすめAIボイスツール:RPGやビジュアルノベルのボイス収録時間を短縮

ゲーム開発者必見!2026年おすすめのAIボイスツールを紹介!XIX.AIが厳選したリストには、RPGやビジュアルノベルのボイス収録にかかる時間とコストを削減する、高評価で業界を変革するソリューションが揃っています。無料版と有料版の比較、実地テスト、毎週更新されるランキングをチェックしましょう。あなたにぴったりのボイスツールを今すぐ見つけましょう!

10 ツール
xix.ai
教育と学習 最高のAIスペースドリピートツール:医学生や法律専攻の学生のための学習スケジュール最適化
最高のAIスペースドリピートツール:医学生や法律専攻の学生のための学習スケジュール最適化

2026年に最も優れたAIを活用した反復学習ツールをXIX.AIが厳選してご紹介します。私たちが推薦するこれらの画期的なツールは、医学や法律を学ぶ学生が学習計画を最適化し、知識をより効果的に定着させるのに役立ちます。無料版と有料版を実際のテスト結果や毎週更新されるランキングをもとに比較してみてください。今すぐ学習効率を高めましょう。

10 ツール
xix.ai
動画作成 脚本作成とビジュアルストーリーテリングに最適なAIテキスト・トゥ・ビデオ・プラットフォーム
脚本作成とビジュアルストーリーテリングに最適なAIテキスト・トゥ・ビデオ・プラットフォーム

2026年最新・最高のAIテキストから動画生成プラットフォーム:脚本作成やビジュアルストーリーテリングに最適なツールをご紹介。テキストを魅力的な動画に変える、画期的なソリューションをご覧ください。毎週更新されるランキングと実地テストに基づき、無料版と有料版の比較も可能です。創造性と生産性を高める、あなたにぴったりのプラットフォームを見つけましょう。XIX.AIで厳選されたラインナップをご覧ください。

10 ツール
xix.ai
チャットボット AIマルチエージェントオーケストレーター:自然言語を通じて複雑な自動化ワークフローを設計する
AIマルチエージェントオーケストレーター:自然言語を通じて複雑な自動化ワークフローを設計する

2026年最新情報:自然言語を通じて複雑な自動化ワークフローを設計するための最適なAIマルチエージェントオーケストレーターを発見しましょう。当社が厳選したリストには、タスクのシームレスな自動化とインテリジェントなプロセス管理に最適な高評価の強力なプラットフォームが掲載されています。無料オプションと有料オプションを実際の使用例を交えて比較しましょう。XIX.AIが毎週更新する専門的なランキングを活用して、AIの力を最大限に引き出しましょう。

10 ツール
xix.ai
画像編集 最高のAIノイズリダクションソフトウェア:低照度の夜間撮影で発生する粒状ノイズやアーチファクトを除去する
最高のAIノイズリダクションソフトウェア:低照度の夜間撮影で発生する粒状ノイズやアーチファクトを除去する

2026年に最も優れたAIノイズリダクションソフトウェアを探そう。低照度の夜間撮影に最適なこれらのツールは、無料版と有料版を比較しており、実際のテスト結果や毎週更新されるランキングも掲載されている。粒状ノイズや不要なアーティファクトを簡単に除去できる。XIX.AIでAIの力を最大限に活用しよう。

10 ツール
xix.ai
チャットボット おすすめのAIガールフレンド生成ツール:個性や趣味、バックストーリーを自由にデザイン
おすすめのAIガールフレンド生成ツール:個性や趣味、バックストーリーを自由にデザイン

XIX.AIで、2026年最高のカスタムAIガールフレンド生成ツールを発見しましょう。ユニークな性格、趣味、そして深いバックストーリーをデザインするための、厳選された高評価リストをご覧ください。実際の利用体験に基づく情報を参考に、無料版と有料版の比較も可能です。今すぐ、あなたにぴったりのクリエイティブなパートナーを手に入れましょう。

10 ツール
xix.ai
コメント (1)
0/500
CharlesHernández
CharlesHernández 2026年5月17日 3:00:15 JST

Interesting approach! Unifying vision and speech into a single stream sounds like a step towards more 'native' multimodal understanding, unlike just bolting on separate modules. Makes me wonder how this affects real-time processing efficiency for delivery robots or AR navigation apps. Could be a game-changer for Meituan's on-demand services if it works smoothly in the wild. 🧐

OR