Qwen3.5-Omniが215のSOTAを記録し、全感覚AI時代の幕開けを告げる
Tongyi Labは昨夜、新しいマルチモーダル大規模モデル「Qwen3.5-Omni」を正式にリリースしました。このモデルは、前世代モデルと比較して、理解力、対話能力、タスク実行能力において飛躍的な進歩を遂げており、AIを「画面に縛られたアシスタント」から「物理世界を理解するインテリジェントエージェント」へと進化させました。
主な進化点:フルモダリティと215のSOTAベンチマーク
Qwen3.5-Omniは、テキスト、画像、音声、動画をシームレスに処理できるネイティブな「フルモダリティ」アーキテクチャを備えています。 視聴覚分析、推論、対話、翻訳を網羅する評価において、本モデルは215の最先端(SOTA)記録を達成しました。特に、一般的な音声理解および認識能力はGemini-3.1Proなどのモデルを上回っており、視覚およびテキスト処理の性能も同規模のQwen3.5モデルと同等のトップレベルを維持しています。

技術的アーキテクチャ:Hybrid-Attention MoE
本モデルは、従来のThinker-Talkerフレームワークを基盤としつつ、アーキテクチャの抜本的な刷新を行っています:
Thinker(理解センター):ハイブリッド・アテンション型Mixture of Experts(MoE)へとアップグレードされ、256Kトークンという超長文コンテキストに対応しました。これにより、最大10時間の音声または1時間の動画を処理可能となり、TMRoPE技術を用いて長大なシーケンス内の微細な詳細を正確に捉えることができます。
Talker(表現センター):新しいARIA技術とRVQコーディングを組み込み、計算負荷の高いDiTプロセスを置き換えました。これにより、単語の抜けや数字の発音ミスといった一般的な音声生成の問題に対処できるだけでなく、モデルに堅牢なリアルタイム音声制御能力も付与しています。
実世界での応用:バイブコーディングからボイスクローニングまで
Qwen3.5-Omniの機能により、以下のような革新的な応用シナリオが可能になります:
自然なビブコーディング:本モデルは、特別なトレーニングなしでも優れたコード理解・生成能力を発揮し、動画のロジックから直接Pythonコードやフロントエンドのプロトタイプを生成できます。
人間のようなリアルタイム対話:セマンティック・インタラプション(意味に基づく割り込み)に対応しています。咳などのバックグラウンドノイズと意図的な割り込みを区別でき、ユーザーは簡単な指示でトーン(例:「ハッピー」)や音量を調整できます。
きめ細かな動画分析:構造化されたタイムスタンプ付きキャプションを生成でき、動画内のアクション、BGMの変化、カメラの切り替えを正確に特定します。
パーソナライズされた音声クローン:ユーザーは短い音声サンプルをアップロードすることで、非常に自然なパーソナライズされた「デジタルボイス」を作成でき、113言語に対応しています。
Qwen3.5-Omniは現在、Alibaba Cloud BaiLianプラットフォームにて、Plus、Flash、Lightの各バージョンで利用可能です。また、ModelScopeコミュニティを通じて、リアルタイム対話(Realtime)APIおよびデモにもアクセスできます。
関連記事
アップル、不正なアプリ内購入や操作された請求を理由にCal AIアプリを削除
アップルが最近、MyFitnessPal内で人気のあるAIを活用した食品追跡アプリ「Cal AI」を削除したことは、外部支払いやサブスクリプションに関するApp Storeのポリシーを厳格に適用していることを示しています。このアプリは年間5,000万ドルの反復収入を生み出していましたが、複数の開発者ガイドラインに違反したため一時的に削除されましたが、問題を解決した後に再び復活しました。報道によると、Epic Games対Appleの裁判で米国の開発者が外部支払いシステムにリンクすることが許可さ
Github Copilotのトークンベースの課金方式が開発者たちの怒りを買っている
マイクロソフトのGitHub Copilotの黄金時代が終わりに近づいているかもしれません。特に個人ユーザーにとってはそうです。同社は固定料金制からトークンベースの課金モデルへと移行しており、これによりコストが大幅に増加する可能性があります。大企業ならまだ対応できるかもしれませんが、中小企業やフリーランサーにとっては新しい料金体系を月次予算に組み込むのが難しいでしょう。この変更は6月1日から施行され、ユーザーは作業中に消費したトークン数に基づいて課金されるようになります。従来のリクエストごとの
スペースXのIPO申請書のハイライト:衛星インターネット事業とAI分野での事業拡大への意欲
SpaceXが計画しているIPOに先立って提出したS-1登録書類の中で、同社は航空宇宙通信および人工知能分野における強力な実力を示す数々の優れた業績指標を公開しました:Starlinkの加入者数が1,000万人を超える:2026年第1四半期までに、世界中で有料Starlinkサービスを利用している加入者数は1,030万人に達し、過去1年間で倍増しました。この成長は、世界最大の低地球軌道衛星群を擁するSpaceXがブロードバンドおよびモバイル通信分野でリーダーシップを発揮していることを示していま
関連特集おすすめ
コメント (0)
0/500
Tongyi Labは昨夜、新しいマルチモーダル大規模モデル「Qwen3.5-Omni」を正式にリリースしました。このモデルは、前世代モデルと比較して、理解力、対話能力、タスク実行能力において飛躍的な進歩を遂げており、AIを「画面に縛られたアシスタント」から「物理世界を理解するインテリジェントエージェント」へと進化させました。
主な進化点:フルモダリティと215のSOTAベンチマーク
Qwen3.5-Omniは、テキスト、画像、音声、動画をシームレスに処理できるネイティブな「フルモダリティ」アーキテクチャを備えています。 視聴覚分析、推論、対話、翻訳を網羅する評価において、本モデルは215の最先端(SOTA)記録を達成しました。特に、一般的な音声理解および認識能力はGemini-3.1Proなどのモデルを上回っており、視覚およびテキスト処理の性能も同規模のQwen3.5モデルと同等のトップレベルを維持しています。

技術的アーキテクチャ:Hybrid-Attention MoE
本モデルは、従来のThinker-Talkerフレームワークを基盤としつつ、アーキテクチャの抜本的な刷新を行っています:
Thinker(理解センター):ハイブリッド・アテンション型Mixture of Experts(MoE)へとアップグレードされ、256Kトークンという超長文コンテキストに対応しました。これにより、最大10時間の音声または1時間の動画を処理可能となり、TMRoPE技術を用いて長大なシーケンス内の微細な詳細を正確に捉えることができます。
Talker(表現センター):新しいARIA技術とRVQコーディングを組み込み、計算負荷の高いDiTプロセスを置き換えました。これにより、単語の抜けや数字の発音ミスといった一般的な音声生成の問題に対処できるだけでなく、モデルに堅牢なリアルタイム音声制御能力も付与しています。
実世界での応用:バイブコーディングからボイスクローニングまで
Qwen3.5-Omniの機能により、以下のような革新的な応用シナリオが可能になります:
自然なビブコーディング:本モデルは、特別なトレーニングなしでも優れたコード理解・生成能力を発揮し、動画のロジックから直接Pythonコードやフロントエンドのプロトタイプを生成できます。
人間のようなリアルタイム対話:セマンティック・インタラプション(意味に基づく割り込み)に対応しています。咳などのバックグラウンドノイズと意図的な割り込みを区別でき、ユーザーは簡単な指示でトーン(例:「ハッピー」)や音量を調整できます。
きめ細かな動画分析:構造化されたタイムスタンプ付きキャプションを生成でき、動画内のアクション、BGMの変化、カメラの切り替えを正確に特定します。
パーソナライズされた音声クローン:ユーザーは短い音声サンプルをアップロードすることで、非常に自然なパーソナライズされた「デジタルボイス」を作成でき、113言語に対応しています。
Qwen3.5-Omniは現在、Alibaba Cloud BaiLianプラットフォームにて、Plus、Flash、Lightの各バージョンで利用可能です。また、ModelScopeコミュニティを通じて、リアルタイム対話(Realtime)APIおよびデモにもアクセスできます。
アップル、不正なアプリ内購入や操作された請求を理由にCal AIアプリを削除
アップルが最近、MyFitnessPal内で人気のあるAIを活用した食品追跡アプリ「Cal AI」を削除したことは、外部支払いやサブスクリプションに関するApp Storeのポリシーを厳格に適用していることを示しています。このアプリは年間5,000万ドルの反復収入を生み出していましたが、複数の開発者ガイドラインに違反したため一時的に削除されましたが、問題を解決した後に再び復活しました。報道によると、Epic Games対Appleの裁判で米国の開発者が外部支払いシステムにリンクすることが許可さ
Github Copilotのトークンベースの課金方式が開発者たちの怒りを買っている
マイクロソフトのGitHub Copilotの黄金時代が終わりに近づいているかもしれません。特に個人ユーザーにとってはそうです。同社は固定料金制からトークンベースの課金モデルへと移行しており、これによりコストが大幅に増加する可能性があります。大企業ならまだ対応できるかもしれませんが、中小企業やフリーランサーにとっては新しい料金体系を月次予算に組み込むのが難しいでしょう。この変更は6月1日から施行され、ユーザーは作業中に消費したトークン数に基づいて課金されるようになります。従来のリクエストごとの
スペースXのIPO申請書のハイライト:衛星インターネット事業とAI分野での事業拡大への意欲
SpaceXが計画しているIPOに先立って提出したS-1登録書類の中で、同社は航空宇宙通信および人工知能分野における強力な実力を示す数々の優れた業績指標を公開しました:Starlinkの加入者数が1,000万人を超える:2026年第1四半期までに、世界中で有料Starlinkサービスを利用している加入者数は1,030万人に達し、過去1年間で倍増しました。この成長は、世界最大の低地球軌道衛星群を擁するSpaceXがブロードバンドおよびモバイル通信分野でリーダーシップを発揮していることを示していま





家






