Qwen 3.5-Omni 以 215 項 SOTA 紀錄刷新紀錄，開啟全感官 AI 時代

首頁

新聞

2026-04-06

MichaelMartinez

123

同益實驗室（Tongyi Lab）昨晚正式推出全新多模態大型模型 Qwen3.5-Omni。相較於前代模型，該模型在理解能力、互動能力及任務執行能力方面均有顯著躍進，將人工智慧從「受限於螢幕的助理」轉變為「能理解實體世界的智能代理」。

核心突破：全模態處理與 215 項 SOTA 基準測試

Qwen3.5-Omni 採用原生「全模態」架構，能夠無縫處理文字、圖像、音訊及影片。在涵蓋視聽分析、推理、對話及翻譯的各項評估中，該模型共取得 215 項最先進（SOTA）成績。值得注意的是，其整體語音理解與辨識能力已超越 Gemini-3.1Pro 等模型，而視覺與文本表現仍維持頂尖水準，與同規模的對應模型 Qwen3.5 並駕齊驅。

技術架構：混合注意力 MoE

該模型以經典的 Thinker-Talker 框架為基礎，並進行了根本性的架構革新：

Thinker（理解中心）：升級為混合注意力專家混合（MoE）架構，支援長達 256K 令牌的超長上下文。這使其能處理長達 10 小時的音訊或 1 小時的影片，並透過 TMRoPE 技術精準捕捉長序列中的細微細節。

Talker（表達中心）：整合了全新的 ARIA 技術與 RVQ 編碼，取代了運算負荷沉重的 DiT 流程。這不僅解決了音訊生成中常見的詞彙遺漏與數字發音錯誤等問題，更賦予模型強大的即時語音控制能力。

實際應用：從氛圍編碼到聲音克隆

Qwen3.5-Omni 的能力開啟了多項顛覆性的應用場景：

自然湧現的程式碼生成：該模型無需特定訓練即可展現出色的程式碼理解與生成能力，能直接根據影片邏輯產出 Python 程式碼或前端原型。

類人即時互動：支援語義中斷功能。它能區分背景噪音（如咳嗽聲）與有意中斷，使用者可透過簡單指令調整語氣（例如「開心的」）及音量。

細粒度影片分析：可生成結構化且帶時間戳的字幕，精準識別影片中的動作、背景音樂變化及鏡頭切換。

個人化語音克隆：使用者只需上傳一段短音頻樣本，即可創建高度自然的個人化「數位語音」，並支援 113 種語言。

Qwen3.5-Omni 現已於阿里雲白蓮平台推出 Plus、Flash 及 Light 版本。此外，亦可透過 ModelScope 社群存取即時對話（Realtime）API 及示範程式。

Anthropic的收入大幅增長，其市值接近萬億美元大關有報告顯示，Anthropic在短短几個月內就實現了顯著的收入增長。該公司的年化收入現已超過300億美元，這一數字是去年底時的三倍多。這種增長可能會讓Anthropic在競爭中略佔優勢，不過直接進行比較並不容易。其主要推動力在於Claude Code和Cowork產品，以及其推理模型的代幣銷售量增加。更值得注意的是，Anthropic的利潤率也有了顯著提升。該公司的毛利率從2024年的-94%上升到了2025年的+40%，而年化收入也從不到10億美元增長到了90億美元。正是這種發展勢頭，使得A

蘋果移除了Cal AI應用程式，原因是該應用存在未經授權的店內購買行為以及欺詐性計費問題。蘋果最近移除了MyFitnessPal中頗受歡迎的人工智慧食物追蹤應用Cal AI，這一舉動凸顯了其對App Store關於外部支付和訂閱政策的嚴格執行。該應用每年能帶來5000萬美元的重複收入，曾因違反多項開發者指南而被暫時下架，但在解決了相關問題後已重新上線。有報道稱，儘管Epic Games訴蘋果的案件允許美國開發者連結到外部支付系統，但蘋果指出Cal AI存在嚴重的合規問題。其主要違規行為在於：該應用試圖透過嵌入Stripe等第三方支付流程來繞過蘋果的應用內購買機制以解鎖數字內容，卻未

Github Copilot的基於令牌的計費方式引發了開發者的強烈不滿微軟GitHub Copilot的黃金時代可能即將結束，尤其是對個人使用者而言。該公司正從統一的訂閱費模式轉向基於代幣的計費方式，這可能會大幅增加使用成本。雖然大型企業或許還能承受這種變化，但小型企業和自由職業者可能會發現新的收費機制讓他們的月預算難以承受。這些變更將於6月1日正式生效，屆時使用者將按照工作中消耗的代幣數量來支付費用，而不再是按每次請求收取固定費用。一些開發者受到這一財務變動的影響，在Reddit和X平臺上表達了他們對這種看似過高的成本增加的擔憂。一位Redditor最近寫道：“

相關專題推薦

迅速的