Heim
Qwen 3.5-Omni bricht mit 215 SOTA-Modellen alle Rekorde und läutet damit das Zeitalter der All-Senses-KI ein
Tongyi Lab hat gestern Abend offiziell das neue multimodale Großmodell Qwen3.5-Omni vorgestellt. Dieses Modell stellt im Vergleich zu seinem Vorgänger einen bedeutenden Fortschritt in den Bereichen Verständnis, Interaktion und Aufgabenausführung dar und wandelt KI von einem „bildschirmgebundenen Assistenten“ in einen „intelligenten Agenten, der die physische Welt versteht“.
Kernfortschritte: Vollmodalität und 215 SOTA-Benchmarks
Qwen3.5-Omni verfügt über eine native „Full-Modality“-Architektur, die es ihm ermöglicht, Text, Bilder, Audio und Video nahtlos zu verarbeiten. In Bewertungen, die audiovisuelle Analyse, Schlussfolgerungen, Dialog und Übersetzung umfassten, erzielte das Modell 215 State-of-the-Art (SOTA)-Ergebnisse. Bemerkenswert ist, dass seine allgemeinen Fähigkeiten zum Verstehen und Erkennen von Audio Modelle wie Gemini-3.1Pro übertroffen haben, während seine visuelle und textuelle Leistung weiterhin auf höchstem Niveau liegt und mit seinem Pendant, dem Qwen3.5-Modell ähnlicher Größenordnung, mithalten kann.

Technische Architektur: Hybrid-Attention MoE
Das Modell baut auf dem klassischen Thinker-Talker-Framework auf, wobei die Architektur grundlegend überarbeitet wurde:
Thinker (Verständniszentrum): Aufgerüstet zu einem Hybrid-Attention Mixture of Experts (MoE), das einen extrem langen Kontext von 256K Tokens unterstützt. Dies ermöglicht die Verarbeitung von bis zu 10 Stunden Audio oder 1 Stunde Video, wobei mithilfe der TMRoPE-Technologie feine Details in langen Sequenzen präzise erfasst werden.
Talker (Ausdruckszentrum): Integriert neue ARIA-Technologie und RVQ-Codierung und ersetzt damit rechenintensive DiT-Prozesse. Dies behebt nicht nur häufige Probleme bei der Audiogenerierung wie das Überspringen von Wörtern und die falsche Aussprache von Zahlen, sondern verleiht dem Modell auch robuste Echtzeit-Sprachsteuerungsfähigkeiten.
Anwendungen in der Praxis: Von Vibe-Codierung bis hin zum Klonen von Stimmen
Die Fähigkeiten von Qwen3.5-Omni ermöglichen mehrere transformative Anwendungsszenarien:
Natürliche, emergente Vibe-Codierung: Das Modell zeigt ohne spezifisches Training ein beeindruckendes Verständnis und eine beeindruckende Generierung von Code, wodurch es Python-Code oder Front-End-Prototypen direkt aus der Videologik erzeugen kann.
Menschenähnliche Echtzeit-Interaktion: Unterstützt semantische Unterbrechungen. Es kann zwischen Hintergrundgeräuschen (wie Husten) und absichtlichen Unterbrechungen unterscheiden, und Benutzer können Tonfall (z. B. „fröhlich“) und Lautstärke über einfache Anweisungen anpassen.
Detaillierte Videoanalyse: Kann strukturierte, mit Zeitstempeln versehene Untertitel generieren und dabei Aktionen, Wechsel der Hintergrundmusik und Kameraübergänge innerhalb von Videos präzise identifizieren.
Personalisiertes Stimmklonen: Benutzer können eine äußerst natürliche, personalisierte „digitale Stimme“ erstellen, indem sie eine kurze Audio-Probe hochladen; dabei werden 113 Sprachen unterstützt.
Qwen3.5-Omni ist ab sofort auf der Alibaba Cloud BaiLian-Plattform in den Versionen Plus, Flash und Light verfügbar. Eine Echtzeit-Dialog-API (Realtime) und eine Demo sind zudem über die ModelScope-Community zugänglich.
Verwandter Artikel
Apple entfernt die Cal AI-App aufgrund nicht autorisierter In-App-Käufe und manipulativer Abrechnungspraktiken.
Apples jüngste Entfernung von Cal AI, einer beliebten KI-basierten Ernährungsüberwachungsapp innerhalb von MyFitnessPal, unterstreicht die strenge Einhaltung der App Store-Richtlinien bezüglich externer Zahlungen und Abonnements. Die App, die jährlic
Die tokenbasierte Abrechnungsmethode von Github Copilot löst Empörung bei Entwicklern aus
Die goldene Ära von Microsofts GitHub Copilot könnte zu Ende gehen – insbesondere für einzelne Nutzer. Das Unternehmen wechselt von einer festen Abonnementgebühr zu einem tokenbasierten Abrechnungsmodell, was die Kosten erheblich erhöhen könnte. Währ
Hervorhebungen aus der IPO-Dokumentation von SpaceX: Ambitionen für die Ausweitung des Satelliten-Internet- und KI-Geschäfts
In ihrer S-1-Einreichung vor der geplanten IPO hat SpaceX kürzlich eine Reihe beeindruckender Geschäftszahlen veröffentlicht, die ihre starke Position im Bereich der Luftfahrtkommunikation und Künstlichen Intelligenz unterstreichen:Starlink-Abonnente
Empfehlungen zu verwandten Spezialthemen
Kommentare (0)
Tongyi Lab hat gestern Abend offiziell das neue multimodale Großmodell Qwen3.5-Omni vorgestellt. Dieses Modell stellt im Vergleich zu seinem Vorgänger einen bedeutenden Fortschritt in den Bereichen Verständnis, Interaktion und Aufgabenausführung dar und wandelt KI von einem „bildschirmgebundenen Assistenten“ in einen „intelligenten Agenten, der die physische Welt versteht“.
Kernfortschritte: Vollmodalität und 215 SOTA-Benchmarks
Qwen3.5-Omni verfügt über eine native „Full-Modality“-Architektur, die es ihm ermöglicht, Text, Bilder, Audio und Video nahtlos zu verarbeiten. In Bewertungen, die audiovisuelle Analyse, Schlussfolgerungen, Dialog und Übersetzung umfassten, erzielte das Modell 215 State-of-the-Art (SOTA)-Ergebnisse. Bemerkenswert ist, dass seine allgemeinen Fähigkeiten zum Verstehen und Erkennen von Audio Modelle wie Gemini-3.1Pro übertroffen haben, während seine visuelle und textuelle Leistung weiterhin auf höchstem Niveau liegt und mit seinem Pendant, dem Qwen3.5-Modell ähnlicher Größenordnung, mithalten kann.

Technische Architektur: Hybrid-Attention MoE
Das Modell baut auf dem klassischen Thinker-Talker-Framework auf, wobei die Architektur grundlegend überarbeitet wurde:
Thinker (Verständniszentrum): Aufgerüstet zu einem Hybrid-Attention Mixture of Experts (MoE), das einen extrem langen Kontext von 256K Tokens unterstützt. Dies ermöglicht die Verarbeitung von bis zu 10 Stunden Audio oder 1 Stunde Video, wobei mithilfe der TMRoPE-Technologie feine Details in langen Sequenzen präzise erfasst werden.
Talker (Ausdruckszentrum): Integriert neue ARIA-Technologie und RVQ-Codierung und ersetzt damit rechenintensive DiT-Prozesse. Dies behebt nicht nur häufige Probleme bei der Audiogenerierung wie das Überspringen von Wörtern und die falsche Aussprache von Zahlen, sondern verleiht dem Modell auch robuste Echtzeit-Sprachsteuerungsfähigkeiten.
Anwendungen in der Praxis: Von Vibe-Codierung bis hin zum Klonen von Stimmen
Die Fähigkeiten von Qwen3.5-Omni ermöglichen mehrere transformative Anwendungsszenarien:
Natürliche, emergente Vibe-Codierung: Das Modell zeigt ohne spezifisches Training ein beeindruckendes Verständnis und eine beeindruckende Generierung von Code, wodurch es Python-Code oder Front-End-Prototypen direkt aus der Videologik erzeugen kann.
Menschenähnliche Echtzeit-Interaktion: Unterstützt semantische Unterbrechungen. Es kann zwischen Hintergrundgeräuschen (wie Husten) und absichtlichen Unterbrechungen unterscheiden, und Benutzer können Tonfall (z. B. „fröhlich“) und Lautstärke über einfache Anweisungen anpassen.
Detaillierte Videoanalyse: Kann strukturierte, mit Zeitstempeln versehene Untertitel generieren und dabei Aktionen, Wechsel der Hintergrundmusik und Kameraübergänge innerhalb von Videos präzise identifizieren.
Personalisiertes Stimmklonen: Benutzer können eine äußerst natürliche, personalisierte „digitale Stimme“ erstellen, indem sie eine kurze Audio-Probe hochladen; dabei werden 113 Sprachen unterstützt.
Qwen3.5-Omni ist ab sofort auf der Alibaba Cloud BaiLian-Plattform in den Versionen Plus, Flash und Light verfügbar. Eine Echtzeit-Dialog-API (Realtime) und eine Demo sind zudem über die ModelScope-Community zugänglich.
Apple entfernt die Cal AI-App aufgrund nicht autorisierter In-App-Käufe und manipulativer Abrechnungspraktiken.
Apples jüngste Entfernung von Cal AI, einer beliebten KI-basierten Ernährungsüberwachungsapp innerhalb von MyFitnessPal, unterstreicht die strenge Einhaltung der App Store-Richtlinien bezüglich externer Zahlungen und Abonnements. Die App, die jährlic
Die tokenbasierte Abrechnungsmethode von Github Copilot löst Empörung bei Entwicklern aus
Die goldene Ära von Microsofts GitHub Copilot könnte zu Ende gehen – insbesondere für einzelne Nutzer. Das Unternehmen wechselt von einer festen Abonnementgebühr zu einem tokenbasierten Abrechnungsmodell, was die Kosten erheblich erhöhen könnte. Währ
Hervorhebungen aus der IPO-Dokumentation von SpaceX: Ambitionen für die Ausweitung des Satelliten-Internet- und KI-Geschäfts
In ihrer S-1-Einreichung vor der geplanten IPO hat SpaceX kürzlich eine Reihe beeindruckender Geschäftszahlen veröffentlicht, die ihre starke Position im Bereich der Luftfahrtkommunikation und Künstlichen Intelligenz unterstreichen:Starlink-Abonnente











