Hogar
Qwen 3.5-Omni bate récords con 215 SOTA y marca el inicio de la era de la IA multisensorial
Tongyi Lab presentó oficialmente anoche el nuevo modelo multimodal de gran tamaño Qwen3.5-Omni. Este modelo supone un avance significativo en cuanto a comprensión, interacción y ejecución de tareas en comparación con su predecesor, lo que hace que la IA pase de ser un «asistente limitado a la pantalla» a un «agente inteligente que comprende el mundo físico».
Avances principales: «Full Modality» y 215 pruebas de rendimiento SOTA
Qwen3.5-Omni cuenta con una arquitectura nativa de «modalidad completa», lo que le permite procesar sin problemas texto, imágenes, audio y vídeo. En evaluaciones que abarcan el análisis audiovisual, el razonamiento, el diálogo y la traducción, el modelo ha alcanzado 215 resultados de vanguardia (SOTA). Cabe destacar que sus capacidades generales de comprensión y reconocimiento de audio han superado a modelos como Gemini-3.1Pro, mientras que su rendimiento visual y textual se mantiene en la máxima categoría, a la altura de su homólogo, el modelo Qwen3.5 de escala similar.

Arquitectura técnica: Hybrid-Attention MoE
El modelo se basa en el marco clásico Thinker-Talker con una revisión arquitectónica fundamental:
Thinker (centro de comprensión): actualizado a una mezcla de expertos (MoE) con atención híbrida, que admite un contexto ultralargo de 256 000 tokens. Esto le permite procesar hasta 10 horas de audio o 1 hora de vídeo, captando con precisión detalles minuciosos en secuencias largas mediante la tecnología TMRoPE.
Talker (centro de expresión): Incorpora la nueva tecnología ARIA y la codificación RVQ, sustituyendo los procesos DiT, que requieren un gran esfuerzo computacional. Esto no solo resuelve problemas comunes en la generación de audio, como el salto de palabras y la pronunciación errónea de números, sino que también dota al modelo de sólidas capacidades de control de voz en tiempo real.
Aplicaciones en el mundo real: del «vibe coding» a la clonación de voz
Las capacidades de Qwen3.5-Omni permiten varios escenarios de aplicación transformadores:
Codificación de Vibe emergente natural: El modelo muestra una impresionante comprensión y generación de código sin necesidad de entrenamiento específico, lo que le permite producir código Python o prototipos front-end directamente a partir de la lógica de vídeo.
Interacción en tiempo real similar a la humana: Admite la interrupción semántica. Puede diferenciar entre el ruido de fondo (como una tos) y las interrupciones intencionadas, y los usuarios pueden ajustar el tono (por ejemplo, «feliz») y el volumen mediante instrucciones sencillas.
Análisis de vídeo detallado: puede generar subtítulos estructurados y con marca de tiempo, identificando con precisión acciones, cambios en la música de fondo y transiciones de cámara dentro de los vídeos.
Clonación de voz personalizada: Los usuarios pueden crear una «voz digital» personalizada y muy natural subiendo una breve muestra de audio, con soporte para 113 idiomas.
Qwen3.5-Omni ya está disponible en la plataforma BaiLian de Alibaba Cloud en las versiones Plus, Flash y Light. También se puede acceder a una API de diálogo en tiempo real (Realtime) y a una demostración a través de la comunidad ModelScope.
Artículo relacionado
Apple retira la aplicación Cal AI debido a compras dentro de la aplicación no autorizadas y facturación engañosa.
La reciente eliminación por parte de Apple de Cal AI, una popular aplicación de seguimiento alimentario basada en inteligencia artificial y disponible dentro de MyFitnessPal, pone de manifiesto su estricta aplicación de las políticas de la App Store
El sistema de facturación basado en tokens de Github Copilot provoca la indignación de los desarrolladores.
La era de oro de GitHub Copilot de Microsoft podría estar llegando a su fin, especialmente para los usuarios individuales. La empresa está pasando de un modelo de suscripción fija a uno basado en tokens, lo que podría aumentar significativamente los
Aspectos destacados del documento de oferta pública inicial de SpaceX: las ambiciones de expansión en internet por satélite y inteligencia artificial
En su declaración de registro S-1 presentada antes de lo que se espera sea su oferta pública inicial, SpaceX reveló recientemente una serie de impresionantes indicadores comerciales que destacan su sólida posición en las comunicaciones aeroespaciales
Recomendaciones de temas especiales relacionados
comentario (0)
0/500
Tongyi Lab presentó oficialmente anoche el nuevo modelo multimodal de gran tamaño Qwen3.5-Omni. Este modelo supone un avance significativo en cuanto a comprensión, interacción y ejecución de tareas en comparación con su predecesor, lo que hace que la IA pase de ser un «asistente limitado a la pantalla» a un «agente inteligente que comprende el mundo físico».
Avances principales: «Full Modality» y 215 pruebas de rendimiento SOTA
Qwen3.5-Omni cuenta con una arquitectura nativa de «modalidad completa», lo que le permite procesar sin problemas texto, imágenes, audio y vídeo. En evaluaciones que abarcan el análisis audiovisual, el razonamiento, el diálogo y la traducción, el modelo ha alcanzado 215 resultados de vanguardia (SOTA). Cabe destacar que sus capacidades generales de comprensión y reconocimiento de audio han superado a modelos como Gemini-3.1Pro, mientras que su rendimiento visual y textual se mantiene en la máxima categoría, a la altura de su homólogo, el modelo Qwen3.5 de escala similar.

Arquitectura técnica: Hybrid-Attention MoE
El modelo se basa en el marco clásico Thinker-Talker con una revisión arquitectónica fundamental:
Thinker (centro de comprensión): actualizado a una mezcla de expertos (MoE) con atención híbrida, que admite un contexto ultralargo de 256 000 tokens. Esto le permite procesar hasta 10 horas de audio o 1 hora de vídeo, captando con precisión detalles minuciosos en secuencias largas mediante la tecnología TMRoPE.
Talker (centro de expresión): Incorpora la nueva tecnología ARIA y la codificación RVQ, sustituyendo los procesos DiT, que requieren un gran esfuerzo computacional. Esto no solo resuelve problemas comunes en la generación de audio, como el salto de palabras y la pronunciación errónea de números, sino que también dota al modelo de sólidas capacidades de control de voz en tiempo real.
Aplicaciones en el mundo real: del «vibe coding» a la clonación de voz
Las capacidades de Qwen3.5-Omni permiten varios escenarios de aplicación transformadores:
Codificación de Vibe emergente natural: El modelo muestra una impresionante comprensión y generación de código sin necesidad de entrenamiento específico, lo que le permite producir código Python o prototipos front-end directamente a partir de la lógica de vídeo.
Interacción en tiempo real similar a la humana: Admite la interrupción semántica. Puede diferenciar entre el ruido de fondo (como una tos) y las interrupciones intencionadas, y los usuarios pueden ajustar el tono (por ejemplo, «feliz») y el volumen mediante instrucciones sencillas.
Análisis de vídeo detallado: puede generar subtítulos estructurados y con marca de tiempo, identificando con precisión acciones, cambios en la música de fondo y transiciones de cámara dentro de los vídeos.
Clonación de voz personalizada: Los usuarios pueden crear una «voz digital» personalizada y muy natural subiendo una breve muestra de audio, con soporte para 113 idiomas.
Qwen3.5-Omni ya está disponible en la plataforma BaiLian de Alibaba Cloud en las versiones Plus, Flash y Light. También se puede acceder a una API de diálogo en tiempo real (Realtime) y a una demostración a través de la comunidad ModelScope.
Apple retira la aplicación Cal AI debido a compras dentro de la aplicación no autorizadas y facturación engañosa.
La reciente eliminación por parte de Apple de Cal AI, una popular aplicación de seguimiento alimentario basada en inteligencia artificial y disponible dentro de MyFitnessPal, pone de manifiesto su estricta aplicación de las políticas de la App Store
El sistema de facturación basado en tokens de Github Copilot provoca la indignación de los desarrolladores.
La era de oro de GitHub Copilot de Microsoft podría estar llegando a su fin, especialmente para los usuarios individuales. La empresa está pasando de un modelo de suscripción fija a uno basado en tokens, lo que podría aumentar significativamente los
Aspectos destacados del documento de oferta pública inicial de SpaceX: las ambiciones de expansión en internet por satélite y inteligencia artificial
En su declaración de registro S-1 presentada antes de lo que se espera sea su oferta pública inicial, SpaceX reveló recientemente una serie de impresionantes indicadores comerciales que destacan su sólida posición en las comunicaciones aeroespaciales











