Qwen 3.5-Omni bate récords con 215 SOTA y marca el inicio de la era de la IA multisensorial

Hogar

Noticias

6 de abril de 2026

MichaelMartinez

123

Tongyi Lab presentó oficialmente anoche el nuevo modelo multimodal de gran tamaño Qwen3.5-Omni. Este modelo supone un avance significativo en cuanto a comprensión, interacción y ejecución de tareas en comparación con su predecesor, lo que hace que la IA pase de ser un «asistente limitado a la pantalla» a un «agente inteligente que comprende el mundo físico».

Avances principales: «Full Modality» y 215 pruebas de rendimiento SOTA

Qwen3.5-Omni cuenta con una arquitectura nativa de «modalidad completa», lo que le permite procesar sin problemas texto, imágenes, audio y vídeo. En evaluaciones que abarcan el análisis audiovisual, el razonamiento, el diálogo y la traducción, el modelo ha alcanzado 215 resultados de vanguardia (SOTA). Cabe destacar que sus capacidades generales de comprensión y reconocimiento de audio han superado a modelos como Gemini-3.1Pro, mientras que su rendimiento visual y textual se mantiene en la máxima categoría, a la altura de su homólogo, el modelo Qwen3.5 de escala similar.

Arquitectura técnica: Hybrid-Attention MoE

El modelo se basa en el marco clásico Thinker-Talker con una revisión arquitectónica fundamental:

Thinker (centro de comprensión): actualizado a una mezcla de expertos (MoE) con atención híbrida, que admite un contexto ultralargo de 256 000 tokens. Esto le permite procesar hasta 10 horas de audio o 1 hora de vídeo, captando con precisión detalles minuciosos en secuencias largas mediante la tecnología TMRoPE.

Talker (centro de expresión): Incorpora la nueva tecnología ARIA y la codificación RVQ, sustituyendo los procesos DiT, que requieren un gran esfuerzo computacional. Esto no solo resuelve problemas comunes en la generación de audio, como el salto de palabras y la pronunciación errónea de números, sino que también dota al modelo de sólidas capacidades de control de voz en tiempo real.

Aplicaciones en el mundo real: del «vibe coding» a la clonación de voz

Las capacidades de Qwen3.5-Omni permiten varios escenarios de aplicación transformadores:

Codificación de Vibe emergente natural: El modelo muestra una impresionante comprensión y generación de código sin necesidad de entrenamiento específico, lo que le permite producir código Python o prototipos front-end directamente a partir de la lógica de vídeo.

Interacción en tiempo real similar a la humana: Admite la interrupción semántica. Puede diferenciar entre el ruido de fondo (como una tos) y las interrupciones intencionadas, y los usuarios pueden ajustar el tono (por ejemplo, «feliz») y el volumen mediante instrucciones sencillas.

Análisis de vídeo detallado: puede generar subtítulos estructurados y con marca de tiempo, identificando con precisión acciones, cambios en la música de fondo y transiciones de cámara dentro de los vídeos.

Clonación de voz personalizada: Los usuarios pueden crear una «voz digital» personalizada y muy natural subiendo una breve muestra de audio, con soporte para 113 idiomas.

Qwen3.5-Omni ya está disponible en la plataforma BaiLian de Alibaba Cloud en las versiones Plus, Flash y Light. También se puede acceder a una API de diálogo en tiempo real (Realtime) y a una demostración a través de la comunidad ModelScope.

Artículo relacionado

Apple retira la aplicación Cal AI debido a compras dentro de la aplicación no autorizadas y facturación engañosa. La reciente eliminación por parte de Apple de Cal AI, una popular aplicación de seguimiento alimentario basada en inteligencia artificial y disponible dentro de MyFitnessPal, pone de manifiesto su estricta aplicación de las políticas de la App Store

El sistema de facturación basado en tokens de Github Copilot provoca la indignación de los desarrolladores. La era de oro de GitHub Copilot de Microsoft podría estar llegando a su fin, especialmente para los usuarios individuales. La empresa está pasando de un modelo de suscripción fija a uno basado en tokens, lo que podría aumentar significativamente los

Aspectos destacados del documento de oferta pública inicial de SpaceX: las ambiciones de expansión en internet por satélite y inteligencia artificial En su declaración de registro S-1 presentada antes de lo que se espera sea su oferta pública inicial, SpaceX reveló recientemente una serie de impresionantes indicadores comerciales que destacan su sólida posición en las comunicaciones aeroespaciales

Recomendaciones de temas especiales relacionados

Edición de imágenes

Generadores de modelos de moda por IA gratuitos: Crea maquetas de ropa realistas y fotos con modelo.

Descubra los 20 mejores generadores de modelos de moda en AI gratuitos de 2026 en XIX.AI. Nuestra lista seleccionada incluye herramientas de alta calidad que revolucionarán su trabajo a la hora de crear maquetas de ropa realistas y fotos de modelos con prendas puestas. Compare las opciones gratuitas con las pagadas, con clasificaciones actualizadas semanalmente y pruebas reales. ¡Despliegue todo su potencial de diseño hoy mismo!

10 herramientas

xix.ai

escribiendo

Los mejores editores de continuidad basados en IA para ficción: detectan automáticamente fallos en la trama e incoherencias en la línea temporal

Descubre los mejores editores de continuidad basados en IA de 2026 para escritores de ficción. Nuestra lista, cuidadosamente seleccionada y con las mejores valoraciones, incluye potentes herramientas que detectan automáticamente fallos en la trama e incoherencias en la línea temporal. Compara las opciones gratuitas con las de pago mediante pruebas reales y clasificaciones que se actualizan semanalmente. Encuentra tu asistente de escritura ideal para garantizar narrativas impecables. Explora ahora las mejores opciones en XIX.AI.

10 herramientas

xix.ai

Creación de animación

Los mejores generadores de guiones gráficos para IA: convierten automáticamente los guiones cinematográficos en animaciones cinemáticas.

Descubra los mejores generadores de guiones gráficos de IA de 2026 en XIX.AI. Nuestros herramientas seleccionadas y altamente valoradas convierten automáticamente los guiones en animaciones cinematográficas, lo que le ahorra tiempo y mejora la preproducción. Explore opciones gratuitas y pagas mediante pruebas reales y clasificaciones actualizadas semanalmente. ¡Encuentre su compañero creativo ideal hoy mismo!

10 herramientas

xix.ai

SEO

Los mejores herramientas de redirección de IA y búsqueda de enlaces dañados: Reparan automáticamente los errores de rastreo para ahorrar el presupuesto dedicado a este proceso.

Descubra los mejores herramientas de redirección de IA y búsqueda de enlaces dañados de 2026 en XIX.AI. Nuestra lista seleccionada y calificada incluye herramientas poderosas que reparan automáticamente los errores de rastreo, ahorrándole así recursos. Compare opciones gratuitas y pagadas a través de pruebas reales y clasificaciones actualizadas semanalmente. ¡Encuentre la solución SEO perfecta para usted ahora mismo!

10 herramientas

xix.ai

Creación de vídeos

Los mejores creadores de vídeos con IA para podcasters: convierte ondas de audio en atractivos vídeos con rostros en primer plano

Descubre los mejores creadores de vídeos con IA para podcasters de 2026 en XIX.AI. Nuestra lista, cuidadosamente seleccionada y con las mejores valoraciones, incluye potentes herramientas que convierten tu audio en atractivos vídeos de «talking head» sin esfuerzo. Compara las opciones gratuitas con las de pago gracias a pruebas reales y a clasificaciones que se actualizan semanalmente. Aprovecha ahora tu ventaja en la narración visual.

10 herramientas

xix.ai

chatbot

Crea tu propia historia de amor con IA gracias a estas herramientas de juego de rol

Descubre las mejores herramientas de rol basadas en IA de 2026 para crear narrativas envolventes. La selección de XIX.AI incluye potentes asistentes revolucionarios que te permitirán desarrollar una narrativa creativa y una gran profundidad emocional. Compara las opciones gratuitas con las de pago mediante pruebas reales. Empieza hoy mismo tu viaje único.

10 herramientas

xix.ai