Hogar
Modulate lanza modelos de escucha conjunta para transformar la comprensión de voz mediante IA

Aunque la inteligencia artificial ha logrado avances notables, sigue habiendo un ámbito que plantea un reto importante: comprender realmente el lenguaje humano. Esto va más allá de transcribir palabras, ya que implica interpretar las emociones subyacentes, la intención que se transmite a través del tono y el ritmo, y las sutiles señales que diferencian las bromas amistosas de la frustración genuina, el engaño o la intención dañina. Hoy, Modulate ha anunciado un gran avance con su Ensemble Listening Model (ELM), una nueva arquitectura de IA diseñada específicamente para la comprensión de la voz en el mundo real.
Junto con la presentación de esta investigación, Modulate ha lanzado Velma 2.0, el primer sistema operativo basado en un modelo Ensemble Listening Model. La empresa afirma que Velma 2.0 supera a los principales modelos básicos en cuanto a precisión conversacional, al tiempo que funciona a un coste significativamente menor, una afirmación convincente en un momento en el que las empresas examinan cada vez más la viabilidad financiera de las implementaciones de IA a gran escala.
Por qué la voz supone un reto para la IA
La mayoría de los sistemas de IA diseñados para analizar el habla siguen un procedimiento estándar: primero se convierte el audio en texto y, a continuación, se analiza la transcripción mediante un gran modelo lingüístico. Aunque este método funciona bien para la transcripción y la síntesis, elimina los elementos que dan riqueza a la comunicación oral.
La información contextual crucial, como el tono, la inflexión emocional, la vacilación, el sarcasmo, los diálogos superpuestos y el ruido de fondo, se pierde cuando el habla se reduce a texto sin formato. Esto a menudo conduce a interpretaciones erróneas de la intención o el sentimiento. El problema es especialmente grave en áreas como el servicio al cliente, la detección de fraudes, los juegos en línea y las comunicaciones impulsadas por IA, donde los matices son fundamentales para lograr resultados precisos.
Según Modulate, esta deficiencia se debe a limitaciones arquitectónicas, no a la falta de datos. Los grandes modelos lingüísticos están optimizados para predecir texto, no para integrar múltiples señales acústicas y de comportamiento en tiempo real. Los modelos de escucha conjunta se desarrollaron para salvar esta brecha.
¿Qué es un modelo de escucha conjunta?
Un modelo de escucha conjunta no es una red neuronal única y polivalente. Se trata, más bien, de un sistema coordinado compuesto por numerosos modelos especializados, cada uno de los cuales se dedica a analizar un aspecto distinto de una interacción vocal.
Dentro de un ELM, modelos independientes evalúan las emociones, los niveles de estrés, las señales de engaño, la identidad del hablante, la sincronización, los patrones del habla, el ruido de fondo y el posible uso de voces sintéticas o suplantadas. Estas señales se sincronizan a través de una capa de orquestación alineada en el tiempo, que genera una comprensión unificada e interpretable de la dinámica de la conversación.
Esta división deliberada del trabajo es fundamental para el enfoque ELM. En lugar de depender de un modelo masivo para derivar implícitamente el significado, los modelos de escucha conjunta integran múltiples perspectivas específicas, lo que mejora tanto la precisión como la explicabilidad.
Dentro de Velma 2.0
Velma 2.0 representa una importante mejora con respecto a los anteriores sistemas basados en conjuntos de Modulate. Aprovecha más de 100 modelos componentes que funcionan juntos en tiempo real, organizados en cinco capas analíticas.
La primera capa se encarga del procesamiento de audio fundamental, identificando el número de hablantes, la sincronización del habla y las pausas. La siguiente capa extrae señales acústicas, detectando estados emocionales, niveles de estrés, indicadores de engaño, características de voz sintética y ruido ambiental.
La tercera capa evalúa la intención percibida, distinguiendo entre elogios genuinos y comentarios sarcásticos u hostiles. A continuación, el modelado del comportamiento realiza un seguimiento de los patrones conversacionales a lo largo del tiempo, destacando los signos de frustración, confusión, discurso guionizado o intentos de ingeniería social. La capa final, el análisis conversacional, traduce estos hallazgos en eventos relevantes para el negocio, como la insatisfacción de los clientes, el incumplimiento de políticas, el fraude potencial o el mal funcionamiento de los agentes de IA.
Modulate informa de que Velma 2.0 interpreta el significado y la intención de la conversación con una precisión aproximadamente un 30 % mayor que los métodos líderes basados en LLM, al tiempo que es entre 10 y 100 veces más rentable a gran escala.
De la moderación de juegos a la inteligencia empresarial
Los modelos de escucha conjunta tienen sus raíces en los primeros trabajos de Modulate con los juegos en línea. Juegos populares como Call of Duty y Grand Theft Auto Online presentan algunos de los entornos de voz más exigentes: las conversaciones son rápidas, ruidosas, emocionalmente intensas y ricas en jerga y referencias contextuales.
Diferenciar las bromas juguetonas del acoso real en tiempo real requiere capacidades que van mucho más allá de la simple transcripción. Mientras operaba su herramienta de moderación de voz, ToxMod, Modulate construyó progresivamente conjuntos de modelos más sofisticados para captar estas sutilezas. La coordinación de docenas de modelos especializados se convirtió en algo esencial para lograr la precisión necesaria, lo que finalmente inspiró al equipo a formalizar este enfoque en un nuevo marco arquitectónico.
Velma 2.0 amplía esta arquitectura más allá de los videojuegos. Ahora impulsa la plataforma empresarial de Modulate, analizando cientos de millones de conversaciones en diversos sectores para detectar fraudes, conductas abusivas, insatisfacción de los clientes y comportamientos irregulares de la IA.
Un reto para los modelos básicos
Este anuncio llega en un momento en el que muchas empresas están reevaluando sus estrategias de IA. A pesar de las fuertes inversiones, un número significativo de proyectos de IA no llegan a la fase de producción o no aportan un valor sostenido. Entre los retos más comunes se encuentran las alucinaciones de la IA, el aumento de los costes de inferencia, la opacidad de los procesos de decisión y las dificultades para integrar los conocimientos de la IA en los flujos de trabajo operativos.
Los modelos de escucha conjunta (ELM) abordan estos problemas de frente. Al utilizar numerosos modelos más pequeños y especializados en lugar de un único sistema monolítico, los ELM son más baratos de ejecutar, más fáciles de auditar y más interpretables. Cada resultado puede remontarse a señales específicas, lo que proporciona a las organizaciones una visión clara de cómo se llega a las conclusiones.
Este grado de transparencia es especialmente importante en entornos regulados o de alto riesgo, en los que no se aceptan las decisiones de caja negra. Modulate considera que los ELM no son un sustituto de los grandes modelos lingüísticos, sino una arquitectura más adecuada para la inteligencia vocal de nivel empresarial.
Más allá de la conversión de voz a texto
Una de las características más innovadoras de Velma 2.0 es su capacidad para analizar cómo se dice algo, y no solo las palabras en sí. Esto incluye la identificación de voces sintéticas o suplantadas, una preocupación cada vez mayor a medida que la tecnología de generación de voz se hace más accesible.
A medida que avanza la clonación de voz, las organizaciones se enfrentan a amenazas crecientes de fraude, suplantación de identidad e ingeniería social. Al integrar la detección de voz sintética directamente en su conjunto, Velma 2.0 trata la autenticidad como una señal fundamental, no como algo secundario.
El modelado del comportamiento del sistema también permite obtener información proactiva. Puede detectar cuándo alguien está leyendo un guion, cuándo aumenta la frustración o cuándo una interacción se encamina hacia un conflicto. Estas capacidades permiten a las empresas intervenir antes y de forma más eficaz.
Una nueva dirección para la IA empresarial
Modulate caracteriza el modelo Ensemble Listening Model como una nueva clase de arquitectura de IA, distinta tanto de los procesos tradicionales de señal como de los grandes modelos básicos. La idea central es que las interacciones humanas complejas se decodifican mejor mediante la especialización coordinada que mediante el escalado por fuerza bruta.
A medida que las empresas buscan sistemas de IA que sean responsables, eficientes y estén alineados con las realidades operativas, los modelos Ensemble Listening apuntan hacia un futuro en el que la inteligencia se construye a partir de muchos componentes específicos. Con Velma 2.0 ya implementado en entornos reales, Modulate apuesta por que esta evolución arquitectónica tendrá aplicaciones mucho más allá de la moderación de voz y la atención al cliente.
En un sector que explora alternativas a los sistemas cada vez más grandes y opacos, los modelos de escucha conjunta indican que el próximo gran avance en IA puede provenir de una escucha más atenta, y no solo de una mayor potencia de cálculo.
Artículo relacionado
El principal inversor de Suno: eliminar las publicaciones no tapará el agujero de la demanda por derechos de autor
La tan esperada plataforma de generación musical con IA, Suno, se enfrenta a una dura batalla por los derechos de autor, y un comentario sincero de su principal inversor podría haber proporcionado a l
Claude Opus 4.7 sale al mercado apostando por la fiabilidad por encima de la inteligencia
Anthropic ha mantenido un ritmo frenético este año, lanzando nuevas funciones casi cada dos días. El tan esperado Claude Opus 4.7 acaba de salir oficialmente al mercado y, curiosamente, Anthropic fue
Haier lanza el robot exoesqueleto deportivo con IA más ligero del mundo, con un peso de tan solo 1,75 kg
El Grupo Haier ha presentado el robot exoesqueleto con inteligencia artificial más ligero del mundo para el deporte: el Haier Exoskeleton Robot W3. Este lanzamiento establece un nuevo récord del secto
Recomendaciones de temas especiales relacionados
comentario (0)
0/500

Aunque la inteligencia artificial ha logrado avances notables, sigue habiendo un ámbito que plantea un reto importante: comprender realmente el lenguaje humano. Esto va más allá de transcribir palabras, ya que implica interpretar las emociones subyacentes, la intención que se transmite a través del tono y el ritmo, y las sutiles señales que diferencian las bromas amistosas de la frustración genuina, el engaño o la intención dañina. Hoy, Modulate ha anunciado un gran avance con su Ensemble Listening Model (ELM), una nueva arquitectura de IA diseñada específicamente para la comprensión de la voz en el mundo real.
Junto con la presentación de esta investigación, Modulate ha lanzado Velma 2.0, el primer sistema operativo basado en un modelo Ensemble Listening Model. La empresa afirma que Velma 2.0 supera a los principales modelos básicos en cuanto a precisión conversacional, al tiempo que funciona a un coste significativamente menor, una afirmación convincente en un momento en el que las empresas examinan cada vez más la viabilidad financiera de las implementaciones de IA a gran escala.
Por qué la voz supone un reto para la IA
La mayoría de los sistemas de IA diseñados para analizar el habla siguen un procedimiento estándar: primero se convierte el audio en texto y, a continuación, se analiza la transcripción mediante un gran modelo lingüístico. Aunque este método funciona bien para la transcripción y la síntesis, elimina los elementos que dan riqueza a la comunicación oral.
La información contextual crucial, como el tono, la inflexión emocional, la vacilación, el sarcasmo, los diálogos superpuestos y el ruido de fondo, se pierde cuando el habla se reduce a texto sin formato. Esto a menudo conduce a interpretaciones erróneas de la intención o el sentimiento. El problema es especialmente grave en áreas como el servicio al cliente, la detección de fraudes, los juegos en línea y las comunicaciones impulsadas por IA, donde los matices son fundamentales para lograr resultados precisos.
Según Modulate, esta deficiencia se debe a limitaciones arquitectónicas, no a la falta de datos. Los grandes modelos lingüísticos están optimizados para predecir texto, no para integrar múltiples señales acústicas y de comportamiento en tiempo real. Los modelos de escucha conjunta se desarrollaron para salvar esta brecha.
¿Qué es un modelo de escucha conjunta?
Un modelo de escucha conjunta no es una red neuronal única y polivalente. Se trata, más bien, de un sistema coordinado compuesto por numerosos modelos especializados, cada uno de los cuales se dedica a analizar un aspecto distinto de una interacción vocal.
Dentro de un ELM, modelos independientes evalúan las emociones, los niveles de estrés, las señales de engaño, la identidad del hablante, la sincronización, los patrones del habla, el ruido de fondo y el posible uso de voces sintéticas o suplantadas. Estas señales se sincronizan a través de una capa de orquestación alineada en el tiempo, que genera una comprensión unificada e interpretable de la dinámica de la conversación.
Esta división deliberada del trabajo es fundamental para el enfoque ELM. En lugar de depender de un modelo masivo para derivar implícitamente el significado, los modelos de escucha conjunta integran múltiples perspectivas específicas, lo que mejora tanto la precisión como la explicabilidad.
Dentro de Velma 2.0
Velma 2.0 representa una importante mejora con respecto a los anteriores sistemas basados en conjuntos de Modulate. Aprovecha más de 100 modelos componentes que funcionan juntos en tiempo real, organizados en cinco capas analíticas.
La primera capa se encarga del procesamiento de audio fundamental, identificando el número de hablantes, la sincronización del habla y las pausas. La siguiente capa extrae señales acústicas, detectando estados emocionales, niveles de estrés, indicadores de engaño, características de voz sintética y ruido ambiental.
La tercera capa evalúa la intención percibida, distinguiendo entre elogios genuinos y comentarios sarcásticos u hostiles. A continuación, el modelado del comportamiento realiza un seguimiento de los patrones conversacionales a lo largo del tiempo, destacando los signos de frustración, confusión, discurso guionizado o intentos de ingeniería social. La capa final, el análisis conversacional, traduce estos hallazgos en eventos relevantes para el negocio, como la insatisfacción de los clientes, el incumplimiento de políticas, el fraude potencial o el mal funcionamiento de los agentes de IA.
Modulate informa de que Velma 2.0 interpreta el significado y la intención de la conversación con una precisión aproximadamente un 30 % mayor que los métodos líderes basados en LLM, al tiempo que es entre 10 y 100 veces más rentable a gran escala.
De la moderación de juegos a la inteligencia empresarial
Los modelos de escucha conjunta tienen sus raíces en los primeros trabajos de Modulate con los juegos en línea. Juegos populares como Call of Duty y Grand Theft Auto Online presentan algunos de los entornos de voz más exigentes: las conversaciones son rápidas, ruidosas, emocionalmente intensas y ricas en jerga y referencias contextuales.
Diferenciar las bromas juguetonas del acoso real en tiempo real requiere capacidades que van mucho más allá de la simple transcripción. Mientras operaba su herramienta de moderación de voz, ToxMod, Modulate construyó progresivamente conjuntos de modelos más sofisticados para captar estas sutilezas. La coordinación de docenas de modelos especializados se convirtió en algo esencial para lograr la precisión necesaria, lo que finalmente inspiró al equipo a formalizar este enfoque en un nuevo marco arquitectónico.
Velma 2.0 amplía esta arquitectura más allá de los videojuegos. Ahora impulsa la plataforma empresarial de Modulate, analizando cientos de millones de conversaciones en diversos sectores para detectar fraudes, conductas abusivas, insatisfacción de los clientes y comportamientos irregulares de la IA.
Un reto para los modelos básicos
Este anuncio llega en un momento en el que muchas empresas están reevaluando sus estrategias de IA. A pesar de las fuertes inversiones, un número significativo de proyectos de IA no llegan a la fase de producción o no aportan un valor sostenido. Entre los retos más comunes se encuentran las alucinaciones de la IA, el aumento de los costes de inferencia, la opacidad de los procesos de decisión y las dificultades para integrar los conocimientos de la IA en los flujos de trabajo operativos.
Los modelos de escucha conjunta (ELM) abordan estos problemas de frente. Al utilizar numerosos modelos más pequeños y especializados en lugar de un único sistema monolítico, los ELM son más baratos de ejecutar, más fáciles de auditar y más interpretables. Cada resultado puede remontarse a señales específicas, lo que proporciona a las organizaciones una visión clara de cómo se llega a las conclusiones.
Este grado de transparencia es especialmente importante en entornos regulados o de alto riesgo, en los que no se aceptan las decisiones de caja negra. Modulate considera que los ELM no son un sustituto de los grandes modelos lingüísticos, sino una arquitectura más adecuada para la inteligencia vocal de nivel empresarial.
Más allá de la conversión de voz a texto
Una de las características más innovadoras de Velma 2.0 es su capacidad para analizar cómo se dice algo, y no solo las palabras en sí. Esto incluye la identificación de voces sintéticas o suplantadas, una preocupación cada vez mayor a medida que la tecnología de generación de voz se hace más accesible.
A medida que avanza la clonación de voz, las organizaciones se enfrentan a amenazas crecientes de fraude, suplantación de identidad e ingeniería social. Al integrar la detección de voz sintética directamente en su conjunto, Velma 2.0 trata la autenticidad como una señal fundamental, no como algo secundario.
El modelado del comportamiento del sistema también permite obtener información proactiva. Puede detectar cuándo alguien está leyendo un guion, cuándo aumenta la frustración o cuándo una interacción se encamina hacia un conflicto. Estas capacidades permiten a las empresas intervenir antes y de forma más eficaz.
Una nueva dirección para la IA empresarial
Modulate caracteriza el modelo Ensemble Listening Model como una nueva clase de arquitectura de IA, distinta tanto de los procesos tradicionales de señal como de los grandes modelos básicos. La idea central es que las interacciones humanas complejas se decodifican mejor mediante la especialización coordinada que mediante el escalado por fuerza bruta.
A medida que las empresas buscan sistemas de IA que sean responsables, eficientes y estén alineados con las realidades operativas, los modelos Ensemble Listening apuntan hacia un futuro en el que la inteligencia se construye a partir de muchos componentes específicos. Con Velma 2.0 ya implementado en entornos reales, Modulate apuesta por que esta evolución arquitectónica tendrá aplicaciones mucho más allá de la moderación de voz y la atención al cliente.
En un sector que explora alternativas a los sistemas cada vez más grandes y opacos, los modelos de escucha conjunta indican que el próximo gran avance en IA puede provenir de una escucha más atenta, y no solo de una mayor potencia de cálculo.
El principal inversor de Suno: eliminar las publicaciones no tapará el agujero de la demanda por derechos de autor
La tan esperada plataforma de generación musical con IA, Suno, se enfrenta a una dura batalla por los derechos de autor, y un comentario sincero de su principal inversor podría haber proporcionado a l
Claude Opus 4.7 sale al mercado apostando por la fiabilidad por encima de la inteligencia
Anthropic ha mantenido un ritmo frenético este año, lanzando nuevas funciones casi cada dos días. El tan esperado Claude Opus 4.7 acaba de salir oficialmente al mercado y, curiosamente, Anthropic fue
Haier lanza el robot exoesqueleto deportivo con IA más ligero del mundo, con un peso de tan solo 1,75 kg
El Grupo Haier ha presentado el robot exoesqueleto con inteligencia artificial más ligero del mundo para el deporte: el Haier Exoskeleton Robot W3. Este lanzamiento establece un nuevo récord del secto











