Lar
Modulate lança modelos de escuta em conjunto para transformar a compreensão de voz por IA

Embora a inteligência artificial tenha feito progressos notáveis, um domínio continua a representar um desafio significativo: compreender genuinamente a fala humana. Isso vai além da transcrição de palavras para a interpretação das emoções subjacentes, da intenção transmitida através do tom e do ritmo, e das pistas sutis que diferenciam uma provocação amigável de uma frustração genuína, decepção ou intenção prejudicial. Hoje, a Modulate anunciou um grande salto à frente com seu Ensemble Listening Model (ELM), uma nova arquitetura de IA projetada especificamente para a compreensão da voz no mundo real.
Juntamente com a divulgação dessa pesquisa, a Modulate lançou o Velma 2.0, o primeiro sistema operacional alimentado por um Ensemble Listening Model. A empresa afirma que o Velma 2.0 supera os principais modelos básicos em precisão conversacional, ao mesmo tempo em que opera a um custo significativamente menor — uma afirmação atraente, à medida que as empresas examinam cada vez mais a viabilidade financeira de implementações de IA em grande escala.
Por que a voz representa um desafio para a IA
A maioria dos sistemas de IA projetados para analisar a fala segue um procedimento padrão: o áudio é primeiro convertido em texto e essa transcrição é então analisada por um grande modelo de linguagem. Embora esse método funcione bem para transcrição e resumo, ele elimina os elementos que conferem riqueza à comunicação falada.
Informações contextuais cruciais — como tom, inflexão emocional, hesitação, sarcasmo, diálogo sobreposto e ruído de fundo — são perdidas quando a fala é reduzida a texto simples. Isso muitas vezes leva a interpretações errôneas de intenção ou sentimento. O problema é especialmente grave em áreas como atendimento ao cliente, detecção de fraudes, jogos online e comunicações baseadas em IA, onde as nuances são fundamentais para obter resultados precisos.
De acordo com a Modulate, essa deficiência decorre de limitações arquitetônicas, não da falta de dados. Os grandes modelos de linguagem são otimizados para prever texto, não para integrar vários sinais acústicos e comportamentais em tempo real. Os modelos de escuta em conjunto foram desenvolvidos para preencher essa lacuna.
O que é um modelo de escuta em conjunto?
Um modelo de escuta em conjunto não é uma rede neural única e multifuncional. Em vez disso, é um sistema coordenado composto por vários modelos especializados, cada um dedicado a analisar um aspecto distinto de uma interação de voz.
Dentro de um ELM, modelos separados avaliam emoções, níveis de estresse, sinais de engano, identidade do locutor, tempo, padrões de fala, ruído de fundo e o uso potencial de vozes sintéticas ou falsificadas. Esses sinais são sincronizados por meio de uma camada de orquestração alinhada no tempo, que gera uma compreensão unificada e interpretável da dinâmica da conversa.
Essa divisão deliberada de tarefas é fundamental para a abordagem ELM. Em vez de depender de um modelo único e massivo para derivar implicitamente o significado, os Modelos de Escuta em Conjunto integram múltiplas perspectivas direcionadas, aumentando tanto a precisão quanto a explicabilidade.
Por dentro do Velma 2.0
O Velma 2.0 representa uma grande atualização em relação aos sistemas anteriores baseados em conjunto da Modulate. Ele aproveita mais de 100 modelos de componentes operando juntos em tempo real, organizados em cinco camadas analíticas.
A primeira camada lida com o processamento de áudio fundamental, identificando o número de falantes, o tempo da fala e as pausas. A camada seguinte extrai sinais acústicos, detectando estados emocionais, níveis de estresse, indicadores de engano, características de voz sintética e ruído ambiente.
A terceira camada avalia a intenção percebida, distinguindo entre elogios genuínos e comentários sarcásticos ou hostis. A modelagem de comportamento rastreia os padrões de conversação ao longo do tempo, destacando sinais de frustração, confusão, discurso ensaiado ou tentativas de engenharia social. A camada final, a análise conversacional, traduz essas descobertas em eventos relevantes para os negócios, como insatisfação do cliente, violações de políticas, possíveis fraudes ou mau funcionamento de agentes de IA.
A Modulate relata que o Velma 2.0 interpreta o significado e a intenção da conversa com aproximadamente 30% mais precisão do que os principais métodos baseados em LLM, ao mesmo tempo em que é 10 a 100 vezes mais econômico em escala.
Da moderação de jogos à inteligência empresarial
Os modelos de escuta em conjunto têm suas raízes no trabalho inicial da Modulate com jogos online. Jogos populares como Call of Duty e Grand Theft Auto Online apresentam alguns dos ambientes de voz mais exigentes — as conversas são rápidas, barulhentas, emocionalmente intensas e ricas em gírias e referências contextuais.
Diferenciar brincadeiras divertidas de assédio real em tempo real requer recursos muito além da simples transcrição. Ao operar sua ferramenta de moderação de voz, ToxMod, a Modulate construiu progressivamente conjuntos de modelos mais sofisticados para capturar essas sutilezas. Coordenar dezenas de modelos especializados tornou-se essencial para alcançar a precisão necessária, inspirando a equipe a formalizar essa abordagem em uma nova estrutura arquitetônica.
O Velma 2.0 estende essa arquitetura para além dos jogos. Agora, ele impulsiona a plataforma empresarial da Modulate, analisando centenas de milhões de conversas em vários setores para detectar fraudes, condutas abusivas, insatisfação do cliente e comportamento irregular da IA.
Um desafio para os modelos básicos
Este anúncio chega em um momento em que muitas empresas estão reavaliando suas estratégias de IA. Apesar dos pesados investimentos, um número significativo de projetos de IA não chega à produção ou não oferece valor sustentável. Os desafios comuns incluem alucinações de IA, custos crescentes de inferência, processos de decisão opacos e dificuldades para integrar os insights de IA aos fluxos de trabalho operacionais.
Os modelos de escuta em conjunto (ELMs) abordam essas questões de frente. Ao usar vários modelos menores e especializados em vez de um único sistema monolítico, os ELMs são mais baratos de operar, mais simples de auditar e mais interpretáveis. Cada resultado pode ser rastreado até sinais específicos, dando às organizações uma visão clara de como as conclusões são alcançadas.
Esse grau de transparência é particularmente vital em ambientes regulamentados ou de alto risco, onde decisões de caixa preta não são aceitáveis. Modular os ELMs não como um substituto para grandes modelos de linguagem, mas como uma arquitetura mais adequada para inteligência de voz de nível empresarial.
Além da conversão de voz em texto
Um dos recursos mais inovadores do Velma 2.0 é sua capacidade de analisar como algo é dito, não apenas as palavras em si. Isso inclui identificar vozes sintéticas ou falsificadas — uma preocupação crescente à medida que a tecnologia de geração de voz se torna mais amplamente disponível.
À medida que a clonagem de voz avança, as organizações enfrentam ameaças crescentes de fraude, falsificação de identidade e engenharia social. Ao integrar a detecção de voz sintética diretamente em seu conjunto, o Velma 2.0 trata a autenticidade como um sinal fundamental, não como algo secundário.
A modelagem comportamental do sistema também permite insights proativos. Ele pode detectar quando alguém está lendo um roteiro, quando a frustração está aumentando ou quando uma interação está caminhando para um conflito. Esses recursos permitem que as empresas intervenham mais cedo e de forma mais eficaz.
Uma nova direção para a IA empresarial
A Modulate caracteriza o Modelo de Escuta Ensemble como uma nova classe de arquitetura de IA, distinta tanto dos pipelines tradicionais de processamento de sinais quanto dos grandes modelos de base. A ideia central é que as interações humanas complexas são melhor decodificadas por meio da especialização coordenada, em vez do escalonamento por força bruta.
À medida que as empresas buscam sistemas de IA que sejam responsáveis, eficientes e alinhados com as realidades operacionais, os Ensemble Listening Models apontam para um futuro em que a inteligência é construída a partir de muitos componentes focados. Com o Velma 2.0 agora implantado em ambientes ao vivo, a Modulate está apostando que essa evolução arquitetônica terá aplicações muito além da moderação de voz e do suporte ao cliente.
Em um setor que explora alternativas para sistemas cada vez maiores e mais opacos, os modelos de escuta em conjunto indicam que o próximo grande avanço em IA pode vir de uma escuta mais atenta, e não apenas de um processamento mais potente.
Artigo relacionado
Principal investidor da Suno: a exclusão de publicações não resolverá o problema do processo por violação de direitos autorais
A tão esperada plataforma de geração musical por IA, Suno, enfrenta uma dura batalha judicial sobre direitos autorais, e um comentário sincero de seu principal investidor pode ter dado ao lado adversá
Claude Opus 4.7 é lançado com a confiabilidade em detrimento da inteligência
A Anthropic manteve um ritmo acelerado este ano, lançando novos recursos quase a cada dois dias. O tão aguardado Claude Opus 4.7 acaba de ser lançado oficialmente e, curiosamente, a Anthropic foi dire
A Haier lança o robô exoesqueleto esportivo com IA mais leve do mundo, pesando apenas 1,75 kg
O Grupo Haier apresentou o robô exoesqueleto com inteligência artificial mais leve do mundo para esportes — o Haier Exoskeleton Robot W3. Este lançamento estabelece um novo recorde do setor em termos
Recomendações de tópicos especiais relacionados
Comentários (0)

Embora a inteligência artificial tenha feito progressos notáveis, um domínio continua a representar um desafio significativo: compreender genuinamente a fala humana. Isso vai além da transcrição de palavras para a interpretação das emoções subjacentes, da intenção transmitida através do tom e do ritmo, e das pistas sutis que diferenciam uma provocação amigável de uma frustração genuína, decepção ou intenção prejudicial. Hoje, a Modulate anunciou um grande salto à frente com seu Ensemble Listening Model (ELM), uma nova arquitetura de IA projetada especificamente para a compreensão da voz no mundo real.
Juntamente com a divulgação dessa pesquisa, a Modulate lançou o Velma 2.0, o primeiro sistema operacional alimentado por um Ensemble Listening Model. A empresa afirma que o Velma 2.0 supera os principais modelos básicos em precisão conversacional, ao mesmo tempo em que opera a um custo significativamente menor — uma afirmação atraente, à medida que as empresas examinam cada vez mais a viabilidade financeira de implementações de IA em grande escala.
Por que a voz representa um desafio para a IA
A maioria dos sistemas de IA projetados para analisar a fala segue um procedimento padrão: o áudio é primeiro convertido em texto e essa transcrição é então analisada por um grande modelo de linguagem. Embora esse método funcione bem para transcrição e resumo, ele elimina os elementos que conferem riqueza à comunicação falada.
Informações contextuais cruciais — como tom, inflexão emocional, hesitação, sarcasmo, diálogo sobreposto e ruído de fundo — são perdidas quando a fala é reduzida a texto simples. Isso muitas vezes leva a interpretações errôneas de intenção ou sentimento. O problema é especialmente grave em áreas como atendimento ao cliente, detecção de fraudes, jogos online e comunicações baseadas em IA, onde as nuances são fundamentais para obter resultados precisos.
De acordo com a Modulate, essa deficiência decorre de limitações arquitetônicas, não da falta de dados. Os grandes modelos de linguagem são otimizados para prever texto, não para integrar vários sinais acústicos e comportamentais em tempo real. Os modelos de escuta em conjunto foram desenvolvidos para preencher essa lacuna.
O que é um modelo de escuta em conjunto?
Um modelo de escuta em conjunto não é uma rede neural única e multifuncional. Em vez disso, é um sistema coordenado composto por vários modelos especializados, cada um dedicado a analisar um aspecto distinto de uma interação de voz.
Dentro de um ELM, modelos separados avaliam emoções, níveis de estresse, sinais de engano, identidade do locutor, tempo, padrões de fala, ruído de fundo e o uso potencial de vozes sintéticas ou falsificadas. Esses sinais são sincronizados por meio de uma camada de orquestração alinhada no tempo, que gera uma compreensão unificada e interpretável da dinâmica da conversa.
Essa divisão deliberada de tarefas é fundamental para a abordagem ELM. Em vez de depender de um modelo único e massivo para derivar implicitamente o significado, os Modelos de Escuta em Conjunto integram múltiplas perspectivas direcionadas, aumentando tanto a precisão quanto a explicabilidade.
Por dentro do Velma 2.0
O Velma 2.0 representa uma grande atualização em relação aos sistemas anteriores baseados em conjunto da Modulate. Ele aproveita mais de 100 modelos de componentes operando juntos em tempo real, organizados em cinco camadas analíticas.
A primeira camada lida com o processamento de áudio fundamental, identificando o número de falantes, o tempo da fala e as pausas. A camada seguinte extrai sinais acústicos, detectando estados emocionais, níveis de estresse, indicadores de engano, características de voz sintética e ruído ambiente.
A terceira camada avalia a intenção percebida, distinguindo entre elogios genuínos e comentários sarcásticos ou hostis. A modelagem de comportamento rastreia os padrões de conversação ao longo do tempo, destacando sinais de frustração, confusão, discurso ensaiado ou tentativas de engenharia social. A camada final, a análise conversacional, traduz essas descobertas em eventos relevantes para os negócios, como insatisfação do cliente, violações de políticas, possíveis fraudes ou mau funcionamento de agentes de IA.
A Modulate relata que o Velma 2.0 interpreta o significado e a intenção da conversa com aproximadamente 30% mais precisão do que os principais métodos baseados em LLM, ao mesmo tempo em que é 10 a 100 vezes mais econômico em escala.
Da moderação de jogos à inteligência empresarial
Os modelos de escuta em conjunto têm suas raízes no trabalho inicial da Modulate com jogos online. Jogos populares como Call of Duty e Grand Theft Auto Online apresentam alguns dos ambientes de voz mais exigentes — as conversas são rápidas, barulhentas, emocionalmente intensas e ricas em gírias e referências contextuais.
Diferenciar brincadeiras divertidas de assédio real em tempo real requer recursos muito além da simples transcrição. Ao operar sua ferramenta de moderação de voz, ToxMod, a Modulate construiu progressivamente conjuntos de modelos mais sofisticados para capturar essas sutilezas. Coordenar dezenas de modelos especializados tornou-se essencial para alcançar a precisão necessária, inspirando a equipe a formalizar essa abordagem em uma nova estrutura arquitetônica.
O Velma 2.0 estende essa arquitetura para além dos jogos. Agora, ele impulsiona a plataforma empresarial da Modulate, analisando centenas de milhões de conversas em vários setores para detectar fraudes, condutas abusivas, insatisfação do cliente e comportamento irregular da IA.
Um desafio para os modelos básicos
Este anúncio chega em um momento em que muitas empresas estão reavaliando suas estratégias de IA. Apesar dos pesados investimentos, um número significativo de projetos de IA não chega à produção ou não oferece valor sustentável. Os desafios comuns incluem alucinações de IA, custos crescentes de inferência, processos de decisão opacos e dificuldades para integrar os insights de IA aos fluxos de trabalho operacionais.
Os modelos de escuta em conjunto (ELMs) abordam essas questões de frente. Ao usar vários modelos menores e especializados em vez de um único sistema monolítico, os ELMs são mais baratos de operar, mais simples de auditar e mais interpretáveis. Cada resultado pode ser rastreado até sinais específicos, dando às organizações uma visão clara de como as conclusões são alcançadas.
Esse grau de transparência é particularmente vital em ambientes regulamentados ou de alto risco, onde decisões de caixa preta não são aceitáveis. Modular os ELMs não como um substituto para grandes modelos de linguagem, mas como uma arquitetura mais adequada para inteligência de voz de nível empresarial.
Além da conversão de voz em texto
Um dos recursos mais inovadores do Velma 2.0 é sua capacidade de analisar como algo é dito, não apenas as palavras em si. Isso inclui identificar vozes sintéticas ou falsificadas — uma preocupação crescente à medida que a tecnologia de geração de voz se torna mais amplamente disponível.
À medida que a clonagem de voz avança, as organizações enfrentam ameaças crescentes de fraude, falsificação de identidade e engenharia social. Ao integrar a detecção de voz sintética diretamente em seu conjunto, o Velma 2.0 trata a autenticidade como um sinal fundamental, não como algo secundário.
A modelagem comportamental do sistema também permite insights proativos. Ele pode detectar quando alguém está lendo um roteiro, quando a frustração está aumentando ou quando uma interação está caminhando para um conflito. Esses recursos permitem que as empresas intervenham mais cedo e de forma mais eficaz.
Uma nova direção para a IA empresarial
A Modulate caracteriza o Modelo de Escuta Ensemble como uma nova classe de arquitetura de IA, distinta tanto dos pipelines tradicionais de processamento de sinais quanto dos grandes modelos de base. A ideia central é que as interações humanas complexas são melhor decodificadas por meio da especialização coordenada, em vez do escalonamento por força bruta.
À medida que as empresas buscam sistemas de IA que sejam responsáveis, eficientes e alinhados com as realidades operacionais, os Ensemble Listening Models apontam para um futuro em que a inteligência é construída a partir de muitos componentes focados. Com o Velma 2.0 agora implantado em ambientes ao vivo, a Modulate está apostando que essa evolução arquitetônica terá aplicações muito além da moderação de voz e do suporte ao cliente.
Em um setor que explora alternativas para sistemas cada vez maiores e mais opacos, os modelos de escuta em conjunto indicam que o próximo grande avanço em IA pode vir de uma escuta mais atenta, e não apenas de um processamento mais potente.
Principal investidor da Suno: a exclusão de publicações não resolverá o problema do processo por violação de direitos autorais
A tão esperada plataforma de geração musical por IA, Suno, enfrenta uma dura batalha judicial sobre direitos autorais, e um comentário sincero de seu principal investidor pode ter dado ao lado adversá
Claude Opus 4.7 é lançado com a confiabilidade em detrimento da inteligência
A Anthropic manteve um ritmo acelerado este ano, lançando novos recursos quase a cada dois dias. O tão aguardado Claude Opus 4.7 acaba de ser lançado oficialmente e, curiosamente, a Anthropic foi dire
A Haier lança o robô exoesqueleto esportivo com IA mais leve do mundo, pesando apenas 1,75 kg
O Grupo Haier apresentou o robô exoesqueleto com inteligência artificial mais leve do mundo para esportes — o Haier Exoskeleton Robot W3. Este lançamento estabelece um novo recorde do setor em termos











