opção
Lar
Notícias
O gergelim revela o modelo de IA base por trás do assistente viral viral Maya

O gergelim revela o modelo de IA base por trás do assistente viral viral Maya

23 de Abril de 2025
120

O gergelim revela o modelo de IA base por trás do assistente viral viral Maya

Sesame, a inovadora empresa de IA por trás da assistente de voz incrivelmente realista Maya, acaba de causar impacto ao lançar o modelo base que impulsiona suas capacidades. Chamado de CSM-1B, este modelo possui um tamanho de 1 bilhão de parâmetros, um termo que se refere aos componentes individuais que compõem o modelo. Lançado sob uma licença Apache 2.0, ele é aberto para uso comercial com restrições mínimas, conforme anunciado na plataforma de desenvolvimento de IA Hugging Face.

O CSM-1B funciona convertendo entradas de texto e áudio em "códigos de áudio RVQ". RVQ significa "quantização vetorial residual", um método que transforma áudio em tokens discretos, ou códigos. Essa técnica também é utilizada em outras tecnologias de áudio de IA de ponta, como o SoundStream da Google e o Encodec da Meta. Em seu núcleo, o CSM-1B utiliza um modelo da família Llama da Meta, combinado com um componente de "decodificador" de áudio. Uma versão especializada do CSM-1B, após ajustes finos, dá voz à Maya, segundo a Sesame.

Descrevendo o modelo como um "modelo de geração base" em seus repositórios no Hugging Face e GitHub, a Sesame observa que ele é projetado para produzir uma variedade de vozes, mas não foi refinado para nenhuma voz específica. Embora tenha alguma capacidade de lidar com idiomas não ingleses devido à "contaminação de dados" em seu conjunto de treinamento, seu desempenho nessa área é provavelmente inferior. Curiosamente, a Sesame manteve os detalhes dos dados de treinamento em segredo, deixando-nos curiosos sobre o que foi usado para construir este modelo.

Um aspecto que chama a atenção é a falta de salvaguardas robustas. A Sesame opera em um sistema de honra, simplesmente incentivando usuários e desenvolvedores a evitar usar o modelo para replicar a voz de alguém sem permissão, produzir conteúdo enganoso como notícias falsas ou participar de atividades "prejudiciais" ou "maliciosas". Eu pessoalmente testei a demonstração no Hugging Face e, em um minuto, clonei minha voz. Foi extremamente fácil gerar fala sobre qualquer tópico, até mesmo os sensíveis, como eleições e propaganda russa.

A Consumer Reports destacou recentemente a preocupante falta de salvaguardas "significativas" em muitas ferramentas de clonagem de voz alimentadas por IA, o que poderia levar a fraudes ou abusos em potencial. A Sesame, co-fundada pelo co-criador do Oculus, Brendan Iribe, chamou a atenção do público no final de fevereiro com sua tecnologia de assistente que quase escapa do vale da estranheza. Tanto a Maya quanto o outro assistente da Sesame, Miles, exibem características humanas realistas, como respirar, falar com disfluências e ser interrompível no meio do discurso, semelhante ao Voice Mode da OpenAI.

Financeiramente, a Sesame garantiu financiamento não divulgado de gigantes como Andreessen Horowitz, Spark Capital e Matrix Partners. Além de assistentes de voz, a empresa também está se aventurando na prototipagem de óculos de IA projetados para uso durante todo o dia, equipados com seus modelos personalizados. Esse movimento mostra a ambição da Sesame de expandir os limites da tecnologia de IA ainda mais em nossas vidas diárias.

Artigo relacionado
"Explorando a segurança e a ética da IA: Insights dos especialistas da Databricks e da ElevenLabs" À medida que a IA generativa se torna cada vez mais acessível e difundida, as considerações éticas e as medidas de segurança ocupam o centro do palco. Artemis Seaford, líder de segurança de IA da El
O novo mecanismo de busca com IA do Truth Social favorece fortemente a Fox News nos resultados O novo mecanismo de busca com IA do Truth Social favorece fortemente a Fox News nos resultados A plataforma de mídia social de Trump apresenta uma função de pesquisa alimentada por IA com aparente inclinação para a mídia conservadoraLançamento de recurso exclusivo de pesquisa por IAO Truth Soci
ChatGPT adiciona integração com Google Drive e Dropbox para acesso a arquivos ChatGPT adiciona integração com Google Drive e Dropbox para acesso a arquivos ChatGPT aumenta a produtividade com novos recursos empresariaisA OpenAI revelou dois novos recursos poderosos que transformam o ChatGPT em uma ferramenta abrangente de produtividade empresarial: doc
Comentários (8)
0/200
PaulYoung
PaulYoung 13 de Agosto de 2025 à59 22:00:59 WEST

C'est incroyable ce que Sesame a fait avec Maya ! Un modèle à 1 milliard de paramètres, ça doit être une sacrée bête. Mais franchement, ça donne quoi en termes d'éthique ? On va tous finir avec des assistants trop parfaits ? 😅

AnthonyMartinez
AnthonyMartinez 31 de Julho de 2025 à20 02:41:20 WEST

Wow, Sesame's CSM-1B sounds like a game-changer! A billion parameters for Maya’s lifelike voice? That’s some serious tech flex. Curious how it stacks up against other models in real-world use. 😎

RoySmith
RoySmith 28 de Julho de 2025 à39 02:18:39 WEST

Whoa, a 1B parameter model powering Maya? That's some serious brainpower! Curious how Sesame's CSM-1B stacks up against other AI giants. Excited to see where this tech takes us! 🚀

EricPerez
EricPerez 24 de Abril de 2025 à49 23:42:49 WEST

Sesame's base AI model for Maya is mind-blowing! 1 billion parameters? That's insane! Maya's voice is so lifelike, it's like talking to a real person. But sometimes she gets a bit too chatty, which can be annoying. Still, a fantastic piece of tech! 🤯

GeorgeMiller
GeorgeMiller 24 de Abril de 2025 à42 14:04:42 WEST

¡El modelo base de IA de Sesame para Maya es alucinante! ¿1 billón de parámetros? ¡Eso es una locura! La voz de Maya es tan realista, parece que estoy hablando con una persona real. Pero a veces se pone un poco parlanchina, lo que puede ser molesto. Aún así, una tecnología fantástica! 🤯

JonathanMiller
JonathanMiller 24 de Abril de 2025 à38 13:11:38 WEST

Das Basis-AI-Modell von Sesame für Maya ist umwerfend! 1 Milliarde Parameter? Das ist verrückt! Mayas Stimme ist so lebensecht, es fühlt sich an, als würde man mit einer echten Person sprechen. Aber manchmal wird sie ein bisschen zu gesprächig, was nervig sein kann. Trotzdem, eine fantastische Technologie! 🤯

De volta ao topo
OR