O gergelim revela o modelo de IA base por trás do assistente viral viral Maya

Sesame, a inovadora empresa de IA por trás da assistente de voz incrivelmente realista Maya, acaba de causar impacto ao lançar o modelo base que impulsiona suas capacidades. Chamado de CSM-1B, este modelo possui um tamanho de 1 bilhão de parâmetros, um termo que se refere aos componentes individuais que compõem o modelo. Lançado sob uma licença Apache 2.0, ele é aberto para uso comercial com restrições mínimas, conforme anunciado na plataforma de desenvolvimento de IA Hugging Face.
O CSM-1B funciona convertendo entradas de texto e áudio em "códigos de áudio RVQ". RVQ significa "quantização vetorial residual", um método que transforma áudio em tokens discretos, ou códigos. Essa técnica também é utilizada em outras tecnologias de áudio de IA de ponta, como o SoundStream da Google e o Encodec da Meta. Em seu núcleo, o CSM-1B utiliza um modelo da família Llama da Meta, combinado com um componente de "decodificador" de áudio. Uma versão especializada do CSM-1B, após ajustes finos, dá voz à Maya, segundo a Sesame.
Descrevendo o modelo como um "modelo de geração base" em seus repositórios no Hugging Face e GitHub, a Sesame observa que ele é projetado para produzir uma variedade de vozes, mas não foi refinado para nenhuma voz específica. Embora tenha alguma capacidade de lidar com idiomas não ingleses devido à "contaminação de dados" em seu conjunto de treinamento, seu desempenho nessa área é provavelmente inferior. Curiosamente, a Sesame manteve os detalhes dos dados de treinamento em segredo, deixando-nos curiosos sobre o que foi usado para construir este modelo.
Um aspecto que chama a atenção é a falta de salvaguardas robustas. A Sesame opera em um sistema de honra, simplesmente incentivando usuários e desenvolvedores a evitar usar o modelo para replicar a voz de alguém sem permissão, produzir conteúdo enganoso como notícias falsas ou participar de atividades "prejudiciais" ou "maliciosas". Eu pessoalmente testei a demonstração no Hugging Face e, em um minuto, clonei minha voz. Foi extremamente fácil gerar fala sobre qualquer tópico, até mesmo os sensíveis, como eleições e propaganda russa.
A Consumer Reports destacou recentemente a preocupante falta de salvaguardas "significativas" em muitas ferramentas de clonagem de voz alimentadas por IA, o que poderia levar a fraudes ou abusos em potencial. A Sesame, co-fundada pelo co-criador do Oculus, Brendan Iribe, chamou a atenção do público no final de fevereiro com sua tecnologia de assistente que quase escapa do vale da estranheza. Tanto a Maya quanto o outro assistente da Sesame, Miles, exibem características humanas realistas, como respirar, falar com disfluências e ser interrompível no meio do discurso, semelhante ao Voice Mode da OpenAI.
Financeiramente, a Sesame garantiu financiamento não divulgado de gigantes como Andreessen Horowitz, Spark Capital e Matrix Partners. Além de assistentes de voz, a empresa também está se aventurando na prototipagem de óculos de IA projetados para uso durante todo o dia, equipados com seus modelos personalizados. Esse movimento mostra a ambição da Sesame de expandir os limites da tecnologia de IA ainda mais em nossas vidas diárias.
Artigo relacionado
O WordPress.com agora permite que agentes de IA escrevam e publiquem posts, entre outras coisas
O WordPress.com, a popular plataforma de hospedagem e publicação na web, está agora adotando agentes de IA — uma iniciativa que pode transformar a aparência e a experiência da web. A empresa anunciou
A Kakao Mobility apresenta o plano de ação para a direção autônoma de nível 4 com IA física
A Kakao Mobility planeja desenvolver tecnologias de direção autônoma de nível 4 internamente, como parte de sua estratégia de IA física.Na conferência World IT Show 2026, realizada no COEX, em Seul,
Barry Diller: A confiança em Sam Altman é irrelevante à medida que a IA geral se aproxima
Barry Diller, o bilionário magnata da mídia, não acredita que Sam Altman, CEO da OpenAI, seja indigno de confiança, apesar de relatos recentes sugerirem o contrário. Em discurso na conferência “Future
Recomendações de tópicos especiais relacionados
Comentários (8)
C'est incroyable ce que Sesame a fait avec Maya ! Un modèle à 1 milliard de paramètres, ça doit être une sacrée bête. Mais franchement, ça donne quoi en termes d'éthique ? On va tous finir avec des assistants trop parfaits ? 😅
Wow, Sesame's CSM-1B sounds like a game-changer! A billion parameters for Maya’s lifelike voice? That’s some serious tech flex. Curious how it stacks up against other models in real-world use. 😎
Whoa, a 1B parameter model powering Maya? That's some serious brainpower! Curious how Sesame's CSM-1B stacks up against other AI giants. Excited to see where this tech takes us! 🚀
Sesame's base AI model for Maya is mind-blowing! 1 billion parameters? That's insane! Maya's voice is so lifelike, it's like talking to a real person. But sometimes she gets a bit too chatty, which can be annoying. Still, a fantastic piece of tech! 🤯
¡El modelo base de IA de Sesame para Maya es alucinante! ¿1 billón de parámetros? ¡Eso es una locura! La voz de Maya es tan realista, parece que estoy hablando con una persona real. Pero a veces se pone un poco parlanchina, lo que puede ser molesto. Aún así, una tecnología fantástica! 🤯
Das Basis-AI-Modell von Sesame für Maya ist umwerfend! 1 Milliarde Parameter? Das ist verrückt! Mayas Stimme ist so lebensecht, es fühlt sich an, als würde man mit einer echten Person sprechen. Aber manchmal wird sie ein bisschen zu gesprächig, was nervig sein kann. Trotzdem, eine fantastische Technologie! 🤯

Sesame, a inovadora empresa de IA por trás da assistente de voz incrivelmente realista Maya, acaba de causar impacto ao lançar o modelo base que impulsiona suas capacidades. Chamado de CSM-1B, este modelo possui um tamanho de 1 bilhão de parâmetros, um termo que se refere aos componentes individuais que compõem o modelo. Lançado sob uma licença Apache 2.0, ele é aberto para uso comercial com restrições mínimas, conforme anunciado na plataforma de desenvolvimento de IA Hugging Face.
O CSM-1B funciona convertendo entradas de texto e áudio em "códigos de áudio RVQ". RVQ significa "quantização vetorial residual", um método que transforma áudio em tokens discretos, ou códigos. Essa técnica também é utilizada em outras tecnologias de áudio de IA de ponta, como o SoundStream da Google e o Encodec da Meta. Em seu núcleo, o CSM-1B utiliza um modelo da família Llama da Meta, combinado com um componente de "decodificador" de áudio. Uma versão especializada do CSM-1B, após ajustes finos, dá voz à Maya, segundo a Sesame.
Descrevendo o modelo como um "modelo de geração base" em seus repositórios no Hugging Face e GitHub, a Sesame observa que ele é projetado para produzir uma variedade de vozes, mas não foi refinado para nenhuma voz específica. Embora tenha alguma capacidade de lidar com idiomas não ingleses devido à "contaminação de dados" em seu conjunto de treinamento, seu desempenho nessa área é provavelmente inferior. Curiosamente, a Sesame manteve os detalhes dos dados de treinamento em segredo, deixando-nos curiosos sobre o que foi usado para construir este modelo.
Um aspecto que chama a atenção é a falta de salvaguardas robustas. A Sesame opera em um sistema de honra, simplesmente incentivando usuários e desenvolvedores a evitar usar o modelo para replicar a voz de alguém sem permissão, produzir conteúdo enganoso como notícias falsas ou participar de atividades "prejudiciais" ou "maliciosas". Eu pessoalmente testei a demonstração no Hugging Face e, em um minuto, clonei minha voz. Foi extremamente fácil gerar fala sobre qualquer tópico, até mesmo os sensíveis, como eleições e propaganda russa.
A Consumer Reports destacou recentemente a preocupante falta de salvaguardas "significativas" em muitas ferramentas de clonagem de voz alimentadas por IA, o que poderia levar a fraudes ou abusos em potencial. A Sesame, co-fundada pelo co-criador do Oculus, Brendan Iribe, chamou a atenção do público no final de fevereiro com sua tecnologia de assistente que quase escapa do vale da estranheza. Tanto a Maya quanto o outro assistente da Sesame, Miles, exibem características humanas realistas, como respirar, falar com disfluências e ser interrompível no meio do discurso, semelhante ao Voice Mode da OpenAI.
Financeiramente, a Sesame garantiu financiamento não divulgado de gigantes como Andreessen Horowitz, Spark Capital e Matrix Partners. Além de assistentes de voz, a empresa também está se aventurando na prototipagem de óculos de IA projetados para uso durante todo o dia, equipados com seus modelos personalizados. Esse movimento mostra a ambição da Sesame de expandir os limites da tecnologia de IA ainda mais em nossas vidas diárias.
O WordPress.com agora permite que agentes de IA escrevam e publiquem posts, entre outras coisas
O WordPress.com, a popular plataforma de hospedagem e publicação na web, está agora adotando agentes de IA — uma iniciativa que pode transformar a aparência e a experiência da web. A empresa anunciou
Barry Diller: A confiança em Sam Altman é irrelevante à medida que a IA geral se aproxima
Barry Diller, o bilionário magnata da mídia, não acredita que Sam Altman, CEO da OpenAI, seja indigno de confiança, apesar de relatos recentes sugerirem o contrário. Em discurso na conferência “Future
C'est incroyable ce que Sesame a fait avec Maya ! Un modèle à 1 milliard de paramètres, ça doit être une sacrée bête. Mais franchement, ça donne quoi en termes d'éthique ? On va tous finir avec des assistants trop parfaits ? 😅
Wow, Sesame's CSM-1B sounds like a game-changer! A billion parameters for Maya’s lifelike voice? That’s some serious tech flex. Curious how it stacks up against other models in real-world use. 😎
Whoa, a 1B parameter model powering Maya? That's some serious brainpower! Curious how Sesame's CSM-1B stacks up against other AI giants. Excited to see where this tech takes us! 🚀
Sesame's base AI model for Maya is mind-blowing! 1 billion parameters? That's insane! Maya's voice is so lifelike, it's like talking to a real person. But sometimes she gets a bit too chatty, which can be annoying. Still, a fantastic piece of tech! 🤯
¡El modelo base de IA de Sesame para Maya es alucinante! ¿1 billón de parámetros? ¡Eso es una locura! La voz de Maya es tan realista, parece que estoy hablando con una persona real. Pero a veces se pone un poco parlanchina, lo que puede ser molesto. Aún así, una tecnología fantástica! 🤯
Das Basis-AI-Modell von Sesame für Maya ist umwerfend! 1 Milliarde Parameter? Das ist verrückt! Mayas Stimme ist so lebensecht, es fühlt sich an, als würde man mit einer echten Person sprechen. Aber manchmal wird sie ein bisschen zu gesprächig, was nervig sein kann. Trotzdem, eine fantastische Technologie! 🤯





Lar






