O gergelim revela o modelo de IA base por trás do assistente viral viral Maya

O gergelim, a inovadora empresa de IA por trás do impressionante assistente de voz de voz, Maya, acaba de fazer ondas liberando o modelo básico que impulsiona suas capacidades. Apelidado de CSM-1B, este modelo possui um tamanho de 1 bilhão de parâmetros, um termo que se refere aos componentes individuais que compõem o modelo. Lançado com uma licença Apache 2.0, está aberta para uso comercial com restrições mínimas, conforme anunciado na plataforma de desenvolvimento da IA, abraçando o rosto.
As funções CSM-1B convertendo entradas de texto e áudio em "códigos de áudio RVQ". O RVQ significa "quantização de vetores residuais", um método que transforma o áudio em tokens ou códigos discretos. Essa técnica também é utilizada em outras tecnologias de áudio de AI de ponta, como o SoundStream do Google e o Encodec do Meta. Na sua essência, o CSM-1B aproveita um modelo da família Llama da Meta, combinada com um componente "decodificador" de áudio. Uma versão especializada do CSM-1B, após o ajuste fino, alimenta a voz de Maya, de acordo com o gergelim.
Descrevendo o modelo como um "modelo de geração de base" em seus repositórios abraçados de rosto e github, o gergelim observa que ele foi projetado para produzir uma variedade de vozes, mas não foi refinado para nenhuma voz específica. Embora ele tenha alguma capacidade de lidar com idiomas não ingleses, graças à "contaminação dos dados" em seu conjunto de treinamento, seu desempenho nessa área é provavelmente abaixo. Curiosamente, a gergelim manteve os detalhes dos dados de treinamento em sigilo, deixando -nos curiosos sobre o que foi necessário para construir esse modelo.
Um aspecto que levanta as sobrancelhas é a falta de salvaguardas robustas. O gergelim opera em um sistema de honra, simplesmente incentivando usuários e desenvolvedores a evitar o uso do modelo para replicar a voz de alguém sem permissão, produzir conteúdo enganoso, como notícias falsas ou participar de qualquer atividades "prejudiciais" ou "maliciosas". Pessoalmente, testei a demonstração em abraçar o rosto e, em um minuto, eu havia clonado minha voz. Foi muito fácil gerar discursos sobre qualquer tópico, mesmo sensíveis, como a eleição e a propaganda russa.
Os relatórios do consumidor destacaram recentemente a falta de salvaguardas "significativas" em muitas ferramentas de clonagem de voz movidas a IA, o que poderia levar a possíveis fraudes ou abusos. O gergelim, co-fundado pelo co-criador da Oculus, Brendan Iribe, chamou a atenção do público no final de fevereiro com sua tecnologia assistente que quase escapa ao vale estranho. Tanto o outro assistente de Maya quanto a Vila, Miles, exibem traços realistas do tipo humano, como respirar, falar com disfluências e ser interrompível no meio da fala, semelhante ao modo de voz do OpenAI.
Financeiramente, a gergelim garantiu financiamento não revelado de pesos pesados como Andreessen Horowitz, Spark Capital e Matrix Partners. Além dos assistentes de voz, a empresa também está se aventurando na prototipagem de óculos de AI destinados ao desgaste durante todo o dia, equipado com seus modelos personalizados. Esse movimento mostra a ambição da Vila de Sesame de ultrapassar ainda mais os limites da tecnologia de IA em nossas vidas diárias.
Artigo relacionado
Alibaba Revela Wan2.1-VACE: Solução de Vídeo de IA de Código Aberto
Alibaba apresentou o Wan2.1-VACE, um modelo de IA de código aberto pronto para transformar os processos de criação e edição de vídeos.VACE é um componente chave da família de modelos de IA de vídeo Wa
IBM Power11 Impulsiona IA Empresarial com Desempenho Ininterrupto
Os servidores empresariais Power11 da IBM abordam um problema chave na computação empresarial: implantar cargas de trabalho de IA enquanto mantêm a robusta confiabilidade necessária para aplicações cr
Experimento de Varejo Alimentado por IA Falha Espetacularmente na Anthropic
Imagine entregar uma pequena loja a uma inteligência artificial, confiando a ela tudo, desde a precificação até as interações com os clientes. O que poderia dar errado?Um estudo recente da Anthropic,
Comentários (7)
0/200
AnthonyMartinez
31 de Julho de 2025 à20 02:41:20 WEST
Wow, Sesame's CSM-1B sounds like a game-changer! A billion parameters for Maya’s lifelike voice? That’s some serious tech flex. Curious how it stacks up against other models in real-world use. 😎
0
RoySmith
28 de Julho de 2025 à39 02:18:39 WEST
Whoa, a 1B parameter model powering Maya? That's some serious brainpower! Curious how Sesame's CSM-1B stacks up against other AI giants. Excited to see where this tech takes us! 🚀
0
EricPerez
24 de Abril de 2025 à49 23:42:49 WEST
Sesame's base AI model for Maya is mind-blowing! 1 billion parameters? That's insane! Maya's voice is so lifelike, it's like talking to a real person. But sometimes she gets a bit too chatty, which can be annoying. Still, a fantastic piece of tech! 🤯
0
GeorgeMiller
24 de Abril de 2025 à42 14:04:42 WEST
¡El modelo base de IA de Sesame para Maya es alucinante! ¿1 billón de parámetros? ¡Eso es una locura! La voz de Maya es tan realista, parece que estoy hablando con una persona real. Pero a veces se pone un poco parlanchina, lo que puede ser molesto. Aún así, una tecnología fantástica! 🤯
0
JonathanMiller
24 de Abril de 2025 à38 13:11:38 WEST
Das Basis-AI-Modell von Sesame für Maya ist umwerfend! 1 Milliarde Parameter? Das ist verrückt! Mayas Stimme ist so lebensecht, es fühlt sich an, als würde man mit einer echten Person sprechen. Aber manchmal wird sie ein bisschen zu gesprächig, was nervig sein kann. Trotzdem, eine fantastische Technologie! 🤯
0
TimothyMitchell
24 de Abril de 2025 à54 08:25:54 WEST
SesameのMayaの基礎AIモデルは驚異的!10億のパラメータ?それは狂ってる!Mayaの声は本当にリアルで、まるで本物の人と話しているみたい。ただ、時々彼女がちょっとおしゃべりすぎてうざい時がある。それでも、素晴らしい技術だよ!🤯
0
O gergelim, a inovadora empresa de IA por trás do impressionante assistente de voz de voz, Maya, acaba de fazer ondas liberando o modelo básico que impulsiona suas capacidades. Apelidado de CSM-1B, este modelo possui um tamanho de 1 bilhão de parâmetros, um termo que se refere aos componentes individuais que compõem o modelo. Lançado com uma licença Apache 2.0, está aberta para uso comercial com restrições mínimas, conforme anunciado na plataforma de desenvolvimento da IA, abraçando o rosto.
As funções CSM-1B convertendo entradas de texto e áudio em "códigos de áudio RVQ". O RVQ significa "quantização de vetores residuais", um método que transforma o áudio em tokens ou códigos discretos. Essa técnica também é utilizada em outras tecnologias de áudio de AI de ponta, como o SoundStream do Google e o Encodec do Meta. Na sua essência, o CSM-1B aproveita um modelo da família Llama da Meta, combinada com um componente "decodificador" de áudio. Uma versão especializada do CSM-1B, após o ajuste fino, alimenta a voz de Maya, de acordo com o gergelim.
Descrevendo o modelo como um "modelo de geração de base" em seus repositórios abraçados de rosto e github, o gergelim observa que ele foi projetado para produzir uma variedade de vozes, mas não foi refinado para nenhuma voz específica. Embora ele tenha alguma capacidade de lidar com idiomas não ingleses, graças à "contaminação dos dados" em seu conjunto de treinamento, seu desempenho nessa área é provavelmente abaixo. Curiosamente, a gergelim manteve os detalhes dos dados de treinamento em sigilo, deixando -nos curiosos sobre o que foi necessário para construir esse modelo.
Um aspecto que levanta as sobrancelhas é a falta de salvaguardas robustas. O gergelim opera em um sistema de honra, simplesmente incentivando usuários e desenvolvedores a evitar o uso do modelo para replicar a voz de alguém sem permissão, produzir conteúdo enganoso, como notícias falsas ou participar de qualquer atividades "prejudiciais" ou "maliciosas". Pessoalmente, testei a demonstração em abraçar o rosto e, em um minuto, eu havia clonado minha voz. Foi muito fácil gerar discursos sobre qualquer tópico, mesmo sensíveis, como a eleição e a propaganda russa.
Os relatórios do consumidor destacaram recentemente a falta de salvaguardas "significativas" em muitas ferramentas de clonagem de voz movidas a IA, o que poderia levar a possíveis fraudes ou abusos. O gergelim, co-fundado pelo co-criador da Oculus, Brendan Iribe, chamou a atenção do público no final de fevereiro com sua tecnologia assistente que quase escapa ao vale estranho. Tanto o outro assistente de Maya quanto a Vila, Miles, exibem traços realistas do tipo humano, como respirar, falar com disfluências e ser interrompível no meio da fala, semelhante ao modo de voz do OpenAI.
Financeiramente, a gergelim garantiu financiamento não revelado de pesos pesados como Andreessen Horowitz, Spark Capital e Matrix Partners. Além dos assistentes de voz, a empresa também está se aventurando na prototipagem de óculos de AI destinados ao desgaste durante todo o dia, equipado com seus modelos personalizados. Esse movimento mostra a ambição da Vila de Sesame de ultrapassar ainda mais os limites da tecnologia de IA em nossas vidas diárias.




Wow, Sesame's CSM-1B sounds like a game-changer! A billion parameters for Maya’s lifelike voice? That’s some serious tech flex. Curious how it stacks up against other models in real-world use. 😎




Whoa, a 1B parameter model powering Maya? That's some serious brainpower! Curious how Sesame's CSM-1B stacks up against other AI giants. Excited to see where this tech takes us! 🚀




Sesame's base AI model for Maya is mind-blowing! 1 billion parameters? That's insane! Maya's voice is so lifelike, it's like talking to a real person. But sometimes she gets a bit too chatty, which can be annoying. Still, a fantastic piece of tech! 🤯




¡El modelo base de IA de Sesame para Maya es alucinante! ¿1 billón de parámetros? ¡Eso es una locura! La voz de Maya es tan realista, parece que estoy hablando con una persona real. Pero a veces se pone un poco parlanchina, lo que puede ser molesto. Aún así, una tecnología fantástica! 🤯




Das Basis-AI-Modell von Sesame für Maya ist umwerfend! 1 Milliarde Parameter? Das ist verrückt! Mayas Stimme ist so lebensecht, es fühlt sich an, als würde man mit einer echten Person sprechen. Aber manchmal wird sie ein bisschen zu gesprächig, was nervig sein kann. Trotzdem, eine fantastische Technologie! 🤯




SesameのMayaの基礎AIモデルは驚異的!10億のパラメータ?それは狂ってる!Mayaの声は本当にリアルで、まるで本物の人と話しているみたい。ただ、時々彼女がちょっとおしゃべりすぎてうざい時がある。それでも、素晴らしい技術だよ!🤯












