Sesame presenta el modelo base de IA detrás del asistente virtual viral Maya

Sesame, la innovadora empresa de IA detrás de la asistente de voz sorprendentemente realista Maya, acaba de causar sensación al lanzar el modelo base que impulsa sus capacidades. Denominado CSM-1B, este modelo cuenta con un tamaño de mil millones de parámetros, un término que se refiere a los componentes individuales que conforman el modelo. Lanzado bajo una licencia Apache 2.0, está abierto para uso comercial con restricciones mínimas, según se anunció en la plataforma de desarrollo de IA Hugging Face.
CSM-1B funciona convirtiendo entradas de texto y audio en "códigos de audio RVQ". RVQ significa "cuantización vectorial residual", un método que transforma el audio en tokens discretos o códigos. Esta técnica también se utiliza en otras tecnologías de audio de IA de vanguardia, como SoundStream de Google y Encodec de Meta. En su núcleo, CSM-1B aprovecha un modelo de la familia Llama de Meta, combinado con un componente de "decodificador" de audio. Una versión especializada de CSM-1B, tras un ajuste fino, da voz a Maya, según Sesame.
Describiendo el modelo como un "modelo de generación base" en sus repositorios de Hugging Face y GitHub, Sesame señala que está diseñado para producir una variedad de voces, pero no ha sido refinado para ninguna voz específica. Aunque tiene cierta capacidad para manejar idiomas no ingleses gracias a la "contaminación de datos" en su conjunto de entrenamiento, su rendimiento en esta área probablemente sea deficiente. Curiosamente, Sesame ha mantenido en secreto los detalles de los datos de entrenamiento, dejándonos curiosos sobre qué se utilizó para construir este modelo.
Un aspecto que llama la atención es la falta de salvaguardas sólidas. Sesame opera bajo un sistema de honor, simplemente animando a los usuarios y desarrolladores a evitar usar el modelo para replicar la voz de alguien sin permiso, producir contenido engañoso como noticias falsas o participar en actividades "dañinas" o "maliciosas". Personalmente probé la demostración en Hugging Face, y en un minuto había clonado mi voz. Fue muy fácil generar un discurso sobre cualquier tema, incluso temas sensibles como las elecciones y la propaganda rusa.
Consumer Reports destacó recientemente la preocupante falta de salvaguardas "significativas" en muchas herramientas de clonación de voz impulsadas por IA, lo que podría conducir a posibles fraudes o abusos. Sesame, cofundada por el cocreador de Oculus, Brendan Iribe, captó la atención del público a finales de febrero con su tecnología de asistente que casi escapa del valle inquietante. Tanto Maya como el otro asistente de Sesame, Miles, exhiben rasgos humanos realistas, como respirar, hablar con disfluencias y ser interrumpibles a mitad del discurso, similar al Voice Mode de OpenAI.
Financieramente, Sesame ha asegurado una financiación no revelada de pesos pesados como Andreessen Horowitz, Spark Capital y Matrix Partners. Más allá de los asistentes de voz, la empresa también está incursionando en la creación de prototipos de gafas de IA destinadas a ser usadas todo el día, equipadas con sus modelos personalizados. Este movimiento muestra la ambición de Sesame de empujar los límites de la tecnología de IA aún más en nuestras vidas diarias.
Artículo relacionado
"Explorando la seguridad y la ética de la IA: Perspectivas de los expertos de Databricks y ElevenLabs"
A medida que la IA generativa se hace cada vez más asequible y generalizada, las consideraciones éticas y las medidas de seguridad han pasado a ocupar un lugar central. Artemis Seaford, responsable
El nuevo motor de búsqueda de inteligencia artificial de Truth Social favorece notablemente a Fox News en los resultados
La plataforma de redes sociales de Trump introduce una función de búsqueda impulsada por IA con aparente sesgo mediático conservadorLanzamiento de una función exclusiva de búsqueda por IATruth Social,
ChatGPT integra Google Drive y Dropbox para acceder a los archivos
ChatGPT mejora la productividad con nuevas funciones empresarialesOpenAI ha presentado dos nuevas y potentes funciones que transforman ChatGPT en una completa herramienta de productividad empresaria
comentario (8)
0/200
PaulYoung
13 de agosto de 2025 23:00:59 GMT+02:00
C'est incroyable ce que Sesame a fait avec Maya ! Un modèle à 1 milliard de paramètres, ça doit être une sacrée bête. Mais franchement, ça donne quoi en termes d'éthique ? On va tous finir avec des assistants trop parfaits ? 😅
0
AnthonyMartinez
31 de julio de 2025 03:41:20 GMT+02:00
Wow, Sesame's CSM-1B sounds like a game-changer! A billion parameters for Maya’s lifelike voice? That’s some serious tech flex. Curious how it stacks up against other models in real-world use. 😎
0
RoySmith
28 de julio de 2025 03:18:39 GMT+02:00
Whoa, a 1B parameter model powering Maya? That's some serious brainpower! Curious how Sesame's CSM-1B stacks up against other AI giants. Excited to see where this tech takes us! 🚀
0
EricPerez
25 de abril de 2025 00:42:49 GMT+02:00
Sesame's base AI model for Maya is mind-blowing! 1 billion parameters? That's insane! Maya's voice is so lifelike, it's like talking to a real person. But sometimes she gets a bit too chatty, which can be annoying. Still, a fantastic piece of tech! 🤯
0
GeorgeMiller
24 de abril de 2025 15:04:42 GMT+02:00
¡El modelo base de IA de Sesame para Maya es alucinante! ¿1 billón de parámetros? ¡Eso es una locura! La voz de Maya es tan realista, parece que estoy hablando con una persona real. Pero a veces se pone un poco parlanchina, lo que puede ser molesto. Aún así, una tecnología fantástica! 🤯
0
JonathanMiller
24 de abril de 2025 14:11:38 GMT+02:00
Das Basis-AI-Modell von Sesame für Maya ist umwerfend! 1 Milliarde Parameter? Das ist verrückt! Mayas Stimme ist so lebensecht, es fühlt sich an, als würde man mit einer echten Person sprechen. Aber manchmal wird sie ein bisschen zu gesprächig, was nervig sein kann. Trotzdem, eine fantastische Technologie! 🤯
0
Sesame, la innovadora empresa de IA detrás de la asistente de voz sorprendentemente realista Maya, acaba de causar sensación al lanzar el modelo base que impulsa sus capacidades. Denominado CSM-1B, este modelo cuenta con un tamaño de mil millones de parámetros, un término que se refiere a los componentes individuales que conforman el modelo. Lanzado bajo una licencia Apache 2.0, está abierto para uso comercial con restricciones mínimas, según se anunció en la plataforma de desarrollo de IA Hugging Face.
CSM-1B funciona convirtiendo entradas de texto y audio en "códigos de audio RVQ". RVQ significa "cuantización vectorial residual", un método que transforma el audio en tokens discretos o códigos. Esta técnica también se utiliza en otras tecnologías de audio de IA de vanguardia, como SoundStream de Google y Encodec de Meta. En su núcleo, CSM-1B aprovecha un modelo de la familia Llama de Meta, combinado con un componente de "decodificador" de audio. Una versión especializada de CSM-1B, tras un ajuste fino, da voz a Maya, según Sesame.
Describiendo el modelo como un "modelo de generación base" en sus repositorios de Hugging Face y GitHub, Sesame señala que está diseñado para producir una variedad de voces, pero no ha sido refinado para ninguna voz específica. Aunque tiene cierta capacidad para manejar idiomas no ingleses gracias a la "contaminación de datos" en su conjunto de entrenamiento, su rendimiento en esta área probablemente sea deficiente. Curiosamente, Sesame ha mantenido en secreto los detalles de los datos de entrenamiento, dejándonos curiosos sobre qué se utilizó para construir este modelo.
Un aspecto que llama la atención es la falta de salvaguardas sólidas. Sesame opera bajo un sistema de honor, simplemente animando a los usuarios y desarrolladores a evitar usar el modelo para replicar la voz de alguien sin permiso, producir contenido engañoso como noticias falsas o participar en actividades "dañinas" o "maliciosas". Personalmente probé la demostración en Hugging Face, y en un minuto había clonado mi voz. Fue muy fácil generar un discurso sobre cualquier tema, incluso temas sensibles como las elecciones y la propaganda rusa.
Consumer Reports destacó recientemente la preocupante falta de salvaguardas "significativas" en muchas herramientas de clonación de voz impulsadas por IA, lo que podría conducir a posibles fraudes o abusos. Sesame, cofundada por el cocreador de Oculus, Brendan Iribe, captó la atención del público a finales de febrero con su tecnología de asistente que casi escapa del valle inquietante. Tanto Maya como el otro asistente de Sesame, Miles, exhiben rasgos humanos realistas, como respirar, hablar con disfluencias y ser interrumpibles a mitad del discurso, similar al Voice Mode de OpenAI.
Financieramente, Sesame ha asegurado una financiación no revelada de pesos pesados como Andreessen Horowitz, Spark Capital y Matrix Partners. Más allá de los asistentes de voz, la empresa también está incursionando en la creación de prototipos de gafas de IA destinadas a ser usadas todo el día, equipadas con sus modelos personalizados. Este movimiento muestra la ambición de Sesame de empujar los límites de la tecnología de IA aún más en nuestras vidas diarias.




C'est incroyable ce que Sesame a fait avec Maya ! Un modèle à 1 milliard de paramètres, ça doit être une sacrée bête. Mais franchement, ça donne quoi en termes d'éthique ? On va tous finir avec des assistants trop parfaits ? 😅




Wow, Sesame's CSM-1B sounds like a game-changer! A billion parameters for Maya’s lifelike voice? That’s some serious tech flex. Curious how it stacks up against other models in real-world use. 😎




Whoa, a 1B parameter model powering Maya? That's some serious brainpower! Curious how Sesame's CSM-1B stacks up against other AI giants. Excited to see where this tech takes us! 🚀




Sesame's base AI model for Maya is mind-blowing! 1 billion parameters? That's insane! Maya's voice is so lifelike, it's like talking to a real person. But sometimes she gets a bit too chatty, which can be annoying. Still, a fantastic piece of tech! 🤯




¡El modelo base de IA de Sesame para Maya es alucinante! ¿1 billón de parámetros? ¡Eso es una locura! La voz de Maya es tan realista, parece que estoy hablando con una persona real. Pero a veces se pone un poco parlanchina, lo que puede ser molesto. Aún así, una tecnología fantástica! 🤯




Das Basis-AI-Modell von Sesame für Maya ist umwerfend! 1 Milliarde Parameter? Das ist verrückt! Mayas Stimme ist so lebensecht, es fühlt sich an, als würde man mit einer echten Person sprechen. Aber manchmal wird sie ein bisschen zu gesprächig, was nervig sein kann. Trotzdem, eine fantastische Technologie! 🤯












