Sesame dévoile le modèle de base de base derrière l'assistant virtuel viral Maya

Sesame, l'entreprise d'IA innovante derrière l'assistante vocale réaliste et réaliste, vient de faire des vagues en publiant le modèle de base qui stimule ses capacités. Surnommé CSM-1b, ce modèle possède une taille de 1 milliard de paramètres, un terme qui fait référence aux composants individuels constituant le modèle. Sorti sous une licence Apache 2.0, il est ouvert pour une utilisation commerciale avec un minimum de restrictions, comme annoncé sur la plate-forme de développement de l'IA étreignant la face.
CSM-1B fonctionne en convertissant les entrées de texte et audio en "codes audio RVQ". RVQ signifie «quantification du vecteur résiduel», une méthode qui transforme l'audio en jetons ou codes discrets. Cette technique est également utilisée dans d'autres technologies audio AI de pointe, telles que Google SoundStream et Meta's Encodec. À la base, CSM-1B exploite un modèle de la famille Llama de Meta, combiné à un composant audio "Decoder". Une version spécialisée de CSM-1b, après le réglage fin, alimente la voix de Maya, selon Sesame.
Décrivant le modèle comme un "modèle de génération de base" sur ses étreintes et ses référentiels GitHub, Sesame note qu'il est conçu pour produire une variété de voix mais n'a pas été affiné pour aucune voix spécifique. Bien qu'il ait une certaine capacité à gérer les langues non anglophones grâce à la «contamination des données» dans son ensemble de formation, ses performances dans ce domaine sont probablement inférieures. Fait intéressant, Sesame a gardé les détails des données de formation sous les wraps, nous laissant curieux de savoir ce qui a été consacré à la construction de ce modèle.
Un aspect qui soulève les sourcils est le manque de garanties robustes. Sesame opère sur un système d'honneur, encourageant simplement les utilisateurs et les développeurs à éviter d'utiliser le modèle pour reproduire la voix de quelqu'un sans autorisation, produire du contenu trompeur comme de fausses nouvelles ou participer à des activités "nocives" ou "malveillantes". J'ai personnellement testé la démo sur le visage étreint, et en une minute, j'avais cloné ma voix. C'était un jeu d'enfant de générer un discours sur n'importe quel sujet, même sensible comme l'élection et la propagande russe.
Consumer Reports a récemment souligné le manque de garanties "significatives" dans de nombreux outils de clonage vocale alimentés par l'IA, ce qui pourrait entraîner une fraude ou une abus potentiel. Sesame, co-fondé par le co-créateur d'Oculus, Brendan Iribe, a attiré l'attention du public fin février avec sa technologie adjointe qui échappe presque à la vallée étrange. Maya et l'autre assistant de Sesame, Miles, présentent des traits humains réalistes tels que prendre des respirations, parler avec des disfluences et être interruptible médian, similaire au mode vocal d'Openai.
Financièrement, Sesame a obtenu un financement non divulgué de poids lourds comme Andreessen Horowitz, Spark Capital et Matrix Partners. Au-delà des assistants vocaux, la société s'aventure également dans le prototypage des lunettes d'IA destinées à des vêtements toute la journée, équipées de leurs modèles personnalisés. Cette décision montre l'ambition de Sesame de repousser les limites de la technologie de l'IA dans notre vie quotidienne.
Article connexe
Alibaba Dévoile Wan2.1-VACE : Solution Vidéo IA Open-Source
Alibaba a présenté Wan2.1-VACE, un modèle d'IA open-source prêt à transformer les processus de création et d'édition vidéo.VACE est un composant clé de la famille de modèles vidéo IA Wan2.1 d’Alibaba,
IBM Power11 Renforce l'IA d'Entreprise avec des Performances Ininterrompues
Les serveurs d'entreprise Power11 d'IBM abordent une problématique clé de l'informatique d'entreprise : le déploiement de charges de travail IA tout en maintenant la fiabilité robuste requise pour les
Expérience de vente au détail propulsée par l'IA échoue spectaculairement chez Anthropic
Imaginez confier un petit magasin à une intelligence artificielle, lui déléguant tout, des prix aux interactions avec les clients. Que pourrait-il arriver de mal ?Une récente étude d'Anthropic, publié
commentaires (7)
0/200
AnthonyMartinez
31 juillet 2025 03:41:20 UTC+02:00
Wow, Sesame's CSM-1B sounds like a game-changer! A billion parameters for Maya’s lifelike voice? That’s some serious tech flex. Curious how it stacks up against other models in real-world use. 😎
0
RoySmith
28 juillet 2025 03:18:39 UTC+02:00
Whoa, a 1B parameter model powering Maya? That's some serious brainpower! Curious how Sesame's CSM-1B stacks up against other AI giants. Excited to see where this tech takes us! 🚀
0
EricPerez
25 avril 2025 00:42:49 UTC+02:00
Sesame's base AI model for Maya is mind-blowing! 1 billion parameters? That's insane! Maya's voice is so lifelike, it's like talking to a real person. But sometimes she gets a bit too chatty, which can be annoying. Still, a fantastic piece of tech! 🤯
0
GeorgeMiller
24 avril 2025 15:04:42 UTC+02:00
¡El modelo base de IA de Sesame para Maya es alucinante! ¿1 billón de parámetros? ¡Eso es una locura! La voz de Maya es tan realista, parece que estoy hablando con una persona real. Pero a veces se pone un poco parlanchina, lo que puede ser molesto. Aún así, una tecnología fantástica! 🤯
0
JonathanMiller
24 avril 2025 14:11:38 UTC+02:00
Das Basis-AI-Modell von Sesame für Maya ist umwerfend! 1 Milliarde Parameter? Das ist verrückt! Mayas Stimme ist so lebensecht, es fühlt sich an, als würde man mit einer echten Person sprechen. Aber manchmal wird sie ein bisschen zu gesprächig, was nervig sein kann. Trotzdem, eine fantastische Technologie! 🤯
0
TimothyMitchell
24 avril 2025 09:25:54 UTC+02:00
SesameのMayaの基礎AIモデルは驚異的!10億のパラメータ?それは狂ってる!Mayaの声は本当にリアルで、まるで本物の人と話しているみたい。ただ、時々彼女がちょっとおしゃべりすぎてうざい時がある。それでも、素晴らしい技術だよ!🤯
0
Sesame, l'entreprise d'IA innovante derrière l'assistante vocale réaliste et réaliste, vient de faire des vagues en publiant le modèle de base qui stimule ses capacités. Surnommé CSM-1b, ce modèle possède une taille de 1 milliard de paramètres, un terme qui fait référence aux composants individuels constituant le modèle. Sorti sous une licence Apache 2.0, il est ouvert pour une utilisation commerciale avec un minimum de restrictions, comme annoncé sur la plate-forme de développement de l'IA étreignant la face.
CSM-1B fonctionne en convertissant les entrées de texte et audio en "codes audio RVQ". RVQ signifie «quantification du vecteur résiduel», une méthode qui transforme l'audio en jetons ou codes discrets. Cette technique est également utilisée dans d'autres technologies audio AI de pointe, telles que Google SoundStream et Meta's Encodec. À la base, CSM-1B exploite un modèle de la famille Llama de Meta, combiné à un composant audio "Decoder". Une version spécialisée de CSM-1b, après le réglage fin, alimente la voix de Maya, selon Sesame.
Décrivant le modèle comme un "modèle de génération de base" sur ses étreintes et ses référentiels GitHub, Sesame note qu'il est conçu pour produire une variété de voix mais n'a pas été affiné pour aucune voix spécifique. Bien qu'il ait une certaine capacité à gérer les langues non anglophones grâce à la «contamination des données» dans son ensemble de formation, ses performances dans ce domaine sont probablement inférieures. Fait intéressant, Sesame a gardé les détails des données de formation sous les wraps, nous laissant curieux de savoir ce qui a été consacré à la construction de ce modèle.
Un aspect qui soulève les sourcils est le manque de garanties robustes. Sesame opère sur un système d'honneur, encourageant simplement les utilisateurs et les développeurs à éviter d'utiliser le modèle pour reproduire la voix de quelqu'un sans autorisation, produire du contenu trompeur comme de fausses nouvelles ou participer à des activités "nocives" ou "malveillantes". J'ai personnellement testé la démo sur le visage étreint, et en une minute, j'avais cloné ma voix. C'était un jeu d'enfant de générer un discours sur n'importe quel sujet, même sensible comme l'élection et la propagande russe.
Consumer Reports a récemment souligné le manque de garanties "significatives" dans de nombreux outils de clonage vocale alimentés par l'IA, ce qui pourrait entraîner une fraude ou une abus potentiel. Sesame, co-fondé par le co-créateur d'Oculus, Brendan Iribe, a attiré l'attention du public fin février avec sa technologie adjointe qui échappe presque à la vallée étrange. Maya et l'autre assistant de Sesame, Miles, présentent des traits humains réalistes tels que prendre des respirations, parler avec des disfluences et être interruptible médian, similaire au mode vocal d'Openai.
Financièrement, Sesame a obtenu un financement non divulgué de poids lourds comme Andreessen Horowitz, Spark Capital et Matrix Partners. Au-delà des assistants vocaux, la société s'aventure également dans le prototypage des lunettes d'IA destinées à des vêtements toute la journée, équipées de leurs modèles personnalisés. Cette décision montre l'ambition de Sesame de repousser les limites de la technologie de l'IA dans notre vie quotidienne.




Wow, Sesame's CSM-1B sounds like a game-changer! A billion parameters for Maya’s lifelike voice? That’s some serious tech flex. Curious how it stacks up against other models in real-world use. 😎




Whoa, a 1B parameter model powering Maya? That's some serious brainpower! Curious how Sesame's CSM-1B stacks up against other AI giants. Excited to see where this tech takes us! 🚀




Sesame's base AI model for Maya is mind-blowing! 1 billion parameters? That's insane! Maya's voice is so lifelike, it's like talking to a real person. But sometimes she gets a bit too chatty, which can be annoying. Still, a fantastic piece of tech! 🤯




¡El modelo base de IA de Sesame para Maya es alucinante! ¿1 billón de parámetros? ¡Eso es una locura! La voz de Maya es tan realista, parece que estoy hablando con una persona real. Pero a veces se pone un poco parlanchina, lo que puede ser molesto. Aún así, una tecnología fantástica! 🤯




Das Basis-AI-Modell von Sesame für Maya ist umwerfend! 1 Milliarde Parameter? Das ist verrückt! Mayas Stimme ist so lebensecht, es fühlt sich an, als würde man mit einer echten Person sprechen. Aber manchmal wird sie ein bisschen zu gesprächig, was nervig sein kann. Trotzdem, eine fantastische Technologie! 🤯




SesameのMayaの基礎AIモデルは驚異的!10億のパラメータ?それは狂ってる!Mayaの声は本当にリアルで、まるで本物の人と話しているみたい。ただ、時々彼女がちょっとおしゃべりすぎてうざい時がある。それでも、素晴らしい技術だよ!🤯












