Sesame dévoile le modèle de base de base derrière l'assistant virtuel viral Maya

Sesame, l'entreprise innovante en IA à l'origine de l'assistant vocal Maya, d'un réalisme frappant, vient de faire sensation en publiant le modèle de base qui alimente ses capacités. Nommé CSM-1B, ce modèle compte 1 milliard de paramètres, un terme qui désigne les composants individuels constituant le modèle. Publié sous une licence Apache 2.0, il est ouvert à une utilisation commerciale avec des restrictions minimales, comme annoncé sur la plateforme de développement d'IA Hugging Face.
CSM-1B fonctionne en convertissant les entrées textuelles et audio en « codes audio RVQ ». RVQ signifie « quantification vectorielle résiduelle », une méthode qui transforme l'audio en jetons discrets, ou codes. Cette technique est également utilisée dans d'autres technologies audio d'IA de pointe, telles que SoundStream de Google et Encodec de Meta. À la base, CSM-1B s'appuie sur un modèle de la famille Llama de Meta, combiné à un composant « décodeur » audio. Une version spécialisée de CSM-1B, après un réglage fin, alimente la voix de Maya, selon Sesame.
En décrivant le modèle comme un « modèle de génération de base » sur ses dépôts Hugging Face et GitHub, Sesame note qu'il est conçu pour produire une variété de voix mais n'a pas été affiné pour une voix spécifique. Bien qu'il ait une certaine capacité à gérer des langues non anglophones grâce à une « contamination des données » dans son ensemble d'entraînement, ses performances dans ce domaine sont probablement médiocres. Fait intéressant, Sesame a gardé les détails des données d'entraînement secrets, ce qui nous rend curieux de savoir ce qui a été utilisé pour construire ce modèle.
Un aspect qui suscite des interrogations est le manque de garde-fous robustes. Sesame fonctionne sur un système d'honneur, encourageant simplement les utilisateurs et les développeurs à éviter d'utiliser le modèle pour reproduire la voix de quelqu'un sans permission, produire du contenu trompeur comme des fausses nouvelles, ou se livrer à des activités « nuisibles » ou « malveillantes ». J'ai personnellement testé la démo sur Hugging Face, et en une minute, j'avais cloné ma voix. Il était facile de générer un discours sur n'importe quel sujet, même des sujets sensibles comme les élections et la propagande russe.
Consumer Reports a récemment souligné le manque préoccupant de garde-fous « significatifs » dans de nombreux outils de clonage vocal alimentés par l'IA, ce qui pourrait entraîner des fraudes ou des abus potentiels. Sesame, co-fondée par Brendan Iribe, co-créateur d'Oculus, a attiré l'attention du public fin février avec sa technologie d'assistant qui échappe presque à la vallée de l'étrange. Maya et l'autre assistant de Sesame, Miles, présentent des caractéristiques humaines réalistes telles que prendre des respirations, parler avec des disfluences, et être interrompables en plein discours, à l'image du Voice Mode d'OpenAI.
Financièrement, Sesame a obtenu un financement non divulgué de poids lourds comme Andreessen Horowitz, Spark Capital et Matrix Partners. Au-delà des assistants vocaux, l'entreprise se lance également dans le prototypage de lunettes IA destinées à être portées toute la journée, équipées de leurs modèles personnalisés. Cette initiative montre l'ambition de Sesame de repousser les limites de la technologie IA dans notre vie quotidienne.
Article connexe
"Explorer la sécurité et l'éthique de l'IA : Les points de vue des experts de Databricks et d'ElevenLabs"
Alors que l'IA générative devient de plus en plus abordable et répandue, les considérations éthiques et les mesures de sécurité occupent le devant de la scène. Artemis Seaford, responsable de la séc
Le nouveau moteur de recherche AI de Truth Social favorise largement Fox News dans les résultats
La plateforme de médias sociaux de Trump introduit une fonction de recherche alimentée par l'IA avec un penchant apparent pour les médias conservateursLancement d'une fonction de recherche exclusive b
ChatGPT ajoute l'intégration de Google Drive et Dropbox pour l'accès aux fichiers
ChatGPT améliore la productivité avec de nouvelles fonctionnalités d'entrepriseOpenAI a dévoilé deux nouvelles fonctionnalités puissantes qui transforment ChatGPT en un outil de productivité complet
commentaires (8)
0/200
PaulYoung
13 août 2025 23:00:59 UTC+02:00
C'est incroyable ce que Sesame a fait avec Maya ! Un modèle à 1 milliard de paramètres, ça doit être une sacrée bête. Mais franchement, ça donne quoi en termes d'éthique ? On va tous finir avec des assistants trop parfaits ? 😅
0
AnthonyMartinez
31 juillet 2025 03:41:20 UTC+02:00
Wow, Sesame's CSM-1B sounds like a game-changer! A billion parameters for Maya’s lifelike voice? That’s some serious tech flex. Curious how it stacks up against other models in real-world use. 😎
0
RoySmith
28 juillet 2025 03:18:39 UTC+02:00
Whoa, a 1B parameter model powering Maya? That's some serious brainpower! Curious how Sesame's CSM-1B stacks up against other AI giants. Excited to see where this tech takes us! 🚀
0
EricPerez
25 avril 2025 00:42:49 UTC+02:00
Sesame's base AI model for Maya is mind-blowing! 1 billion parameters? That's insane! Maya's voice is so lifelike, it's like talking to a real person. But sometimes she gets a bit too chatty, which can be annoying. Still, a fantastic piece of tech! 🤯
0
GeorgeMiller
24 avril 2025 15:04:42 UTC+02:00
¡El modelo base de IA de Sesame para Maya es alucinante! ¿1 billón de parámetros? ¡Eso es una locura! La voz de Maya es tan realista, parece que estoy hablando con una persona real. Pero a veces se pone un poco parlanchina, lo que puede ser molesto. Aún así, una tecnología fantástica! 🤯
0
JonathanMiller
24 avril 2025 14:11:38 UTC+02:00
Das Basis-AI-Modell von Sesame für Maya ist umwerfend! 1 Milliarde Parameter? Das ist verrückt! Mayas Stimme ist so lebensecht, es fühlt sich an, als würde man mit einer echten Person sprechen. Aber manchmal wird sie ein bisschen zu gesprächig, was nervig sein kann. Trotzdem, eine fantastische Technologie! 🤯
0
Sesame, l'entreprise innovante en IA à l'origine de l'assistant vocal Maya, d'un réalisme frappant, vient de faire sensation en publiant le modèle de base qui alimente ses capacités. Nommé CSM-1B, ce modèle compte 1 milliard de paramètres, un terme qui désigne les composants individuels constituant le modèle. Publié sous une licence Apache 2.0, il est ouvert à une utilisation commerciale avec des restrictions minimales, comme annoncé sur la plateforme de développement d'IA Hugging Face.
CSM-1B fonctionne en convertissant les entrées textuelles et audio en « codes audio RVQ ». RVQ signifie « quantification vectorielle résiduelle », une méthode qui transforme l'audio en jetons discrets, ou codes. Cette technique est également utilisée dans d'autres technologies audio d'IA de pointe, telles que SoundStream de Google et Encodec de Meta. À la base, CSM-1B s'appuie sur un modèle de la famille Llama de Meta, combiné à un composant « décodeur » audio. Une version spécialisée de CSM-1B, après un réglage fin, alimente la voix de Maya, selon Sesame.
En décrivant le modèle comme un « modèle de génération de base » sur ses dépôts Hugging Face et GitHub, Sesame note qu'il est conçu pour produire une variété de voix mais n'a pas été affiné pour une voix spécifique. Bien qu'il ait une certaine capacité à gérer des langues non anglophones grâce à une « contamination des données » dans son ensemble d'entraînement, ses performances dans ce domaine sont probablement médiocres. Fait intéressant, Sesame a gardé les détails des données d'entraînement secrets, ce qui nous rend curieux de savoir ce qui a été utilisé pour construire ce modèle.
Un aspect qui suscite des interrogations est le manque de garde-fous robustes. Sesame fonctionne sur un système d'honneur, encourageant simplement les utilisateurs et les développeurs à éviter d'utiliser le modèle pour reproduire la voix de quelqu'un sans permission, produire du contenu trompeur comme des fausses nouvelles, ou se livrer à des activités « nuisibles » ou « malveillantes ». J'ai personnellement testé la démo sur Hugging Face, et en une minute, j'avais cloné ma voix. Il était facile de générer un discours sur n'importe quel sujet, même des sujets sensibles comme les élections et la propagande russe.
Consumer Reports a récemment souligné le manque préoccupant de garde-fous « significatifs » dans de nombreux outils de clonage vocal alimentés par l'IA, ce qui pourrait entraîner des fraudes ou des abus potentiels. Sesame, co-fondée par Brendan Iribe, co-créateur d'Oculus, a attiré l'attention du public fin février avec sa technologie d'assistant qui échappe presque à la vallée de l'étrange. Maya et l'autre assistant de Sesame, Miles, présentent des caractéristiques humaines réalistes telles que prendre des respirations, parler avec des disfluences, et être interrompables en plein discours, à l'image du Voice Mode d'OpenAI.
Financièrement, Sesame a obtenu un financement non divulgué de poids lourds comme Andreessen Horowitz, Spark Capital et Matrix Partners. Au-delà des assistants vocaux, l'entreprise se lance également dans le prototypage de lunettes IA destinées à être portées toute la journée, équipées de leurs modèles personnalisés. Cette initiative montre l'ambition de Sesame de repousser les limites de la technologie IA dans notre vie quotidienne.




C'est incroyable ce que Sesame a fait avec Maya ! Un modèle à 1 milliard de paramètres, ça doit être une sacrée bête. Mais franchement, ça donne quoi en termes d'éthique ? On va tous finir avec des assistants trop parfaits ? 😅




Wow, Sesame's CSM-1B sounds like a game-changer! A billion parameters for Maya’s lifelike voice? That’s some serious tech flex. Curious how it stacks up against other models in real-world use. 😎




Whoa, a 1B parameter model powering Maya? That's some serious brainpower! Curious how Sesame's CSM-1B stacks up against other AI giants. Excited to see where this tech takes us! 🚀




Sesame's base AI model for Maya is mind-blowing! 1 billion parameters? That's insane! Maya's voice is so lifelike, it's like talking to a real person. But sometimes she gets a bit too chatty, which can be annoying. Still, a fantastic piece of tech! 🤯




¡El modelo base de IA de Sesame para Maya es alucinante! ¿1 billón de parámetros? ¡Eso es una locura! La voz de Maya es tan realista, parece que estoy hablando con una persona real. Pero a veces se pone un poco parlanchina, lo que puede ser molesto. Aún así, una tecnología fantástica! 🤯




Das Basis-AI-Modell von Sesame für Maya ist umwerfend! 1 Milliarde Parameter? Das ist verrückt! Mayas Stimme ist so lebensecht, es fühlt sich an, als würde man mit einer echten Person sprechen. Aber manchmal wird sie ein bisschen zu gesprächig, was nervig sein kann. Trotzdem, eine fantastische Technologie! 🤯












