Sesam enthüllt das Basis -KI -Modell hinter viraler Virtual Assistant Maya

Sesame, das innovative KI-Unternehmen hinter der auffallend lebensechten Sprachassistentin Maya, hat gerade für Aufsehen gesorgt, indem es das Basismodell veröffentlicht hat, das ihre Fähigkeiten antreibt. Das Modell, genannt CSM-1B, verfügt über eine Größe von 1 Milliarde Parametern, ein Begriff, der die einzelnen Komponenten des Modells bezeichnet. Unter einer Apache 2.0-Lizenz veröffentlicht, ist es für kommerzielle Nutzung mit minimalen Einschränkungen freigegeben, wie auf der KI-Entwicklungsplattform Hugging Face angekündigt.
CSM-1B funktioniert, indem es Text- und Audioeingaben in „RVQ-Audiocodes“ umwandelt. RVQ steht für „residual vector quantization“, eine Methode, die Audio in diskrete Tokens oder Codes umwandelt. Diese Technik wird auch in anderen hochmodernen KI-Audiotechnologien wie Googles SoundStream und Metas Encodec verwendet. Im Kern nutzt CSM-1B ein Modell aus Metas Llama-Familie, kombiniert mit einer Audio-„Decoder“-Komponente. Eine spezialisierte Version von CSM-1B, nach Feinabstimmung, treibt die Stimme von Maya an, laut Sesame.
Das Modell wird auf seinen Hugging Face- und GitHub-Repositories als „Basismodell für die Generierung“ beschrieben, und Sesame betont, dass es darauf ausgelegt ist, eine Vielzahl von Stimmen zu erzeugen, aber nicht für eine spezifische Stimme optimiert wurde. Obwohl es aufgrund von „Datenkontamination“ in seinem Trainingssatz eine gewisse Fähigkeit zur Verarbeitung nicht-englischer Sprachen hat, ist seine Leistung in diesem Bereich wahrscheinlich unterdurchschnittlich. Interessanterweise hat Sesame die Details der Trainingsdaten geheim gehalten, was uns neugierig macht, was in den Aufbau dieses Modells eingeflossen ist.
Ein Aspekt, der Aufmerksamkeit erregt, ist das Fehlen robuster Sicherheitsvorkehrungen. Sesame setzt auf ein Ehrensystem und fordert Nutzer und Entwickler lediglich auf, das Modell nicht ohne Erlaubnis zur Nachbildung von Stimmen, zur Erzeugung irreführender Inhalte wie Fake News oder zur Teilnahme an „schädlichen“ oder „bösartigen“ Aktivitäten zu verwenden. Ich habe die Demo auf Hugging Face persönlich getestet und innerhalb einer Minute meine Stimme geklont. Es war ein Kinderspiel, Sprache zu jedem Thema zu generieren, sogar zu sensiblen Themen wie Wahlen und russischer Propaganda.
Consumer Reports hat kürzlich auf das besorgniserregende Fehlen „maßgeblicher“ Sicherheitsvorkehrungen bei vielen KI-gestützten Stimmklon-Tools hingewiesen, die zu potenziellem Betrug oder Missbrauch führen könnten. Sesame, mitbegründet von Oculus-Mitgründer Brendan Iribe, erregte Ende Februar mit seiner Assistententechnologie Aufmerksamkeit, die fast dem Uncanny Valley entkommt. Sowohl Maya als auch Sesames anderer Assistent, Miles, zeigen realistische menschliche Eigenschaften wie Atmen, Sprechen mit Sprachfehlern und Unterbrechbarkeit mitten im Satz, ähnlich wie OpenAIs Voice Mode.
Finanziell hat Sesame nicht offengelegte Finanzierungen von Schwergewichten wie Andreessen Horowitz, Spark Capital und Matrix Partners gesichert. Über Sprachassistenten hinaus wagt sich das Unternehmen auch an die Prototypentwicklung von KI-Brillen, die für den ganztägigen Gebrauch gedacht sind und mit ihren maßgeschneiderten Modellen ausgestattet sind. Dieser Schritt zeigt Sesames Ambition, die Grenzen der KI-Technologie weiter in unseren Alltag zu integrieren.
Verwandter Artikel
Die neue KI-Suchmaschine von Truth Social bevorzugt Fox News in den Ergebnissen
Trumps Social-Media-Plattform führt eine KI-gesteuerte Suchfunktion mit offensichtlich konservativem Medien-Einschlag einExklusive AI-Suchfunktion geht an den StartTruth Social, die von Donald Trump g
ChatGPT fügt Google Drive und Dropbox Integration für Dateizugriff hinzu
ChatGPT steigert die Produktivität mit neuen UnternehmensfunktionenOpenAI hat zwei leistungsstarke neue Funktionen vorgestellt, die ChatGPT zu einem umfassenden Produktivitätswerkzeug für Unternehme
Creative Commons startet CC Signals Framework für offene KI-Entwicklung
Die gemeinnützige Pionierorganisation Creative Commons, die mit ihrem flexiblen Lizenzierungssystem die gemeinsame Nutzung digitaler Inhalte revolutioniert hat, widmet sich nun den Auswirkungen künstl
Kommentare (8)
0/200
PaulYoung
13. August 2025 23:00:59 MESZ
C'est incroyable ce que Sesame a fait avec Maya ! Un modèle à 1 milliard de paramètres, ça doit être une sacrée bête. Mais franchement, ça donne quoi en termes d'éthique ? On va tous finir avec des assistants trop parfaits ? 😅
0
AnthonyMartinez
31. Juli 2025 03:41:20 MESZ
Wow, Sesame's CSM-1B sounds like a game-changer! A billion parameters for Maya’s lifelike voice? That’s some serious tech flex. Curious how it stacks up against other models in real-world use. 😎
0
RoySmith
28. Juli 2025 03:18:39 MESZ
Whoa, a 1B parameter model powering Maya? That's some serious brainpower! Curious how Sesame's CSM-1B stacks up against other AI giants. Excited to see where this tech takes us! 🚀
0
EricPerez
25. April 2025 00:42:49 MESZ
Sesame's base AI model for Maya is mind-blowing! 1 billion parameters? That's insane! Maya's voice is so lifelike, it's like talking to a real person. But sometimes she gets a bit too chatty, which can be annoying. Still, a fantastic piece of tech! 🤯
0
GeorgeMiller
24. April 2025 15:04:42 MESZ
¡El modelo base de IA de Sesame para Maya es alucinante! ¿1 billón de parámetros? ¡Eso es una locura! La voz de Maya es tan realista, parece que estoy hablando con una persona real. Pero a veces se pone un poco parlanchina, lo que puede ser molesto. Aún así, una tecnología fantástica! 🤯
0
JonathanMiller
24. April 2025 14:11:38 MESZ
Das Basis-AI-Modell von Sesame für Maya ist umwerfend! 1 Milliarde Parameter? Das ist verrückt! Mayas Stimme ist so lebensecht, es fühlt sich an, als würde man mit einer echten Person sprechen. Aber manchmal wird sie ein bisschen zu gesprächig, was nervig sein kann. Trotzdem, eine fantastische Technologie! 🤯
0
Sesame, das innovative KI-Unternehmen hinter der auffallend lebensechten Sprachassistentin Maya, hat gerade für Aufsehen gesorgt, indem es das Basismodell veröffentlicht hat, das ihre Fähigkeiten antreibt. Das Modell, genannt CSM-1B, verfügt über eine Größe von 1 Milliarde Parametern, ein Begriff, der die einzelnen Komponenten des Modells bezeichnet. Unter einer Apache 2.0-Lizenz veröffentlicht, ist es für kommerzielle Nutzung mit minimalen Einschränkungen freigegeben, wie auf der KI-Entwicklungsplattform Hugging Face angekündigt.
CSM-1B funktioniert, indem es Text- und Audioeingaben in „RVQ-Audiocodes“ umwandelt. RVQ steht für „residual vector quantization“, eine Methode, die Audio in diskrete Tokens oder Codes umwandelt. Diese Technik wird auch in anderen hochmodernen KI-Audiotechnologien wie Googles SoundStream und Metas Encodec verwendet. Im Kern nutzt CSM-1B ein Modell aus Metas Llama-Familie, kombiniert mit einer Audio-„Decoder“-Komponente. Eine spezialisierte Version von CSM-1B, nach Feinabstimmung, treibt die Stimme von Maya an, laut Sesame.
Das Modell wird auf seinen Hugging Face- und GitHub-Repositories als „Basismodell für die Generierung“ beschrieben, und Sesame betont, dass es darauf ausgelegt ist, eine Vielzahl von Stimmen zu erzeugen, aber nicht für eine spezifische Stimme optimiert wurde. Obwohl es aufgrund von „Datenkontamination“ in seinem Trainingssatz eine gewisse Fähigkeit zur Verarbeitung nicht-englischer Sprachen hat, ist seine Leistung in diesem Bereich wahrscheinlich unterdurchschnittlich. Interessanterweise hat Sesame die Details der Trainingsdaten geheim gehalten, was uns neugierig macht, was in den Aufbau dieses Modells eingeflossen ist.
Ein Aspekt, der Aufmerksamkeit erregt, ist das Fehlen robuster Sicherheitsvorkehrungen. Sesame setzt auf ein Ehrensystem und fordert Nutzer und Entwickler lediglich auf, das Modell nicht ohne Erlaubnis zur Nachbildung von Stimmen, zur Erzeugung irreführender Inhalte wie Fake News oder zur Teilnahme an „schädlichen“ oder „bösartigen“ Aktivitäten zu verwenden. Ich habe die Demo auf Hugging Face persönlich getestet und innerhalb einer Minute meine Stimme geklont. Es war ein Kinderspiel, Sprache zu jedem Thema zu generieren, sogar zu sensiblen Themen wie Wahlen und russischer Propaganda.
Consumer Reports hat kürzlich auf das besorgniserregende Fehlen „maßgeblicher“ Sicherheitsvorkehrungen bei vielen KI-gestützten Stimmklon-Tools hingewiesen, die zu potenziellem Betrug oder Missbrauch führen könnten. Sesame, mitbegründet von Oculus-Mitgründer Brendan Iribe, erregte Ende Februar mit seiner Assistententechnologie Aufmerksamkeit, die fast dem Uncanny Valley entkommt. Sowohl Maya als auch Sesames anderer Assistent, Miles, zeigen realistische menschliche Eigenschaften wie Atmen, Sprechen mit Sprachfehlern und Unterbrechbarkeit mitten im Satz, ähnlich wie OpenAIs Voice Mode.
Finanziell hat Sesame nicht offengelegte Finanzierungen von Schwergewichten wie Andreessen Horowitz, Spark Capital und Matrix Partners gesichert. Über Sprachassistenten hinaus wagt sich das Unternehmen auch an die Prototypentwicklung von KI-Brillen, die für den ganztägigen Gebrauch gedacht sind und mit ihren maßgeschneiderten Modellen ausgestattet sind. Dieser Schritt zeigt Sesames Ambition, die Grenzen der KI-Technologie weiter in unseren Alltag zu integrieren.




C'est incroyable ce que Sesame a fait avec Maya ! Un modèle à 1 milliard de paramètres, ça doit être une sacrée bête. Mais franchement, ça donne quoi en termes d'éthique ? On va tous finir avec des assistants trop parfaits ? 😅




Wow, Sesame's CSM-1B sounds like a game-changer! A billion parameters for Maya’s lifelike voice? That’s some serious tech flex. Curious how it stacks up against other models in real-world use. 😎




Whoa, a 1B parameter model powering Maya? That's some serious brainpower! Curious how Sesame's CSM-1B stacks up against other AI giants. Excited to see where this tech takes us! 🚀




Sesame's base AI model for Maya is mind-blowing! 1 billion parameters? That's insane! Maya's voice is so lifelike, it's like talking to a real person. But sometimes she gets a bit too chatty, which can be annoying. Still, a fantastic piece of tech! 🤯




¡El modelo base de IA de Sesame para Maya es alucinante! ¿1 billón de parámetros? ¡Eso es una locura! La voz de Maya es tan realista, parece que estoy hablando con una persona real. Pero a veces se pone un poco parlanchina, lo que puede ser molesto. Aún así, una tecnología fantástica! 🤯




Das Basis-AI-Modell von Sesame für Maya ist umwerfend! 1 Milliarde Parameter? Das ist verrückt! Mayas Stimme ist so lebensecht, es fühlt sich an, als würde man mit einer echten Person sprechen. Aber manchmal wird sie ein bisschen zu gesprächig, was nervig sein kann. Trotzdem, eine fantastische Technologie! 🤯












