Sesam enthüllt das Basis -KI -Modell hinter viraler Virtual Assistant Maya

Sesam, die innovative KI -Firma hinter der auffallend lebensechten Sprachassistent Maya, hat gerade Wellen geschlagen, indem er das Basismodell veröffentlicht hat, das ihre Fähigkeiten antreibt. Dieses Modell genannt CSM-1B und verfügt über eine Größe von 1 Milliarde Parametern, ein Begriff, der sich auf die einzelnen Komponenten bezieht, die das Modell ausmachen. Unter einer Apache 2.0 -Lizenz veröffentlicht, ist es für den kommerziellen Gebrauch mit minimalen Einschränkungen geöffnet, wie auf der KI -Entwicklungsplattform angekündigt wird.
CSM-1B fungiert durch Konvertieren von Text- und Audio-Eingaben in "RVQ-Audiocodes". RVQ steht für "Restvektorquantisierung", eine Methode, die Audio in diskrete Token oder Codes umwandelt. Diese Technik wird auch in anderen hochmodernen KI-Audio-Technologien wie Soundstream von Google und META-COCCODEC verwendet. Im Kern nutzt CSM-1B ein Modell aus der Lama-Familie von Meta, kombiniert mit einer Audio-Decoder-Komponente. Eine spezielle Version von CSM-1B nach Feinabstimmung versorgt laut Sesam die Stimme von Maya.
Sesam beschreibt das Modell als "Basisgenerierungsmodell" auf seinen umarmenden Gesichts- und Github -Repositories und stellt fest, dass es für eine Vielzahl von Stimmen entwickelt wurde, aber für keine bestimmte Stimme verfeinert wurde. Während es dank der "Datenverschmutzung" in seinem Trainingssatz eine gewisse Fähigkeit hat, nicht englische Sprachen zu bewältigen, ist die Leistung in diesem Bereich wahrscheinlich unterdurchschnittlich. Interessanterweise hat Sesame die Details der Trainingsdaten unter Verschluss gehalten und uns neugierig auf das Aufbau dieses Modells gelassen.
Ein Aspekt, der die Augenbrauen hochzieht, sind das Fehlen robuster Schutzmaßnahmen. Sesame arbeitet mit einem Ehrensystem und ermutigt einfach Benutzer und Entwickler, das Modell zu vermeiden, um die Stimme eines Menschen ohne Erlaubnis zu replizieren, irreführende Inhalte wie gefälschte Nachrichten zu erzeugen oder an "schädlichen" oder "böswilligen" Aktivitäten teilzunehmen. Ich persönlich testete die Demo auf das umarmende Gesicht und innerhalb einer Minute hatte ich meine Stimme geklont. Es war ein Kinderspiel, Sprache zu jedem Thema zu erzeugen, auch sensible wie die Wahl und die russische Propaganda.
Verbraucherberichte haben kürzlich den Mangel an "aussagekräftigen" Sicherheitsvorkehrungen bei vielen mit KI-betriebenen Sprachkloning-Tools hervorgehoben, die zu potenziellen Betrug oder Missbrauch führen könnten. Sesam, der von Oculus Co-Creator Brendan Iribe mitbegründet wurde, fiel Ende Februar mit seiner Assistant-Technologie, die fast aus dem unheimlichen Tal entkommt. Sowohl Maya als auch Sesames anderer Assistent, Miles, zeigen realistische menschlichähnliche Eigenschaften wie Atemzüge, Gespräche mit Disfluencies und ein interruptierbares Mid-Speech, ähnlich dem OpenA-Sprachmodus.
Finanziell hat Sesam eine nicht genannte Finanzierung aus Schwergewichten wie Andreessen Horowitz, Spark Capital und Matrix Partners gesichert. Über Sprachassistenten hinaus wagt sich das Unternehmen auch in Prototyping-KI-Brillen, die für den ganzen Tag mit ihren benutzerdefinierten Modellen ausgestattet sind. Dieser Schritt zeigt Sesames Ehrgeiz, die Grenzen der AI -Technologie weiter in unser tägliches Leben zu überschreiten.
Verwandter Artikel
Alibaba enthüllt Wan2.1-VACE: Open-Source-KI-Videolösung
Alibaba hat Wan2.1-VACE vorgestellt, ein Open-Source-KI-Modell, das die Prozesse der Videoproduktion und -bearbeitung revolutionieren soll.VACE ist eine zentrale Komponente der Wan2.1-Video-KI-Modellf
IBM Power11 Stärkt Unternehmens-KI mit ununterbrochener Leistung
Die Power11-Unternehmensserver von IBM lösen ein zentrales Problem in der Unternehmensinformatik: die Bereitstellung von KI-Workloads bei gleichzeitiger Wahrung der robusten Zuverlässigkeit, die für g
KI-gestütztes Einzelhandelsexperiment scheitert spektakulär bei Anthropic
Stellen Sie sich vor, Sie übergeben einen kleinen Laden einer künstlichen Intelligenz und vertrauen ihr alles an, von der Preisgestaltung bis zur Kundeninteraktion. Was könnte schiefgehen?Eine kürzlic
Kommentare (7)
0/200
AnthonyMartinez
31. Juli 2025 03:41:20 MESZ
Wow, Sesame's CSM-1B sounds like a game-changer! A billion parameters for Maya’s lifelike voice? That’s some serious tech flex. Curious how it stacks up against other models in real-world use. 😎
0
RoySmith
28. Juli 2025 03:18:39 MESZ
Whoa, a 1B parameter model powering Maya? That's some serious brainpower! Curious how Sesame's CSM-1B stacks up against other AI giants. Excited to see where this tech takes us! 🚀
0
EricPerez
25. April 2025 00:42:49 MESZ
Sesame's base AI model for Maya is mind-blowing! 1 billion parameters? That's insane! Maya's voice is so lifelike, it's like talking to a real person. But sometimes she gets a bit too chatty, which can be annoying. Still, a fantastic piece of tech! 🤯
0
GeorgeMiller
24. April 2025 15:04:42 MESZ
¡El modelo base de IA de Sesame para Maya es alucinante! ¿1 billón de parámetros? ¡Eso es una locura! La voz de Maya es tan realista, parece que estoy hablando con una persona real. Pero a veces se pone un poco parlanchina, lo que puede ser molesto. Aún así, una tecnología fantástica! 🤯
0
JonathanMiller
24. April 2025 14:11:38 MESZ
Das Basis-AI-Modell von Sesame für Maya ist umwerfend! 1 Milliarde Parameter? Das ist verrückt! Mayas Stimme ist so lebensecht, es fühlt sich an, als würde man mit einer echten Person sprechen. Aber manchmal wird sie ein bisschen zu gesprächig, was nervig sein kann. Trotzdem, eine fantastische Technologie! 🤯
0
TimothyMitchell
24. April 2025 09:25:54 MESZ
SesameのMayaの基礎AIモデルは驚異的!10億のパラメータ?それは狂ってる!Mayaの声は本当にリアルで、まるで本物の人と話しているみたい。ただ、時々彼女がちょっとおしゃべりすぎてうざい時がある。それでも、素晴らしい技術だよ!🤯
0
Sesam, die innovative KI -Firma hinter der auffallend lebensechten Sprachassistent Maya, hat gerade Wellen geschlagen, indem er das Basismodell veröffentlicht hat, das ihre Fähigkeiten antreibt. Dieses Modell genannt CSM-1B und verfügt über eine Größe von 1 Milliarde Parametern, ein Begriff, der sich auf die einzelnen Komponenten bezieht, die das Modell ausmachen. Unter einer Apache 2.0 -Lizenz veröffentlicht, ist es für den kommerziellen Gebrauch mit minimalen Einschränkungen geöffnet, wie auf der KI -Entwicklungsplattform angekündigt wird.
CSM-1B fungiert durch Konvertieren von Text- und Audio-Eingaben in "RVQ-Audiocodes". RVQ steht für "Restvektorquantisierung", eine Methode, die Audio in diskrete Token oder Codes umwandelt. Diese Technik wird auch in anderen hochmodernen KI-Audio-Technologien wie Soundstream von Google und META-COCCODEC verwendet. Im Kern nutzt CSM-1B ein Modell aus der Lama-Familie von Meta, kombiniert mit einer Audio-Decoder-Komponente. Eine spezielle Version von CSM-1B nach Feinabstimmung versorgt laut Sesam die Stimme von Maya.
Sesam beschreibt das Modell als "Basisgenerierungsmodell" auf seinen umarmenden Gesichts- und Github -Repositories und stellt fest, dass es für eine Vielzahl von Stimmen entwickelt wurde, aber für keine bestimmte Stimme verfeinert wurde. Während es dank der "Datenverschmutzung" in seinem Trainingssatz eine gewisse Fähigkeit hat, nicht englische Sprachen zu bewältigen, ist die Leistung in diesem Bereich wahrscheinlich unterdurchschnittlich. Interessanterweise hat Sesame die Details der Trainingsdaten unter Verschluss gehalten und uns neugierig auf das Aufbau dieses Modells gelassen.
Ein Aspekt, der die Augenbrauen hochzieht, sind das Fehlen robuster Schutzmaßnahmen. Sesame arbeitet mit einem Ehrensystem und ermutigt einfach Benutzer und Entwickler, das Modell zu vermeiden, um die Stimme eines Menschen ohne Erlaubnis zu replizieren, irreführende Inhalte wie gefälschte Nachrichten zu erzeugen oder an "schädlichen" oder "böswilligen" Aktivitäten teilzunehmen. Ich persönlich testete die Demo auf das umarmende Gesicht und innerhalb einer Minute hatte ich meine Stimme geklont. Es war ein Kinderspiel, Sprache zu jedem Thema zu erzeugen, auch sensible wie die Wahl und die russische Propaganda.
Verbraucherberichte haben kürzlich den Mangel an "aussagekräftigen" Sicherheitsvorkehrungen bei vielen mit KI-betriebenen Sprachkloning-Tools hervorgehoben, die zu potenziellen Betrug oder Missbrauch führen könnten. Sesam, der von Oculus Co-Creator Brendan Iribe mitbegründet wurde, fiel Ende Februar mit seiner Assistant-Technologie, die fast aus dem unheimlichen Tal entkommt. Sowohl Maya als auch Sesames anderer Assistent, Miles, zeigen realistische menschlichähnliche Eigenschaften wie Atemzüge, Gespräche mit Disfluencies und ein interruptierbares Mid-Speech, ähnlich dem OpenA-Sprachmodus.
Finanziell hat Sesam eine nicht genannte Finanzierung aus Schwergewichten wie Andreessen Horowitz, Spark Capital und Matrix Partners gesichert. Über Sprachassistenten hinaus wagt sich das Unternehmen auch in Prototyping-KI-Brillen, die für den ganzen Tag mit ihren benutzerdefinierten Modellen ausgestattet sind. Dieser Schritt zeigt Sesames Ehrgeiz, die Grenzen der AI -Technologie weiter in unser tägliches Leben zu überschreiten.




Wow, Sesame's CSM-1B sounds like a game-changer! A billion parameters for Maya’s lifelike voice? That’s some serious tech flex. Curious how it stacks up against other models in real-world use. 😎




Whoa, a 1B parameter model powering Maya? That's some serious brainpower! Curious how Sesame's CSM-1B stacks up against other AI giants. Excited to see where this tech takes us! 🚀




Sesame's base AI model for Maya is mind-blowing! 1 billion parameters? That's insane! Maya's voice is so lifelike, it's like talking to a real person. But sometimes she gets a bit too chatty, which can be annoying. Still, a fantastic piece of tech! 🤯




¡El modelo base de IA de Sesame para Maya es alucinante! ¿1 billón de parámetros? ¡Eso es una locura! La voz de Maya es tan realista, parece que estoy hablando con una persona real. Pero a veces se pone un poco parlanchina, lo que puede ser molesto. Aún así, una tecnología fantástica! 🤯




Das Basis-AI-Modell von Sesame für Maya ist umwerfend! 1 Milliarde Parameter? Das ist verrückt! Mayas Stimme ist so lebensecht, es fühlt sich an, als würde man mit einer echten Person sprechen. Aber manchmal wird sie ein bisschen zu gesprächig, was nervig sein kann. Trotzdem, eine fantastische Technologie! 🤯




SesameのMayaの基礎AIモデルは驚異的!10億のパラメータ?それは狂ってる!Mayaの声は本当にリアルで、まるで本物の人と話しているみたい。ただ、時々彼女がちょっとおしゃべりすぎてうざい時がある。それでも、素晴らしい技術だよ!🤯












