Sesam enthüllt das Basis -KI -Modell hinter viraler Virtual Assistant Maya

Heim

Nachricht

23. April 2025

DouglasHarris

120

# ai # Sesame # Maya

Sesam enthüllt das Basis -KI -Modell hinter viraler Virtual Assistant Maya

Sesame, das innovative KI-Unternehmen hinter der auffallend lebensechten Sprachassistentin Maya, hat gerade für Aufsehen gesorgt, indem es das Basismodell veröffentlicht hat, das ihre Fähigkeiten antreibt. Das Modell, genannt CSM-1B, verfügt über eine Größe von 1 Milliarde Parametern, ein Begriff, der die einzelnen Komponenten des Modells bezeichnet. Unter einer Apache 2.0-Lizenz veröffentlicht, ist es für kommerzielle Nutzung mit minimalen Einschränkungen freigegeben, wie auf der KI-Entwicklungsplattform Hugging Face angekündigt.

CSM-1B funktioniert, indem es Text- und Audioeingaben in „RVQ-Audiocodes“ umwandelt. RVQ steht für „residual vector quantization“, eine Methode, die Audio in diskrete Tokens oder Codes umwandelt. Diese Technik wird auch in anderen hochmodernen KI-Audiotechnologien wie Googles SoundStream und Metas Encodec verwendet. Im Kern nutzt CSM-1B ein Modell aus Metas Llama-Familie, kombiniert mit einer Audio-„Decoder“-Komponente. Eine spezialisierte Version von CSM-1B, nach Feinabstimmung, treibt die Stimme von Maya an, laut Sesame.

Das Modell wird auf seinen Hugging Face- und GitHub-Repositories als „Basismodell für die Generierung“ beschrieben, und Sesame betont, dass es darauf ausgelegt ist, eine Vielzahl von Stimmen zu erzeugen, aber nicht für eine spezifische Stimme optimiert wurde. Obwohl es aufgrund von „Datenkontamination“ in seinem Trainingssatz eine gewisse Fähigkeit zur Verarbeitung nicht-englischer Sprachen hat, ist seine Leistung in diesem Bereich wahrscheinlich unterdurchschnittlich. Interessanterweise hat Sesame die Details der Trainingsdaten geheim gehalten, was uns neugierig macht, was in den Aufbau dieses Modells eingeflossen ist.

Ein Aspekt, der Aufmerksamkeit erregt, ist das Fehlen robuster Sicherheitsvorkehrungen. Sesame setzt auf ein Ehrensystem und fordert Nutzer und Entwickler lediglich auf, das Modell nicht ohne Erlaubnis zur Nachbildung von Stimmen, zur Erzeugung irreführender Inhalte wie Fake News oder zur Teilnahme an „schädlichen“ oder „bösartigen“ Aktivitäten zu verwenden. Ich habe die Demo auf Hugging Face persönlich getestet und innerhalb einer Minute meine Stimme geklont. Es war ein Kinderspiel, Sprache zu jedem Thema zu generieren, sogar zu sensiblen Themen wie Wahlen und russischer Propaganda.

Consumer Reports hat kürzlich auf das besorgniserregende Fehlen „maßgeblicher“ Sicherheitsvorkehrungen bei vielen KI-gestützten Stimmklon-Tools hingewiesen, die zu potenziellem Betrug oder Missbrauch führen könnten. Sesame, mitbegründet von Oculus-Mitgründer Brendan Iribe, erregte Ende Februar mit seiner Assistententechnologie Aufmerksamkeit, die fast dem Uncanny Valley entkommt. Sowohl Maya als auch Sesames anderer Assistent, Miles, zeigen realistische menschliche Eigenschaften wie Atmen, Sprechen mit Sprachfehlern und Unterbrechbarkeit mitten im Satz, ähnlich wie OpenAIs Voice Mode.

Finanziell hat Sesame nicht offengelegte Finanzierungen von Schwergewichten wie Andreessen Horowitz, Spark Capital und Matrix Partners gesichert. Über Sprachassistenten hinaus wagt sich das Unternehmen auch an die Prototypentwicklung von KI-Brillen, die für den ganztägigen Gebrauch gedacht sind und mit ihren maßgeschneiderten Modellen ausgestattet sind. Dieser Schritt zeigt Sesames Ambition, die Grenzen der KI-Technologie weiter in unseren Alltag zu integrieren.

Verwandter Artikel

Die neue KI-Suchmaschine von Truth Social bevorzugt Fox News in den Ergebnissen Trumps Social-Media-Plattform führt eine KI-gesteuerte Suchfunktion mit offensichtlich konservativem Medien-Einschlag einExklusive AI-Suchfunktion geht an den StartTruth Social, die von Donald Trump g

ChatGPT fügt Google Drive und Dropbox Integration für Dateizugriff hinzu ChatGPT steigert die Produktivität mit neuen UnternehmensfunktionenOpenAI hat zwei leistungsstarke neue Funktionen vorgestellt, die ChatGPT zu einem umfassenden Produktivitätswerkzeug für Unternehme

Creative Commons startet CC Signals Framework für offene KI-Entwicklung Die gemeinnützige Pionierorganisation Creative Commons, die mit ihrem flexiblen Lizenzierungssystem die gemeinsame Nutzung digitaler Inhalte revolutioniert hat, widmet sich nun den Auswirkungen künstl

Kommentare (8)

0/200

Einreichen

PaulYoung

13. August 2025 23:00:59 MESZ

C'est incroyable ce que Sesame a fait avec Maya ! Un modèle à 1 milliard de paramètres, ça doit être une sacrée bête. Mais franchement, ça donne quoi en termes d'éthique ? On va tous finir avec des assistants trop parfaits ? 😅

AnthonyMartinez

31. Juli 2025 03:41:20 MESZ

Wow, Sesame's CSM-1B sounds like a game-changer! A billion parameters for Maya’s lifelike voice? That’s some serious tech flex. Curious how it stacks up against other models in real-world use. 😎

RoySmith

28. Juli 2025 03:18:39 MESZ

Whoa, a 1B parameter model powering Maya? That's some serious brainpower! Curious how Sesame's CSM-1B stacks up against other AI giants. Excited to see where this tech takes us! 🚀

EricPerez

25. April 2025 00:42:49 MESZ

Sesame's base AI model for Maya is mind-blowing! 1 billion parameters? That's insane! Maya's voice is so lifelike, it's like talking to a real person. But sometimes she gets a bit too chatty, which can be annoying. Still, a fantastic piece of tech! 🤯

GeorgeMiller

24. April 2025 15:04:42 MESZ

¡El modelo base de IA de Sesame para Maya es alucinante! ¿1 billón de parámetros? ¡Eso es una locura! La voz de Maya es tan realista, parece que estoy hablando con una persona real. Pero a veces se pone un poco parlanchina, lo que puede ser molesto. Aún así, una tecnología fantástica! 🤯

JonathanMiller

24. April 2025 14:11:38 MESZ

Das Basis-AI-Modell von Sesame für Maya ist umwerfend! 1 Milliarde Parameter? Das ist verrückt! Mayas Stimme ist so lebensecht, es fühlt sich an, als würde man mit einer echten Person sprechen. Aber manchmal wird sie ein bisschen zu gesprächig, was nervig sein kann. Trotzdem, eine fantastische Technologie! 🤯

Top -Nachrichten

Gemini 2.5 Pro jetzt unbegrenzt und billiger als Claude, GPT-4O Top AI-Videogeneratoren 2025: Pika Labs im Vergleich zu Alternativen AI-Synchronisation: Ultimativer Leitfaden zur realistischen Stimmen-Erstellung Die KI von Cambium verwandelt Abfall Holz in Holz OpenAI verbessert den AI -Sprachassistenten für bessere Chats So stellen Sie sicher, dass Ihre Daten für die KI -Integration vertrauenswürdig sind NotebookLM erweitert weltweit, fügt Folien und eine verbesserte Faktenprüfung hinzu Optimierungen an US -Rechenzentren könnten 76 GW neue Leistungskapazität freischalten Google nutzt KI, um über 39 Millionen Anzeigenkonten für mutmaßlichen Betrug auszusetzen AI Computing, um die Leistung mehrerer NYCs bis 2026 zu verbrauchen, sagt Gründer

Mehr

Vorgestellt