वायरल वर्चुअल असिस्टेंट माया के पीछे तिल ने बेस एआई मॉडल का अनावरण किया

Sesame, स्ट्राइकिंग लाइफलाइक वॉयस असिस्टेंट माया के पीछे अभिनव एआई कंपनी, ने अपनी क्षमताओं को चलाने वाले बेस मॉडल को जारी करके सिर्फ लहरें बनाई हैं। CSM-1B को डब किया गया, यह मॉडल 1 बिलियन मापदंडों का आकार समेटे हुए है, एक शब्द जो मॉडल को बनाने वाले व्यक्तिगत घटकों को संदर्भित करता है। Apache 2.0 लाइसेंस के तहत जारी, यह न्यूनतम प्रतिबंधों के साथ व्यावसायिक उपयोग के लिए खुला है, जैसा कि AI डेवलपमेंट प्लेटफॉर्म हगिंग फेस पर घोषित किया गया है।
CSM-1B पाठ और ऑडियो इनपुट को "RVQ ऑडियो कोड" में परिवर्तित करके कार्य करता है। RVQ "अवशिष्ट वेक्टर परिमाणीकरण" के लिए खड़ा है, एक विधि जो ऑडियो को असतत टोकन, या कोड में बदल देती है। इस तकनीक का उपयोग अन्य अत्याधुनिक एआई ऑडियो प्रौद्योगिकियों में भी किया जाता है, जैसे कि Google के साउंडस्ट्रीम और मेटा के एनकोडेक। इसके मूल में, CSM-1B मेटा के लामा परिवार के एक मॉडल का लाभ उठाता है, जो एक ऑडियो "डिकोडर" घटक के साथ संयुक्त है। सीएसएम -1 बी का एक विशेष संस्करण, ठीक-ट्यूनिंग के बाद, तिल के अनुसार, माया की आवाज को शक्ति देता है।
मॉडल को "बेस जेनरेशन मॉडल" के रूप में वर्णित करते हुए, इसके गले लगने वाले चेहरे और GitHub रिपॉजिटरी पर, तिल नोट करता है कि यह विभिन्न प्रकार की आवाज़ों का उत्पादन करने के लिए डिज़ाइन किया गया है, लेकिन किसी भी विशिष्ट आवाज के लिए परिष्कृत नहीं किया गया है। जबकि इसके प्रशिक्षण सेट में "डेटा संदूषण" के लिए गैर-अंग्रेजी भाषाओं को संभालने की कुछ क्षमता है, इस क्षेत्र में इसका प्रदर्शन संभावना है। दिलचस्प बात यह है कि तिल ने प्रशिक्षण डेटा के विवरण को लपेटने के तहत रखा है, जिससे हमें इस मॉडल के निर्माण में क्या मिला।
एक पहलू जो भौंहों को उठाता है वह है मजबूत सुरक्षा उपायों की कमी। तिल एक सम्मान प्रणाली पर काम करता है, बस उपयोगकर्ताओं और डेवलपर्स को बिना अनुमति के किसी की आवाज को दोहराने के लिए मॉडल का उपयोग करने से बचने के लिए प्रोत्साहित करता है, नकली समाचार जैसी भ्रामक सामग्री का उत्पादन करता है, या किसी भी "हानिकारक" या "दुर्भावनापूर्ण" गतिविधियों में भाग लेता है। मैंने व्यक्तिगत रूप से गले लगाने वाले चेहरे पर डेमो का परीक्षण किया, और एक मिनट के भीतर, मैंने अपनी आवाज को क्लोन किया था। यह किसी भी विषय पर भाषण उत्पन्न करने के लिए एक हवा थी, यहां तक कि चुनाव और रूसी प्रचार जैसे संवेदनशील भी।
उपभोक्ता रिपोर्टों ने हाल ही में कई एआई-संचालित वॉयस क्लोनिंग टूल्स में "सार्थक" सुरक्षा उपायों की कमी पर प्रकाश डाला, जिससे संभावित धोखाधड़ी या दुरुपयोग हो सकता है। ओकुलस के सह-निर्माता ब्रेंडन इरिब द्वारा सह-स्थापना की गई तिल ने फरवरी के अंत में अपनी सहायक तकनीक के साथ जनता की नज़र को पकड़ा जो लगभग अलौकिक घाटी से बच जाता है। माया और तिल के अन्य सहायक, माइल्स, दोनों, यथार्थवादी मानव-जैसे लक्षणों को प्रदर्शित करते हैं जैसे कि सांस लेना, असंतुष्टता के साथ बोलना, और ओपनई के वॉयस मोड के समान मध्य-मध्य-भाषण को बाधित करना।
आर्थिक रूप से, तिल ने आंद्रेसेन होरोविट्ज़, स्पार्क कैपिटल और मैट्रिक्स पार्टनर्स जैसे हैवीवेट से अघोषित धन प्राप्त किया है। वॉयस असिस्टेंट से परे, कंपनी अपने कस्टम मॉडल से सुसज्जित पूरे दिन के पहनने के लिए एआई चश्मे को प्रोटोटाइप करने में भी ध्यान दे रही है। यह कदम एआई प्रौद्योगिकी की सीमाओं को हमारे दैनिक जीवन में आगे बढ़ाने के लिए सीम की महत्वाकांक्षा को दर्शाता है।
संबंधित लेख
अलीबाबा ने Wan2.1-VACE का अनावरण किया: ओपन-सोर्स AI वीडियो समाधान
अलीबाबा ने Wan2.1-VACE पेश किया है, जो एक ओपन-सोर्स AI मॉडल है और वीडियो निर्माण और संपादन प्रक्रियाओं को बदलने के लिए तैयार है।VACE अलीबाबा के Wan2.1 वीडियो AI मॉडल परिवार का एक प्रमुख घटक है, कंपनी
IBM Power11 के साथ उद्यम AI को निर्बाध प्रदर्शन के साथ बढ़ावा
IBM के Power11 उद्यम सर्वर उद्यम कम्प्यूटिंग में एक प्रमुख मुद्दे को संबोधित करते हैं: मिशन-क्रिटिकल अनुप्रयोगों के लिए आवश्यक मजबूत विश्वसनीयता बनाए रखते हुए AI वर्कलोड को तैनात करना। 8 जुलाई, 2025 क
AI-चालित रिटेल प्रयोग Anthropic में शानदार ढंग से विफल
कल्पना करें कि एक छोटी दुकान को कृत्रिम बुद्धिमत्ता को सौंप दिया जाए, जिसमें मूल्य निर्धारण से लेकर ग्राहक संवाद तक सब कुछ शामिल हो। क्या गलत हो सकता है?Anthropic का एक हालिया अध्ययन, जो शुक्रवार को ज
सूचना (7)
0/200
AnthonyMartinez
31 जुलाई 2025 7:11:20 पूर्वाह्न IST
Wow, Sesame's CSM-1B sounds like a game-changer! A billion parameters for Maya’s lifelike voice? That’s some serious tech flex. Curious how it stacks up against other models in real-world use. 😎
0
RoySmith
28 जुलाई 2025 6:48:39 पूर्वाह्न IST
Whoa, a 1B parameter model powering Maya? That's some serious brainpower! Curious how Sesame's CSM-1B stacks up against other AI giants. Excited to see where this tech takes us! 🚀
0
EricPerez
25 अप्रैल 2025 4:12:49 पूर्वाह्न IST
Sesame's base AI model for Maya is mind-blowing! 1 billion parameters? That's insane! Maya's voice is so lifelike, it's like talking to a real person. But sometimes she gets a bit too chatty, which can be annoying. Still, a fantastic piece of tech! 🤯
0
GeorgeMiller
24 अप्रैल 2025 6:34:42 अपराह्न IST
¡El modelo base de IA de Sesame para Maya es alucinante! ¿1 billón de parámetros? ¡Eso es una locura! La voz de Maya es tan realista, parece que estoy hablando con una persona real. Pero a veces se pone un poco parlanchina, lo que puede ser molesto. Aún así, una tecnología fantástica! 🤯
0
JonathanMiller
24 अप्रैल 2025 5:41:38 अपराह्न IST
Das Basis-AI-Modell von Sesame für Maya ist umwerfend! 1 Milliarde Parameter? Das ist verrückt! Mayas Stimme ist so lebensecht, es fühlt sich an, als würde man mit einer echten Person sprechen. Aber manchmal wird sie ein bisschen zu gesprächig, was nervig sein kann. Trotzdem, eine fantastische Technologie! 🤯
0
TimothyMitchell
24 अप्रैल 2025 12:55:54 अपराह्न IST
SesameのMayaの基礎AIモデルは驚異的!10億のパラメータ?それは狂ってる!Mayaの声は本当にリアルで、まるで本物の人と話しているみたい。ただ、時々彼女がちょっとおしゃべりすぎてうざい時がある。それでも、素晴らしい技術だよ!🤯
0
Sesame, स्ट्राइकिंग लाइफलाइक वॉयस असिस्टेंट माया के पीछे अभिनव एआई कंपनी, ने अपनी क्षमताओं को चलाने वाले बेस मॉडल को जारी करके सिर्फ लहरें बनाई हैं। CSM-1B को डब किया गया, यह मॉडल 1 बिलियन मापदंडों का आकार समेटे हुए है, एक शब्द जो मॉडल को बनाने वाले व्यक्तिगत घटकों को संदर्भित करता है। Apache 2.0 लाइसेंस के तहत जारी, यह न्यूनतम प्रतिबंधों के साथ व्यावसायिक उपयोग के लिए खुला है, जैसा कि AI डेवलपमेंट प्लेटफॉर्म हगिंग फेस पर घोषित किया गया है।
CSM-1B पाठ और ऑडियो इनपुट को "RVQ ऑडियो कोड" में परिवर्तित करके कार्य करता है। RVQ "अवशिष्ट वेक्टर परिमाणीकरण" के लिए खड़ा है, एक विधि जो ऑडियो को असतत टोकन, या कोड में बदल देती है। इस तकनीक का उपयोग अन्य अत्याधुनिक एआई ऑडियो प्रौद्योगिकियों में भी किया जाता है, जैसे कि Google के साउंडस्ट्रीम और मेटा के एनकोडेक। इसके मूल में, CSM-1B मेटा के लामा परिवार के एक मॉडल का लाभ उठाता है, जो एक ऑडियो "डिकोडर" घटक के साथ संयुक्त है। सीएसएम -1 बी का एक विशेष संस्करण, ठीक-ट्यूनिंग के बाद, तिल के अनुसार, माया की आवाज को शक्ति देता है।
मॉडल को "बेस जेनरेशन मॉडल" के रूप में वर्णित करते हुए, इसके गले लगने वाले चेहरे और GitHub रिपॉजिटरी पर, तिल नोट करता है कि यह विभिन्न प्रकार की आवाज़ों का उत्पादन करने के लिए डिज़ाइन किया गया है, लेकिन किसी भी विशिष्ट आवाज के लिए परिष्कृत नहीं किया गया है। जबकि इसके प्रशिक्षण सेट में "डेटा संदूषण" के लिए गैर-अंग्रेजी भाषाओं को संभालने की कुछ क्षमता है, इस क्षेत्र में इसका प्रदर्शन संभावना है। दिलचस्प बात यह है कि तिल ने प्रशिक्षण डेटा के विवरण को लपेटने के तहत रखा है, जिससे हमें इस मॉडल के निर्माण में क्या मिला।
एक पहलू जो भौंहों को उठाता है वह है मजबूत सुरक्षा उपायों की कमी। तिल एक सम्मान प्रणाली पर काम करता है, बस उपयोगकर्ताओं और डेवलपर्स को बिना अनुमति के किसी की आवाज को दोहराने के लिए मॉडल का उपयोग करने से बचने के लिए प्रोत्साहित करता है, नकली समाचार जैसी भ्रामक सामग्री का उत्पादन करता है, या किसी भी "हानिकारक" या "दुर्भावनापूर्ण" गतिविधियों में भाग लेता है। मैंने व्यक्तिगत रूप से गले लगाने वाले चेहरे पर डेमो का परीक्षण किया, और एक मिनट के भीतर, मैंने अपनी आवाज को क्लोन किया था। यह किसी भी विषय पर भाषण उत्पन्न करने के लिए एक हवा थी, यहां तक कि चुनाव और रूसी प्रचार जैसे संवेदनशील भी।
उपभोक्ता रिपोर्टों ने हाल ही में कई एआई-संचालित वॉयस क्लोनिंग टूल्स में "सार्थक" सुरक्षा उपायों की कमी पर प्रकाश डाला, जिससे संभावित धोखाधड़ी या दुरुपयोग हो सकता है। ओकुलस के सह-निर्माता ब्रेंडन इरिब द्वारा सह-स्थापना की गई तिल ने फरवरी के अंत में अपनी सहायक तकनीक के साथ जनता की नज़र को पकड़ा जो लगभग अलौकिक घाटी से बच जाता है। माया और तिल के अन्य सहायक, माइल्स, दोनों, यथार्थवादी मानव-जैसे लक्षणों को प्रदर्शित करते हैं जैसे कि सांस लेना, असंतुष्टता के साथ बोलना, और ओपनई के वॉयस मोड के समान मध्य-मध्य-भाषण को बाधित करना।
आर्थिक रूप से, तिल ने आंद्रेसेन होरोविट्ज़, स्पार्क कैपिटल और मैट्रिक्स पार्टनर्स जैसे हैवीवेट से अघोषित धन प्राप्त किया है। वॉयस असिस्टेंट से परे, कंपनी अपने कस्टम मॉडल से सुसज्जित पूरे दिन के पहनने के लिए एआई चश्मे को प्रोटोटाइप करने में भी ध्यान दे रही है। यह कदम एआई प्रौद्योगिकी की सीमाओं को हमारे दैनिक जीवन में आगे बढ़ाने के लिए सीम की महत्वाकांक्षा को दर्शाता है।




Wow, Sesame's CSM-1B sounds like a game-changer! A billion parameters for Maya’s lifelike voice? That’s some serious tech flex. Curious how it stacks up against other models in real-world use. 😎




Whoa, a 1B parameter model powering Maya? That's some serious brainpower! Curious how Sesame's CSM-1B stacks up against other AI giants. Excited to see where this tech takes us! 🚀




Sesame's base AI model for Maya is mind-blowing! 1 billion parameters? That's insane! Maya's voice is so lifelike, it's like talking to a real person. But sometimes she gets a bit too chatty, which can be annoying. Still, a fantastic piece of tech! 🤯




¡El modelo base de IA de Sesame para Maya es alucinante! ¿1 billón de parámetros? ¡Eso es una locura! La voz de Maya es tan realista, parece que estoy hablando con una persona real. Pero a veces se pone un poco parlanchina, lo que puede ser molesto. Aún así, una tecnología fantástica! 🤯




Das Basis-AI-Modell von Sesame für Maya ist umwerfend! 1 Milliarde Parameter? Das ist verrückt! Mayas Stimme ist so lebensecht, es fühlt sich an, als würde man mit einer echten Person sprechen. Aber manchmal wird sie ein bisschen zu gesprächig, was nervig sein kann. Trotzdem, eine fantastische Technologie! 🤯




SesameのMayaの基礎AIモデルは驚異的!10億のパラメータ?それは狂ってる!Mayaの声は本当にリアルで、まるで本物の人と話しているみたい。ただ、時々彼女がちょっとおしゃべりすぎてうざい時がある。それでも、素晴らしい技術だよ!🤯












