Sesame открывает модель AI Base, стоящая за вирусным виртуальным помощником Maya

Sesame, инновационная компания в области искусственного интеллекта, создавшая поразительно реалистичного голосового помощника Maya, только что вызвала ажиотаж, выпустив базовую модель, обеспечивающую её возможности. Названная CSM-1B, эта модель имеет размер в 1 миллиард параметров, термин, который обозначает отдельные компоненты, составляющие модель. Выпущенная под лицензией Apache 2.0, она открыта для коммерческого использования с минимальными ограничениями, как было объявлено на платформе разработки ИИ Hugging Face.
CSM-1B функционирует, преобразуя текстовые и аудиовходы в «аудиокоды RVQ». RVQ означает «остаточная векторная квантизация», метод, который преобразует аудио в дискретные токены или коды. Эта технология также используется в других передовых аудиотехнологиях ИИ, таких как SoundStream от Google и Encodec от Meta. В основе CSM-1B лежит модель из семейства Llama от Meta, дополненная компонентом аудио «декодера». Специализированная версия CSM-1B, после тонкой настройки, обеспечивает голос Maya, согласно Sesame.
Описывая модель как «базовую модель генерации» в своих репозиториях на Hugging Face и GitHub, Sesame отмечает, что она разработана для создания различных голосов, но не была оптимизирована для какого-либо конкретного голоса. Хотя модель обладает некоторой способностью обрабатывать неанглоязычные языки благодаря «загрязнению данных» в обучающем наборе, её производительность в этой области, вероятно, ниже среднего. Интересно, что Sesame держит в секрете детали обучающих данных, оставляя нас в любопытстве о том, что было использовано для создания этой модели.
Один аспект, вызывающий удивление, — это отсутствие надёжных мер безопасности. Sesame полагается на честность, просто призывая пользователей и разработчиков избегать использования модели для копирования чьего-либо голоса без разрешения, создания вводящего в заблуждение контента, такого как фейковые новости, или участия в любых «вредных» или «злонамеренных» действиях. Я лично протестировал демо на Hugging Face, и за минуту я клонировал свой голос. Было легко сгенерировать речь на любую тему, даже на такие чувствительные, как выборы и российская пропаганда.
Consumer Reports недавно отметила тревожное отсутствие «значимых» мер безопасности во многих инструментах клонирования голоса на базе ИИ, что может привести к потенциальному мошенничеству или злоупотреблениям. Sesame, соучредителем которой является создатель Oculus Брендан Ириб, привлекла внимание общественности в конце февраля своей технологией помощника, которая почти избегает эффекта зловещей долины. И Maya, и другой помощник Sesame, Miles, демонстрируют реалистичные человеческие черты, такие как дыхание, речь с оговорками и возможность прерывания на середине речи, подобно Voice Mode от OpenAI.
Финансово Sesame получила нераскрытое финансирование от таких гигантов, как Andreessen Horowitz, Spark Capital и Matrix Partners. Помимо голосовых помощников, компания также занимается прототипированием очков с ИИ, предназначенных для ношения в течение всего дня, оснащённых их собственными моделями. Этот шаг демонстрирует амбиции Sesame продвигать технологии ИИ дальше в нашу повседневную жизнь.
Связанная статья
WordPress.com теперь позволяет ИИ-ботам создавать и публиковать посты, а также выполнять другие задачи
WordPress.com, популярная платформа для веб-хостинга и публикации контента, теперь внедряет ИИ-агентов — шаг, который может кардинально изменить облик и функциональность Интернета. В пятницу компания
Kakao Mobility представляет план развития автономного вождения 4-го уровня с использованием физического ИИ
Компания Kakao Mobility планирует самостоятельно разрабатывать технологии автономного вождения 4-го уровня в рамках своей стратегии «физического ИИ».На конференции World IT Show 2026, прошедшей в сеу
Барри Диллер: доверие к Сэму Альтману теряет значение по мере приближения эры общей искусственной интеллигенции
Миллиардер и медиа-магнат Барри Диллер не считает генерального директора OpenAI Сэма Альтмана недостойным доверия, несмотря на недавние сообщения, свидетельствующие об обратном. Выступая на этой недел
Рекомендации по связанным специальным темам
Комментарии (8)
C'est incroyable ce que Sesame a fait avec Maya ! Un modèle à 1 milliard de paramètres, ça doit être une sacrée bête. Mais franchement, ça donne quoi en termes d'éthique ? On va tous finir avec des assistants trop parfaits ? 😅
Wow, Sesame's CSM-1B sounds like a game-changer! A billion parameters for Maya’s lifelike voice? That’s some serious tech flex. Curious how it stacks up against other models in real-world use. 😎
Whoa, a 1B parameter model powering Maya? That's some serious brainpower! Curious how Sesame's CSM-1B stacks up against other AI giants. Excited to see where this tech takes us! 🚀
Sesame's base AI model for Maya is mind-blowing! 1 billion parameters? That's insane! Maya's voice is so lifelike, it's like talking to a real person. But sometimes she gets a bit too chatty, which can be annoying. Still, a fantastic piece of tech! 🤯
¡El modelo base de IA de Sesame para Maya es alucinante! ¿1 billón de parámetros? ¡Eso es una locura! La voz de Maya es tan realista, parece que estoy hablando con una persona real. Pero a veces se pone un poco parlanchina, lo que puede ser molesto. Aún así, una tecnología fantástica! 🤯
Das Basis-AI-Modell von Sesame für Maya ist umwerfend! 1 Milliarde Parameter? Das ist verrückt! Mayas Stimme ist so lebensecht, es fühlt sich an, als würde man mit einer echten Person sprechen. Aber manchmal wird sie ein bisschen zu gesprächig, was nervig sein kann. Trotzdem, eine fantastische Technologie! 🤯

Sesame, инновационная компания в области искусственного интеллекта, создавшая поразительно реалистичного голосового помощника Maya, только что вызвала ажиотаж, выпустив базовую модель, обеспечивающую её возможности. Названная CSM-1B, эта модель имеет размер в 1 миллиард параметров, термин, который обозначает отдельные компоненты, составляющие модель. Выпущенная под лицензией Apache 2.0, она открыта для коммерческого использования с минимальными ограничениями, как было объявлено на платформе разработки ИИ Hugging Face.
CSM-1B функционирует, преобразуя текстовые и аудиовходы в «аудиокоды RVQ». RVQ означает «остаточная векторная квантизация», метод, который преобразует аудио в дискретные токены или коды. Эта технология также используется в других передовых аудиотехнологиях ИИ, таких как SoundStream от Google и Encodec от Meta. В основе CSM-1B лежит модель из семейства Llama от Meta, дополненная компонентом аудио «декодера». Специализированная версия CSM-1B, после тонкой настройки, обеспечивает голос Maya, согласно Sesame.
Описывая модель как «базовую модель генерации» в своих репозиториях на Hugging Face и GitHub, Sesame отмечает, что она разработана для создания различных голосов, но не была оптимизирована для какого-либо конкретного голоса. Хотя модель обладает некоторой способностью обрабатывать неанглоязычные языки благодаря «загрязнению данных» в обучающем наборе, её производительность в этой области, вероятно, ниже среднего. Интересно, что Sesame держит в секрете детали обучающих данных, оставляя нас в любопытстве о том, что было использовано для создания этой модели.
Один аспект, вызывающий удивление, — это отсутствие надёжных мер безопасности. Sesame полагается на честность, просто призывая пользователей и разработчиков избегать использования модели для копирования чьего-либо голоса без разрешения, создания вводящего в заблуждение контента, такого как фейковые новости, или участия в любых «вредных» или «злонамеренных» действиях. Я лично протестировал демо на Hugging Face, и за минуту я клонировал свой голос. Было легко сгенерировать речь на любую тему, даже на такие чувствительные, как выборы и российская пропаганда.
Consumer Reports недавно отметила тревожное отсутствие «значимых» мер безопасности во многих инструментах клонирования голоса на базе ИИ, что может привести к потенциальному мошенничеству или злоупотреблениям. Sesame, соучредителем которой является создатель Oculus Брендан Ириб, привлекла внимание общественности в конце февраля своей технологией помощника, которая почти избегает эффекта зловещей долины. И Maya, и другой помощник Sesame, Miles, демонстрируют реалистичные человеческие черты, такие как дыхание, речь с оговорками и возможность прерывания на середине речи, подобно Voice Mode от OpenAI.
Финансово Sesame получила нераскрытое финансирование от таких гигантов, как Andreessen Horowitz, Spark Capital и Matrix Partners. Помимо голосовых помощников, компания также занимается прототипированием очков с ИИ, предназначенных для ношения в течение всего дня, оснащённых их собственными моделями. Этот шаг демонстрирует амбиции Sesame продвигать технологии ИИ дальше в нашу повседневную жизнь.
WordPress.com теперь позволяет ИИ-ботам создавать и публиковать посты, а также выполнять другие задачи
WordPress.com, популярная платформа для веб-хостинга и публикации контента, теперь внедряет ИИ-агентов — шаг, который может кардинально изменить облик и функциональность Интернета. В пятницу компания
Барри Диллер: доверие к Сэму Альтману теряет значение по мере приближения эры общей искусственной интеллигенции
Миллиардер и медиа-магнат Барри Диллер не считает генерального директора OpenAI Сэма Альтмана недостойным доверия, несмотря на недавние сообщения, свидетельствующие об обратном. Выступая на этой недел
C'est incroyable ce que Sesame a fait avec Maya ! Un modèle à 1 milliard de paramètres, ça doit être une sacrée bête. Mais franchement, ça donne quoi en termes d'éthique ? On va tous finir avec des assistants trop parfaits ? 😅
Wow, Sesame's CSM-1B sounds like a game-changer! A billion parameters for Maya’s lifelike voice? That’s some serious tech flex. Curious how it stacks up against other models in real-world use. 😎
Whoa, a 1B parameter model powering Maya? That's some serious brainpower! Curious how Sesame's CSM-1B stacks up against other AI giants. Excited to see where this tech takes us! 🚀
Sesame's base AI model for Maya is mind-blowing! 1 billion parameters? That's insane! Maya's voice is so lifelike, it's like talking to a real person. But sometimes she gets a bit too chatty, which can be annoying. Still, a fantastic piece of tech! 🤯
¡El modelo base de IA de Sesame para Maya es alucinante! ¿1 billón de parámetros? ¡Eso es una locura! La voz de Maya es tan realista, parece que estoy hablando con una persona real. Pero a veces se pone un poco parlanchina, lo que puede ser molesto. Aún así, una tecnología fantástica! 🤯
Das Basis-AI-Modell von Sesame für Maya ist umwerfend! 1 Milliarde Parameter? Das ist verrückt! Mayas Stimme ist so lebensecht, es fühlt sich an, als würde man mit einer echten Person sprechen. Aber manchmal wird sie ein bisschen zu gesprächig, was nervig sein kann. Trotzdem, eine fantastische Technologie! 🤯





Дом






