芝麻揭开病毒虚拟助手玛雅背后的基础AI模型

Sesame,这家创新的AI公司,推出了令人惊叹的逼真语音助手Maya,刚刚通过发布驱动其功能的基模型掀起了波澜。该模型被称为CSM-1B,拥有10亿个参数,这一术语指的是构成模型的各个组件。该模型在Apache 2.0许可证下发布,可用于商业用途,几乎没有限制,正如在AI开发平台Hugging Face上宣布的那样。
CSM-1B通过将文本和音频输入转换为“RVQ音频代码”来运作。RVQ代表“残差向量量化”,这是一种将音频转化为离散标记或代码的方法。该技术也被其他尖端AI音频技术所使用,如Google的SoundStream和Meta的Encodec。CSM-1B的核心利用了Meta的Llama家族中的一个模型,结合了一个音频“解码器”组件。据Sesame称,经过微调的CSM-1B专用版本为Maya的语音提供动力。
Sesame在其Hugging Face和GitHub仓库中将该模型描述为“基础生成模型”,指出它设计用于生成多种语音,但尚未针对任何特定语音进行优化。由于训练集中存在“数据污染”,它在一定程度上能够处理非英语语言,但在这方面的表现可能不佳。有趣的是,Sesame对训练数据的细节保密,让我们对构建该模型的过程感到好奇。
一个引人注目的方面是缺乏强大的防护措施。Sesame采用诚信系统,仅鼓励用户和开发者避免未经许可复制某人的语音、制作虚假新闻等误导性内容,或参与任何“有害”或“恶意”活动。我亲自在Hugging Face上测试了演示版,不到一分钟就克隆了我的声音。生成关于任何话题的语音都非常轻松,甚至包括选举和俄罗斯宣传等敏感话题。
《消费者报告》最近强调了许多AI驱动的语音克隆工具缺乏“有意义的”防护措施,这可能导致潜在的欺诈或滥用。Sesame由Oculus联合创始人Brendan Iribe共同创立,在二月底凭借其几乎摆脱了恐怖谷效应的助手技术吸引了公众的注意。Maya和Sesame的另一个助手Miles展现出逼真的人类特征,如呼吸、带有口语瑕疵的讲话,以及可在讲话中被打断,类似于OpenAI的语音模式。
在财务方面,Sesame从Andreessen Horowitz、Spark Capital和Matrix Partners等重量级投资者那里获得了未公开的资金。除了语音助手,Sesame还着手开发AI眼镜原型,计划全天佩戴,配备其定制模型。这一举措显示了Sesame将AI技术进一步推向我们日常生活的雄心。
相关文章
Notion 将其工作区转变为人工智能代理的枢纽
生产力软件公司 Notion 正迈入智能代理时代。在周三的一场直播产品发布会上,以协作式笔记应用而闻名的 Notion 推出了一款全新的开发者平台。该平台不仅扩展了其定制 AI 代理的功能,还能与外部代理连接,并允许团队构建能够从任何数据库提取数据的自动化多步骤工作流。通过构建一个编排层——即一个能在多个工具和数据源之间协调AI工作的系统——Notion将自身定位为不仅仅是一款具备AI功能的笔记应
ElevenLabs宣布黑石集团、杰米·福克斯和伊娃·朗格利亚成为新投资者
语音人工智能公司ElevenLabs披露了其5亿美元D轮融资的更多投资者名单,该轮融资最初于2月宣布。 其中包括贝莱德(BlackRock)、威灵顿(Wellington)、D.E. Shaw和施罗德(Schroders)等机构投资者;英伟达(NVIDIA)、Salesforce、桑坦德银行(Santander)、KPN和德国电信(Deutsche Telekom)等企业;以及杰米·福克斯(Jam
WordPress.com 现已支持 AI 助手撰写和发布文章,还有更多功能
广受欢迎的网站托管和发布平台 WordPress.com 现已开始引入人工智能助手——这一举措或将重塑网络的呈现方式。该公司于周五宣布,将允许人工智能助手在用户网站上起草、编辑和发布内容,同时还能管理评论、更新和修正元数据,并通过标签和分类对内容进行整理。所有这些操作均通过一个界面进行控制,网站所有者只需使用自然语言命令说明其需求即可。凭借这些新功能,网站几乎可以完全由人工指导的AI代理来创建和运
相关专题推荐
评论 (8)
0/500
C'est incroyable ce que Sesame a fait avec Maya ! Un modèle à 1 milliard de paramètres, ça doit être une sacrée bête. Mais franchement, ça donne quoi en termes d'éthique ? On va tous finir avec des assistants trop parfaits ? 😅
Wow, Sesame's CSM-1B sounds like a game-changer! A billion parameters for Maya’s lifelike voice? That’s some serious tech flex. Curious how it stacks up against other models in real-world use. 😎
Whoa, a 1B parameter model powering Maya? That's some serious brainpower! Curious how Sesame's CSM-1B stacks up against other AI giants. Excited to see where this tech takes us! 🚀
Sesame's base AI model for Maya is mind-blowing! 1 billion parameters? That's insane! Maya's voice is so lifelike, it's like talking to a real person. But sometimes she gets a bit too chatty, which can be annoying. Still, a fantastic piece of tech! 🤯
¡El modelo base de IA de Sesame para Maya es alucinante! ¿1 billón de parámetros? ¡Eso es una locura! La voz de Maya es tan realista, parece que estoy hablando con una persona real. Pero a veces se pone un poco parlanchina, lo que puede ser molesto. Aún así, una tecnología fantástica! 🤯
Das Basis-AI-Modell von Sesame für Maya ist umwerfend! 1 Milliarde Parameter? Das ist verrückt! Mayas Stimme ist so lebensecht, es fühlt sich an, als würde man mit einer echten Person sprechen. Aber manchmal wird sie ein bisschen zu gesprächig, was nervig sein kann. Trotzdem, eine fantastische Technologie! 🤯

Sesame,这家创新的AI公司,推出了令人惊叹的逼真语音助手Maya,刚刚通过发布驱动其功能的基模型掀起了波澜。该模型被称为CSM-1B,拥有10亿个参数,这一术语指的是构成模型的各个组件。该模型在Apache 2.0许可证下发布,可用于商业用途,几乎没有限制,正如在AI开发平台Hugging Face上宣布的那样。
CSM-1B通过将文本和音频输入转换为“RVQ音频代码”来运作。RVQ代表“残差向量量化”,这是一种将音频转化为离散标记或代码的方法。该技术也被其他尖端AI音频技术所使用,如Google的SoundStream和Meta的Encodec。CSM-1B的核心利用了Meta的Llama家族中的一个模型,结合了一个音频“解码器”组件。据Sesame称,经过微调的CSM-1B专用版本为Maya的语音提供动力。
Sesame在其Hugging Face和GitHub仓库中将该模型描述为“基础生成模型”,指出它设计用于生成多种语音,但尚未针对任何特定语音进行优化。由于训练集中存在“数据污染”,它在一定程度上能够处理非英语语言,但在这方面的表现可能不佳。有趣的是,Sesame对训练数据的细节保密,让我们对构建该模型的过程感到好奇。
一个引人注目的方面是缺乏强大的防护措施。Sesame采用诚信系统,仅鼓励用户和开发者避免未经许可复制某人的语音、制作虚假新闻等误导性内容,或参与任何“有害”或“恶意”活动。我亲自在Hugging Face上测试了演示版,不到一分钟就克隆了我的声音。生成关于任何话题的语音都非常轻松,甚至包括选举和俄罗斯宣传等敏感话题。
《消费者报告》最近强调了许多AI驱动的语音克隆工具缺乏“有意义的”防护措施,这可能导致潜在的欺诈或滥用。Sesame由Oculus联合创始人Brendan Iribe共同创立,在二月底凭借其几乎摆脱了恐怖谷效应的助手技术吸引了公众的注意。Maya和Sesame的另一个助手Miles展现出逼真的人类特征,如呼吸、带有口语瑕疵的讲话,以及可在讲话中被打断,类似于OpenAI的语音模式。
在财务方面,Sesame从Andreessen Horowitz、Spark Capital和Matrix Partners等重量级投资者那里获得了未公开的资金。除了语音助手,Sesame还着手开发AI眼镜原型,计划全天佩戴,配备其定制模型。这一举措显示了Sesame将AI技术进一步推向我们日常生活的雄心。
Notion 将其工作区转变为人工智能代理的枢纽
生产力软件公司 Notion 正迈入智能代理时代。在周三的一场直播产品发布会上,以协作式笔记应用而闻名的 Notion 推出了一款全新的开发者平台。该平台不仅扩展了其定制 AI 代理的功能,还能与外部代理连接,并允许团队构建能够从任何数据库提取数据的自动化多步骤工作流。通过构建一个编排层——即一个能在多个工具和数据源之间协调AI工作的系统——Notion将自身定位为不仅仅是一款具备AI功能的笔记应
ElevenLabs宣布黑石集团、杰米·福克斯和伊娃·朗格利亚成为新投资者
语音人工智能公司ElevenLabs披露了其5亿美元D轮融资的更多投资者名单,该轮融资最初于2月宣布。 其中包括贝莱德(BlackRock)、威灵顿(Wellington)、D.E. Shaw和施罗德(Schroders)等机构投资者;英伟达(NVIDIA)、Salesforce、桑坦德银行(Santander)、KPN和德国电信(Deutsche Telekom)等企业;以及杰米·福克斯(Jam
WordPress.com 现已支持 AI 助手撰写和发布文章,还有更多功能
广受欢迎的网站托管和发布平台 WordPress.com 现已开始引入人工智能助手——这一举措或将重塑网络的呈现方式。该公司于周五宣布,将允许人工智能助手在用户网站上起草、编辑和发布内容,同时还能管理评论、更新和修正元数据,并通过标签和分类对内容进行整理。所有这些操作均通过一个界面进行控制,网站所有者只需使用自然语言命令说明其需求即可。凭借这些新功能,网站几乎可以完全由人工指导的AI代理来创建和运
C'est incroyable ce que Sesame a fait avec Maya ! Un modèle à 1 milliard de paramètres, ça doit être une sacrée bête. Mais franchement, ça donne quoi en termes d'éthique ? On va tous finir avec des assistants trop parfaits ? 😅
Wow, Sesame's CSM-1B sounds like a game-changer! A billion parameters for Maya’s lifelike voice? That’s some serious tech flex. Curious how it stacks up against other models in real-world use. 😎
Whoa, a 1B parameter model powering Maya? That's some serious brainpower! Curious how Sesame's CSM-1B stacks up against other AI giants. Excited to see where this tech takes us! 🚀
Sesame's base AI model for Maya is mind-blowing! 1 billion parameters? That's insane! Maya's voice is so lifelike, it's like talking to a real person. But sometimes she gets a bit too chatty, which can be annoying. Still, a fantastic piece of tech! 🤯
¡El modelo base de IA de Sesame para Maya es alucinante! ¿1 billón de parámetros? ¡Eso es una locura! La voz de Maya es tan realista, parece que estoy hablando con una persona real. Pero a veces se pone un poco parlanchina, lo que puede ser molesto. Aún así, una tecnología fantástica! 🤯
Das Basis-AI-Modell von Sesame für Maya ist umwerfend! 1 Milliarde Parameter? Das ist verrückt! Mayas Stimme ist so lebensecht, es fühlt sich an, als würde man mit einer echten Person sprechen. Aber manchmal wird sie ein bisschen zu gesprächig, was nervig sein kann. Trotzdem, eine fantastische Technologie! 🤯





首页






