セサミは、ウイルス仮想アシスタントマヤの背後にあるベースAIモデルを発表します

Sesameは、驚くほどリアルな音声アシスタントMayaを支える革新的なAI企業で、彼女の能力を駆動するベースモデルを公開し、話題を呼んでいます。このモデルはCSM-1Bと名付けられ、10億のパラメータを持ち、これはモデルを構成する個々のコンポーネントを指す用語です。Apache 2.0ライセンスの下で公開されており、AI開発プラットフォームHugging Faceで発表されたように、商用利用における制限は最小限です。
CSM-1Bは、テキストとオーディオ入力を「RVQオーディオコード」に変換することで機能します。RVQは「残差ベクトル量子化」を意味し、オーディオを離散的なトークン、つまりコードに変換する手法です。この技術は、GoogleのSoundStreamやMetaのEncodecなど、他の最先端AIオーディオ技術でも使用されています。CSM-1Bの核には、MetaのLlamaファミリーのモデルと、オーディオ「デコーダー」コンポーネントが組み合わされています。Sesameによると、CSM-1Bの特別なバージョンが微調整された後、Mayaの音声を支えています。
Hugging FaceおよびGitHubのリポジトリでこのモデルを「ベース生成モデル」と説明し、Sesameはさまざまな音声を生成するように設計されているが、特定の音声に特化して調整されていないと述べています。トレーニングセットの「データ汚染」のおかげで、英語以外の言語をある程度処理できますが、この分野での性能は恐らく劣っています。興味深いことに、Sesameはこのモデルの構築に使用されたトレーニングデータの詳細を公開しておらず、どのようなデータが使われたのか気になります。
注目すべき点の一つは、強固なセーフガードの欠如です。Sesameは名誉システムに基づいて運営されており、ユーザーや開発者に対して、許可なく誰かの音声を複製したり、フェイクニュースのような誤解を招くコンテンツを生成したり、「有害」または「悪意のある」活動に関与しないよう単に促すだけです。私はHugging Faceのデモを個人的に試しましたが、1分以内に自分の音声をクローンできました。選挙やロシアのプロパガンダのようなデリケートなトピックでも、簡単にスピーチを生成できました。
Consumer Reportsは最近、AIを活用した音声クローニングツールの多くに「意味のある」セーフガードが欠如していることを指摘し、詐欺や悪用の可能性を引き起こすと警告しました。Oculusの共同創業者Brendan Iribeが共同設立したSesameは、2月下旬にそのアシスタント技術で注目を集め、不気味の谷をほぼ脱した技術を披露しました。MayaとSesameのもう一つのアシスタントMilesは、呼吸をしたり、つっかえながら話したり、話の途中で割り込み可能なリアルな人間らしい特徴を示し、OpenAIのVoice Modeに似ています。
財政面では、SesameはAndreessen Horowitz、Spark Capital、Matrix Partnersといった有力企業から非公開の資金を確保しています。音声アシスタントを超えて、同社は終日装着可能なAIグラスのプロトタイプ開発にも乗り出しており、独自のモデルを搭載しています。この動きは、SesameがAI技術を私たちの日常生活にさらに押し進める野心を示しています。
関連記事
WordPress.comでは、AIエージェントによる投稿の作成や公開が可能になりました。その他にもさまざまな機能が追加されています。
人気のウェブホスティング・パブリッシングプラットフォームであるWordPress.comが、AIエージェントの導入に乗り出した。この動きは、ウェブのあり方を一変させる可能性がある。同社は金曜日、AIエージェントが顧客のウェブサイト上でコンテンツの下書き作成、編集、公開を行うほか、コメントの管理、メタデータの更新・修正、タグやカテゴリを用いたコンテンツの整理も可能になると発表した。これらすべての操作
カカオ・モビリティ、物理AIに向けたレベル4自動運転のロードマップを提示
カカオ・モビリティは、フィジカルAI戦略の一環として、レベル4の自動運転技術を自社開発する計画だ。ソウルCOEXで開催された「2026ワールドITショー」のカンファレンスにおいて、カカオモビリティのフィジカルAI部門長兼副社長であるキム・ジンギュ氏がロードマップを発表した。同氏の講演は、フィジカルAI時代におけるモビリティプラットフォームを軸とした自動運転サービスに焦点を当てたものだった。聯合
バリー・ディラー:AGIの実現が近づく中、サム・アルトマンへの信頼は重要ではない
億万長者のメディア界の巨頭であるバリー・ディラー氏は、最近の報道でそのように示唆されているにもかかわらず、OpenAIのCEOサム・アルトマン氏が信頼できない人物だとは考えていない。今週開催されたウォール・ストリート・ジャーナル紙主催の「Future of Everything」カンファレンスで講演したディラー氏は、一部の元同僚や取締役から、時折人を利用したり欺いたりする傾向があるとの非難を受けて
関連特集おすすめ
コメント (8)
0/500
C'est incroyable ce que Sesame a fait avec Maya ! Un modèle à 1 milliard de paramètres, ça doit être une sacrée bête. Mais franchement, ça donne quoi en termes d'éthique ? On va tous finir avec des assistants trop parfaits ? 😅
Wow, Sesame's CSM-1B sounds like a game-changer! A billion parameters for Maya’s lifelike voice? That’s some serious tech flex. Curious how it stacks up against other models in real-world use. 😎
Whoa, a 1B parameter model powering Maya? That's some serious brainpower! Curious how Sesame's CSM-1B stacks up against other AI giants. Excited to see where this tech takes us! 🚀
Sesame's base AI model for Maya is mind-blowing! 1 billion parameters? That's insane! Maya's voice is so lifelike, it's like talking to a real person. But sometimes she gets a bit too chatty, which can be annoying. Still, a fantastic piece of tech! 🤯
¡El modelo base de IA de Sesame para Maya es alucinante! ¿1 billón de parámetros? ¡Eso es una locura! La voz de Maya es tan realista, parece que estoy hablando con una persona real. Pero a veces se pone un poco parlanchina, lo que puede ser molesto. Aún así, una tecnología fantástica! 🤯
Das Basis-AI-Modell von Sesame für Maya ist umwerfend! 1 Milliarde Parameter? Das ist verrückt! Mayas Stimme ist so lebensecht, es fühlt sich an, als würde man mit einer echten Person sprechen. Aber manchmal wird sie ein bisschen zu gesprächig, was nervig sein kann. Trotzdem, eine fantastische Technologie! 🤯

Sesameは、驚くほどリアルな音声アシスタントMayaを支える革新的なAI企業で、彼女の能力を駆動するベースモデルを公開し、話題を呼んでいます。このモデルはCSM-1Bと名付けられ、10億のパラメータを持ち、これはモデルを構成する個々のコンポーネントを指す用語です。Apache 2.0ライセンスの下で公開されており、AI開発プラットフォームHugging Faceで発表されたように、商用利用における制限は最小限です。
CSM-1Bは、テキストとオーディオ入力を「RVQオーディオコード」に変換することで機能します。RVQは「残差ベクトル量子化」を意味し、オーディオを離散的なトークン、つまりコードに変換する手法です。この技術は、GoogleのSoundStreamやMetaのEncodecなど、他の最先端AIオーディオ技術でも使用されています。CSM-1Bの核には、MetaのLlamaファミリーのモデルと、オーディオ「デコーダー」コンポーネントが組み合わされています。Sesameによると、CSM-1Bの特別なバージョンが微調整された後、Mayaの音声を支えています。
Hugging FaceおよびGitHubのリポジトリでこのモデルを「ベース生成モデル」と説明し、Sesameはさまざまな音声を生成するように設計されているが、特定の音声に特化して調整されていないと述べています。トレーニングセットの「データ汚染」のおかげで、英語以外の言語をある程度処理できますが、この分野での性能は恐らく劣っています。興味深いことに、Sesameはこのモデルの構築に使用されたトレーニングデータの詳細を公開しておらず、どのようなデータが使われたのか気になります。
注目すべき点の一つは、強固なセーフガードの欠如です。Sesameは名誉システムに基づいて運営されており、ユーザーや開発者に対して、許可なく誰かの音声を複製したり、フェイクニュースのような誤解を招くコンテンツを生成したり、「有害」または「悪意のある」活動に関与しないよう単に促すだけです。私はHugging Faceのデモを個人的に試しましたが、1分以内に自分の音声をクローンできました。選挙やロシアのプロパガンダのようなデリケートなトピックでも、簡単にスピーチを生成できました。
Consumer Reportsは最近、AIを活用した音声クローニングツールの多くに「意味のある」セーフガードが欠如していることを指摘し、詐欺や悪用の可能性を引き起こすと警告しました。Oculusの共同創業者Brendan Iribeが共同設立したSesameは、2月下旬にそのアシスタント技術で注目を集め、不気味の谷をほぼ脱した技術を披露しました。MayaとSesameのもう一つのアシスタントMilesは、呼吸をしたり、つっかえながら話したり、話の途中で割り込み可能なリアルな人間らしい特徴を示し、OpenAIのVoice Modeに似ています。
財政面では、SesameはAndreessen Horowitz、Spark Capital、Matrix Partnersといった有力企業から非公開の資金を確保しています。音声アシスタントを超えて、同社は終日装着可能なAIグラスのプロトタイプ開発にも乗り出しており、独自のモデルを搭載しています。この動きは、SesameがAI技術を私たちの日常生活にさらに押し進める野心を示しています。
WordPress.comでは、AIエージェントによる投稿の作成や公開が可能になりました。その他にもさまざまな機能が追加されています。
人気のウェブホスティング・パブリッシングプラットフォームであるWordPress.comが、AIエージェントの導入に乗り出した。この動きは、ウェブのあり方を一変させる可能性がある。同社は金曜日、AIエージェントが顧客のウェブサイト上でコンテンツの下書き作成、編集、公開を行うほか、コメントの管理、メタデータの更新・修正、タグやカテゴリを用いたコンテンツの整理も可能になると発表した。これらすべての操作
バリー・ディラー:AGIの実現が近づく中、サム・アルトマンへの信頼は重要ではない
億万長者のメディア界の巨頭であるバリー・ディラー氏は、最近の報道でそのように示唆されているにもかかわらず、OpenAIのCEOサム・アルトマン氏が信頼できない人物だとは考えていない。今週開催されたウォール・ストリート・ジャーナル紙主催の「Future of Everything」カンファレンスで講演したディラー氏は、一部の元同僚や取締役から、時折人を利用したり欺いたりする傾向があるとの非難を受けて
C'est incroyable ce que Sesame a fait avec Maya ! Un modèle à 1 milliard de paramètres, ça doit être une sacrée bête. Mais franchement, ça donne quoi en termes d'éthique ? On va tous finir avec des assistants trop parfaits ? 😅
Wow, Sesame's CSM-1B sounds like a game-changer! A billion parameters for Maya’s lifelike voice? That’s some serious tech flex. Curious how it stacks up against other models in real-world use. 😎
Whoa, a 1B parameter model powering Maya? That's some serious brainpower! Curious how Sesame's CSM-1B stacks up against other AI giants. Excited to see where this tech takes us! 🚀
Sesame's base AI model for Maya is mind-blowing! 1 billion parameters? That's insane! Maya's voice is so lifelike, it's like talking to a real person. But sometimes she gets a bit too chatty, which can be annoying. Still, a fantastic piece of tech! 🤯
¡El modelo base de IA de Sesame para Maya es alucinante! ¿1 billón de parámetros? ¡Eso es una locura! La voz de Maya es tan realista, parece que estoy hablando con una persona real. Pero a veces se pone un poco parlanchina, lo que puede ser molesto. Aún así, una tecnología fantástica! 🤯
Das Basis-AI-Modell von Sesame für Maya ist umwerfend! 1 Milliarde Parameter? Das ist verrückt! Mayas Stimme ist so lebensecht, es fühlt sich an, als würde man mit einer echten Person sprechen. Aber manchmal wird sie ein bisschen zu gesprächig, was nervig sein kann. Trotzdem, eine fantastische Technologie! 🤯





家






