オプション
ニュース
セサミは、ウイルス仮想アシスタントマヤの背後にあるベースAIモデルを発表します

セサミは、ウイルス仮想アシスタントマヤの背後にあるベースAIモデルを発表します

2025年4月23日
120

セサミは、ウイルス仮想アシスタントマヤの背後にあるベースAIモデルを発表します

Sesameは、驚くほどリアルな音声アシスタントMayaを支える革新的なAI企業で、彼女の能力を駆動するベースモデルを公開し、話題を呼んでいます。このモデルはCSM-1Bと名付けられ、10億のパラメータを持ち、これはモデルを構成する個々のコンポーネントを指す用語です。Apache 2.0ライセンスの下で公開されており、AI開発プラットフォームHugging Faceで発表されたように、商用利用における制限は最小限です。

CSM-1Bは、テキストとオーディオ入力を「RVQオーディオコード」に変換することで機能します。RVQは「残差ベクトル量子化」を意味し、オーディオを離散的なトークン、つまりコードに変換する手法です。この技術は、GoogleのSoundStreamやMetaのEncodecなど、他の最先端AIオーディオ技術でも使用されています。CSM-1Bの核には、MetaのLlamaファミリーのモデルと、オーディオ「デコーダー」コンポーネントが組み合わされています。Sesameによると、CSM-1Bの特別なバージョンが微調整された後、Mayaの音声を支えています。

Hugging FaceおよびGitHubのリポジトリでこのモデルを「ベース生成モデル」と説明し、Sesameはさまざまな音声を生成するように設計されているが、特定の音声に特化して調整されていないと述べています。トレーニングセットの「データ汚染」のおかげで、英語以外の言語をある程度処理できますが、この分野での性能は恐らく劣っています。興味深いことに、Sesameはこのモデルの構築に使用されたトレーニングデータの詳細を公開しておらず、どのようなデータが使われたのか気になります。

注目すべき点の一つは、強固なセーフガードの欠如です。Sesameは名誉システムに基づいて運営されており、ユーザーや開発者に対して、許可なく誰かの音声を複製したり、フェイクニュースのような誤解を招くコンテンツを生成したり、「有害」または「悪意のある」活動に関与しないよう単に促すだけです。私はHugging Faceのデモを個人的に試しましたが、1分以内に自分の音声をクローンできました。選挙やロシアのプロパガンダのようなデリケートなトピックでも、簡単にスピーチを生成できました。

Consumer Reportsは最近、AIを活用した音声クローニングツールの多くに「意味のある」セーフガードが欠如していることを指摘し、詐欺や悪用の可能性を引き起こすと警告しました。Oculusの共同創業者Brendan Iribeが共同設立したSesameは、2月下旬にそのアシスタント技術で注目を集め、不気味の谷をほぼ脱した技術を披露しました。MayaとSesameのもう一つのアシスタントMilesは、呼吸をしたり、つっかえながら話したり、話の途中で割り込み可能なリアルな人間らしい特徴を示し、OpenAIのVoice Modeに似ています。

財政面では、SesameはAndreessen Horowitz、Spark Capital、Matrix Partnersといった有力企業から非公開の資金を確保しています。音声アシスタントを超えて、同社は終日装着可能なAIグラスのプロトタイプ開発にも乗り出しており、独自のモデルを搭載しています。この動きは、SesameがAI技術を私たちの日常生活にさらに押し進める野心を示しています。

関連記事
「AIの安全性と倫理を探る:DatabricksとElevenLabsの専門家からの洞察 「AIの安全性と倫理を探る:DatabricksとElevenLabsの専門家からの洞察" ジェネレーティブAIがますます手頃な価格で普及するにつれ、倫理的配慮とセキュリティ対策が中心的な課題となっている。ElevenLabsのAIセーフティ・リードであるArtemis SeafordとDatabricksの共同クリエイターであるIon Stoicaは、TechCrunchのAI特派員Kyle Wiggersとの洞察に満ちた対話に参加し、今日のAIランドスケープにおける差し迫った倫理
トゥルース・ソーシャルの新しいAI検索エンジン、結果でフォックス・ニュースを大きく支持 トゥルース・ソーシャルの新しいAI検索エンジン、結果でフォックス・ニュースを大きく支持 トランプ大統領のソーシャルメディア・プラットフォームが、明らかに保守メディア寄りのAI検索機能を導入独占的なAI検索機能を開始ドナルド・トランプが設立したソーシャルメディア・プラットフォーム「トゥルース・ソーシャル」が、新しい人工知能検索ツール「トゥルース・サーチAI」を発表した。この機能は、AIスタートアップのPerplexityと提携して開発されたもので、現在はウェブ版で動作しているが、モバイ
ChatGPT、ファイルアクセスにGoogle DriveとDropboxの統合を追加 ChatGPT、ファイルアクセスにGoogle DriveとDropboxの統合を追加 ChatGPTが企業向け新機能で生産性を向上OpenAIは、ChatGPTを包括的なビジネス生産性ツールに変える2つの強力な新機能を発表しました:自動会議文書化とシームレスなクラウドストレージ統合です。革命的な録音機能新しく導入された "記録モード "は、自動テープ起こしや分析を可能にします:重要なビジネス会議創造的なブレーンストーミングセッション 個人の思考プロセスこの
コメント (8)
0/200
PaulYoung
PaulYoung 2025年8月14日 6:00:59 JST

C'est incroyable ce que Sesame a fait avec Maya ! Un modèle à 1 milliard de paramètres, ça doit être une sacrée bête. Mais franchement, ça donne quoi en termes d'éthique ? On va tous finir avec des assistants trop parfaits ? 😅

AnthonyMartinez
AnthonyMartinez 2025年7月31日 10:41:20 JST

Wow, Sesame's CSM-1B sounds like a game-changer! A billion parameters for Maya’s lifelike voice? That’s some serious tech flex. Curious how it stacks up against other models in real-world use. 😎

RoySmith
RoySmith 2025年7月28日 10:18:39 JST

Whoa, a 1B parameter model powering Maya? That's some serious brainpower! Curious how Sesame's CSM-1B stacks up against other AI giants. Excited to see where this tech takes us! 🚀

EricPerez
EricPerez 2025年4月25日 7:42:49 JST

Sesame's base AI model for Maya is mind-blowing! 1 billion parameters? That's insane! Maya's voice is so lifelike, it's like talking to a real person. But sometimes she gets a bit too chatty, which can be annoying. Still, a fantastic piece of tech! 🤯

GeorgeMiller
GeorgeMiller 2025年4月24日 22:04:42 JST

¡El modelo base de IA de Sesame para Maya es alucinante! ¿1 billón de parámetros? ¡Eso es una locura! La voz de Maya es tan realista, parece que estoy hablando con una persona real. Pero a veces se pone un poco parlanchina, lo que puede ser molesto. Aún así, una tecnología fantástica! 🤯

JonathanMiller
JonathanMiller 2025年4月24日 21:11:38 JST

Das Basis-AI-Modell von Sesame für Maya ist umwerfend! 1 Milliarde Parameter? Das ist verrückt! Mayas Stimme ist so lebensecht, es fühlt sich an, als würde man mit einer echten Person sprechen. Aber manchmal wird sie ein bisschen zu gesprächig, was nervig sein kann. Trotzdem, eine fantastische Technologie! 🤯

トップに戻ります
OR