1年後に音声クローニングツールをまだリリースしていないOpenai
OpenAIのボイスエンジン:長く待ち望まれたリリースか?
昨年3月末、OpenAIはAIサービス「ボイスエンジン」の「小規模プレビュー」を発表し、わずか15秒の音声で人の声をクローンできると約束した。1年が経過したが、このツールは依然としてプレビューモードであり、完全なリリースの明確なスケジュールはない。日の目を見るかどうかも未確定だ。
ボイスエンジンの広範な展開の遅れは、悪用の懸念や規制の監視を避ける試みによる可能性がある。OpenAIは過去に、安全性よりも派手な製品を優先し、競合他社に先駆けて市場に急ぐ姿勢で批判されてきた。
OpenAIの広報担当者はTechCrunchに対し、会社は「信頼できるパートナー」の選ばれたグループでボイスエンジンをテストしていると語った。「パートナーが技術をどのように活用しているかから、モデルの有用性と安全性を学んでいる」と広報担当者は説明。「音声療法、言語学習、カスタマーサポート、ビデオゲームのキャラクター、AIアバターなど、その応用範囲は刺激的だ」と述べた。
ボイスエンジン:これまでの歩み
ボイスエンジンは、OpenAIのテキスト音声変換APIやChatGPTのボイスモードを支えるもので、元の話者に驚くほど自然に近い音声を生成する。テキストを音声に変換するが、特定のコンテンツガイドラインに制約される。しかし、展開は当初から遅延と変更されたリリース日程に悩まされてきた。
2024年6月のブログ投稿で、OpenAIはボイスエンジンモデルがさまざまな声、アクセント、話し方を考慮し、与えられたテキストに対して話者が発しそうな音を予測する方法を詳述した。これにより、モデルはテキストから音声を生成するだけでなく、異なる話者がテキストをどのように発声するかを反映した「音声発話」を生成できる。
当初、ボイスエンジン(当時はカスタムボイスと呼ばれていた)は、TechCrunchが見たドラフトブログ投稿によると、2024年3月7日にOpenAIのAPIに追加される予定だった。最初のアクセスは、ソーシャルベネフィットのあるアプリを開発する、または技術の革新的かつ責任ある使用を示す最大100人の「信頼できる開発者」に優先的に提供される計画だった。OpenAIはすでにサービスを商標登録し、「標準」ボイスは100万文字あたり15ドル、「HD品質」ボイスは100万文字あたり30ドルの価格を設定していた。
しかし、発表は土壇場で延期された。数週間後、OpenAIはサインアップオプションなしでボイスエンジンを公開し、2023年後半から協力していた少数の開発者にアクセスを限定した。
「合成音声の責任ある展開と、社会がこれらの新たな能力にどう適応すべきかについて対話を始めたい」とOpenAIは2024年3月末の発表ブログ投稿で述べた。「これらの会話と小規模テストの結果に基づき、この技術を大規模に展開するかどうか、どのように展開するかをより適切に決定する」とした。
長い開発の道のり
ボイスエンジンは2022年から開発が進められ、2023年夏にはOpenAIがその可能性とリスクを世界の政策立案者に披露した。現在、スタートアップのLivoxを含む数社がボイスエンジンにアクセスしており、Livoxは障害者がより自然にコミュニケーションできるようにすることを目指している。しかし、LivoxのCEOカルロス・ペレイラ氏は、ボイスエンジンがインターネット接続を必要とするため、顧客の多くが利用できないとして、製品に統合できていないと述べた。「声の品質と、異なる言語で話す能力は特に障害を持つ顧客にとってユニークだ」とペレイラ氏はTechCrunchにメールで語った。「これまで見た中で最も印象的で使いやすい音声作成ツールだ…OpenAIがオフラインバージョンを早く開発してくれることを願っている」と述べた。
ペレイラ氏は、OpenAIからリリース日やサービス料金に関する情報を受け取っておらず、Livoxはこれまで使用料を支払っていない。
2024年6月の投稿で、OpenAIはボイスエンジンの遅延の一因が米国選挙サイクル中の悪用の可能性であると示唆した。同社は生成された音声の出所を追跡するためのウォーターマーキングなどの安全対策を導入している。開発者は元の話者から「明示的な同意」を得る必要があり、音声がAI生成であることを視聴者に「明確に開示」しなければならない。しかし、OpenAIはこれらのポリシーが大規模にどのように執行されるか詳細を明らかにしておらず、これは大きな課題となる可能性がある。
OpenAIはまた、話者を検証する「音声認証体験」や著名人の声を模倣する音声の作成を防ぐ「禁止リスト」の構築にも言及した。これらは野心的なプロジェクトであり、ミスがあればOpenAIの安全性に関する評判をさらに損なう可能性がある。
効果的なフィルタリングとID検証は、音声クローニング技術を責任を持ってリリースするために不可欠になりつつある。AI音声クローニングは2024年に3番目に急成長した詐欺で、詐欺や銀行のセキュリティチェックの回避を引き起こし、プライバシーや著作権法が追いついていない。悪意ある者が有名人や政治家のディープフェイクを作成し、ソーシャルメディアで急速に拡散させている。
OpenAIは来週ボイスエンジンをリリースするかもしれないし、決してリリースされないかもしれない。同社はサービスを小規模に保つことを検討していると述べている。しかし確かなことは、見た目、安全性、またはその両方の理由で、ボイスエンジンの限定プレビューはOpenAIの歴史上最も長いものの一つとなっていることだ。
関連記事
OpenAIは、公的基金、ロボット税、週4日勤務制を柱とするAI経済の構想を提示した
各国政府が超知能機械による経済的影響への対応に苦慮する中、OpenAIは「知能の時代」において富と労働がどのように再構築されるべきかを概説した一連の政策提言を発表した。その構想は、公的資産基金や社会安全網の拡充といった伝統的な左派的な仕組みと、根本的に資本主義的で市場主導型の経済枠組みとを融合させたものである。OpenAIの提案は本質的に「要望リスト」に相当し、人工知能が労働と経済を変革する中で、
グレッグ・ブロックマンが、イーロン・マスクがOpenAIを去った経緯を明かす
2017年8月下旬、当時まだ小規模な非営利研究機関だったOpenAIの主要メンバーは、自社の技術を商用化し、汎用人工知能(AGI)の実現に必要な資金を調達するために、営利法人をどのように設立すべきかについて協議した。イーロン・マスクは同社の完全な支配権を要求しており、ちょうどその直前に共同創業者たち一人ひとりにテスラ「モデル3」を贈っていた。CTOのグレッグ・ブロックマンは、マスクとサム・アルトマ
ペンタゴン、Nvidia、Microsoft、AWSと契約を結び、機密ネットワークでAIの導入を進める
以前にGoogle、SpaceX、OpenAIと合意に達した後、米国国防総省は金曜日にNvidia、Microsoft、Amazon Web Services、Reflection AIとも契約を結び、これらの企業のAI技術やモデルを機密ネットワークで「合法的な運用目的」のために活用することを発表しました。同声明では、「これらの契約により、米軍をAIを優先した戦闘力として確立する取り組みが加速され、あらゆる戦闘分野において我々の兵士たちが意思決定上の優位性を維持する能力が強化されるだろう」と述
関連特集おすすめ
コメント (15)
0/500
これ、もう1年も経つのにまだプレビュー版なんだね。音声クローン技術って倫理的にすごくデリケートな問題だから、慎重に進めるのは理解できるけど、市場の期待はずっと先送りされてる感じ。他のAI企業はどんどん類似機能をリリースしてるのに、OpenAIは何を待ってるんだろう?🤔 もしかしたら、悪用防止の仕組みを完璧にしたいのかな。でも、待たされるユーザーとしては少しイライラするかも…
Ça fait un an qu'ils promettent cette technologie et toujours rien ? 😅 Moi qui voulais créer une voix IA de mon chat, je crois que je vais devoir attendre encore longtemps. C'est bizarre cette absence de calendrier, peut-être qu'ils ont des problèmes éthiques à régler ?
これ、去年発表されたまま音沙汰ないんですね🤔 声の合成技術は確かにすごいけど、どんな懸念があって公開をためらっているのか気になります。もしかして悪用されそうで怖いからかな?早く使ってみたいけど、慎重になる気持ちもわかる…
¿Un año y todavía no han soltado esa herramienta de clonación de voz? 🤔 Me pregunto si será por problemas técnicos o por miedo al mal uso. Suena a que tiene mucho potencial, pero también da un poco de miedo pensando en el deepfake.
Why's OpenAI dragging their feet on Voice Engine? A year later and still just a preview? Sounds like they're scared of the ethical mess this could stir up. 😬
OpenAIのボイスエンジン:長く待ち望まれたリリースか?
昨年3月末、OpenAIはAIサービス「ボイスエンジン」の「小規模プレビュー」を発表し、わずか15秒の音声で人の声をクローンできると約束した。1年が経過したが、このツールは依然としてプレビューモードであり、完全なリリースの明確なスケジュールはない。日の目を見るかどうかも未確定だ。
ボイスエンジンの広範な展開の遅れは、悪用の懸念や規制の監視を避ける試みによる可能性がある。OpenAIは過去に、安全性よりも派手な製品を優先し、競合他社に先駆けて市場に急ぐ姿勢で批判されてきた。
OpenAIの広報担当者はTechCrunchに対し、会社は「信頼できるパートナー」の選ばれたグループでボイスエンジンをテストしていると語った。「パートナーが技術をどのように活用しているかから、モデルの有用性と安全性を学んでいる」と広報担当者は説明。「音声療法、言語学習、カスタマーサポート、ビデオゲームのキャラクター、AIアバターなど、その応用範囲は刺激的だ」と述べた。
ボイスエンジン:これまでの歩み
ボイスエンジンは、OpenAIのテキスト音声変換APIやChatGPTのボイスモードを支えるもので、元の話者に驚くほど自然に近い音声を生成する。テキストを音声に変換するが、特定のコンテンツガイドラインに制約される。しかし、展開は当初から遅延と変更されたリリース日程に悩まされてきた。
2024年6月のブログ投稿で、OpenAIはボイスエンジンモデルがさまざまな声、アクセント、話し方を考慮し、与えられたテキストに対して話者が発しそうな音を予測する方法を詳述した。これにより、モデルはテキストから音声を生成するだけでなく、異なる話者がテキストをどのように発声するかを反映した「音声発話」を生成できる。
当初、ボイスエンジン(当時はカスタムボイスと呼ばれていた)は、TechCrunchが見たドラフトブログ投稿によると、2024年3月7日にOpenAIのAPIに追加される予定だった。最初のアクセスは、ソーシャルベネフィットのあるアプリを開発する、または技術の革新的かつ責任ある使用を示す最大100人の「信頼できる開発者」に優先的に提供される計画だった。OpenAIはすでにサービスを商標登録し、「標準」ボイスは100万文字あたり15ドル、「HD品質」ボイスは100万文字あたり30ドルの価格を設定していた。
しかし、発表は土壇場で延期された。数週間後、OpenAIはサインアップオプションなしでボイスエンジンを公開し、2023年後半から協力していた少数の開発者にアクセスを限定した。
「合成音声の責任ある展開と、社会がこれらの新たな能力にどう適応すべきかについて対話を始めたい」とOpenAIは2024年3月末の発表ブログ投稿で述べた。「これらの会話と小規模テストの結果に基づき、この技術を大規模に展開するかどうか、どのように展開するかをより適切に決定する」とした。
長い開発の道のり
ボイスエンジンは2022年から開発が進められ、2023年夏にはOpenAIがその可能性とリスクを世界の政策立案者に披露した。現在、スタートアップのLivoxを含む数社がボイスエンジンにアクセスしており、Livoxは障害者がより自然にコミュニケーションできるようにすることを目指している。しかし、LivoxのCEOカルロス・ペレイラ氏は、ボイスエンジンがインターネット接続を必要とするため、顧客の多くが利用できないとして、製品に統合できていないと述べた。「声の品質と、異なる言語で話す能力は特に障害を持つ顧客にとってユニークだ」とペレイラ氏はTechCrunchにメールで語った。「これまで見た中で最も印象的で使いやすい音声作成ツールだ…OpenAIがオフラインバージョンを早く開発してくれることを願っている」と述べた。
ペレイラ氏は、OpenAIからリリース日やサービス料金に関する情報を受け取っておらず、Livoxはこれまで使用料を支払っていない。
2024年6月の投稿で、OpenAIはボイスエンジンの遅延の一因が米国選挙サイクル中の悪用の可能性であると示唆した。同社は生成された音声の出所を追跡するためのウォーターマーキングなどの安全対策を導入している。開発者は元の話者から「明示的な同意」を得る必要があり、音声がAI生成であることを視聴者に「明確に開示」しなければならない。しかし、OpenAIはこれらのポリシーが大規模にどのように執行されるか詳細を明らかにしておらず、これは大きな課題となる可能性がある。
OpenAIはまた、話者を検証する「音声認証体験」や著名人の声を模倣する音声の作成を防ぐ「禁止リスト」の構築にも言及した。これらは野心的なプロジェクトであり、ミスがあればOpenAIの安全性に関する評判をさらに損なう可能性がある。
効果的なフィルタリングとID検証は、音声クローニング技術を責任を持ってリリースするために不可欠になりつつある。AI音声クローニングは2024年に3番目に急成長した詐欺で、詐欺や銀行のセキュリティチェックの回避を引き起こし、プライバシーや著作権法が追いついていない。悪意ある者が有名人や政治家のディープフェイクを作成し、ソーシャルメディアで急速に拡散させている。
OpenAIは来週ボイスエンジンをリリースするかもしれないし、決してリリースされないかもしれない。同社はサービスを小規模に保つことを検討していると述べている。しかし確かなことは、見た目、安全性、またはその両方の理由で、ボイスエンジンの限定プレビューはOpenAIの歴史上最も長いものの一つとなっていることだ。
OpenAIは、公的基金、ロボット税、週4日勤務制を柱とするAI経済の構想を提示した
各国政府が超知能機械による経済的影響への対応に苦慮する中、OpenAIは「知能の時代」において富と労働がどのように再構築されるべきかを概説した一連の政策提言を発表した。その構想は、公的資産基金や社会安全網の拡充といった伝統的な左派的な仕組みと、根本的に資本主義的で市場主導型の経済枠組みとを融合させたものである。OpenAIの提案は本質的に「要望リスト」に相当し、人工知能が労働と経済を変革する中で、
グレッグ・ブロックマンが、イーロン・マスクがOpenAIを去った経緯を明かす
2017年8月下旬、当時まだ小規模な非営利研究機関だったOpenAIの主要メンバーは、自社の技術を商用化し、汎用人工知能(AGI)の実現に必要な資金を調達するために、営利法人をどのように設立すべきかについて協議した。イーロン・マスクは同社の完全な支配権を要求しており、ちょうどその直前に共同創業者たち一人ひとりにテスラ「モデル3」を贈っていた。CTOのグレッグ・ブロックマンは、マスクとサム・アルトマ
ペンタゴン、Nvidia、Microsoft、AWSと契約を結び、機密ネットワークでAIの導入を進める
以前にGoogle、SpaceX、OpenAIと合意に達した後、米国国防総省は金曜日にNvidia、Microsoft、Amazon Web Services、Reflection AIとも契約を結び、これらの企業のAI技術やモデルを機密ネットワークで「合法的な運用目的」のために活用することを発表しました。同声明では、「これらの契約により、米軍をAIを優先した戦闘力として確立する取り組みが加速され、あらゆる戦闘分野において我々の兵士たちが意思決定上の優位性を維持する能力が強化されるだろう」と述
これ、もう1年も経つのにまだプレビュー版なんだね。音声クローン技術って倫理的にすごくデリケートな問題だから、慎重に進めるのは理解できるけど、市場の期待はずっと先送りされてる感じ。他のAI企業はどんどん類似機能をリリースしてるのに、OpenAIは何を待ってるんだろう?🤔 もしかしたら、悪用防止の仕組みを完璧にしたいのかな。でも、待たされるユーザーとしては少しイライラするかも…
Ça fait un an qu'ils promettent cette technologie et toujours rien ? 😅 Moi qui voulais créer une voix IA de mon chat, je crois que je vais devoir attendre encore longtemps. C'est bizarre cette absence de calendrier, peut-être qu'ils ont des problèmes éthiques à régler ?
これ、去年発表されたまま音沙汰ないんですね🤔 声の合成技術は確かにすごいけど、どんな懸念があって公開をためらっているのか気になります。もしかして悪用されそうで怖いからかな?早く使ってみたいけど、慎重になる気持ちもわかる…
¿Un año y todavía no han soltado esa herramienta de clonación de voz? 🤔 Me pregunto si será por problemas técnicos o por miedo al mal uso. Suena a que tiene mucho potencial, pero también da un poco de miedo pensando en el deepfake.
Why's OpenAI dragging their feet on Voice Engine? A year later and still just a preview? Sounds like they're scared of the ethical mess this could stir up. 😬





家






