1年後に音声クローニングツールをまだリリースしていないOpenai
OpenAIのボイスエンジン:長く待ち望まれたリリースか?
昨年3月末、OpenAIはAIサービス「ボイスエンジン」の「小規模プレビュー」を発表し、わずか15秒の音声で人の声をクローンできると約束した。1年が経過したが、このツールは依然としてプレビューモードであり、完全なリリースの明確なスケジュールはない。日の目を見るかどうかも未確定だ。
ボイスエンジンの広範な展開の遅れは、悪用の懸念や規制の監視を避ける試みによる可能性がある。OpenAIは過去に、安全性よりも派手な製品を優先し、競合他社に先駆けて市場に急ぐ姿勢で批判されてきた。
OpenAIの広報担当者はTechCrunchに対し、会社は「信頼できるパートナー」の選ばれたグループでボイスエンジンをテストしていると語った。「パートナーが技術をどのように活用しているかから、モデルの有用性と安全性を学んでいる」と広報担当者は説明。「音声療法、言語学習、カスタマーサポート、ビデオゲームのキャラクター、AIアバターなど、その応用範囲は刺激的だ」と述べた。
ボイスエンジン:これまでの歩み
ボイスエンジンは、OpenAIのテキスト音声変換APIやChatGPTのボイスモードを支えるもので、元の話者に驚くほど自然に近い音声を生成する。テキストを音声に変換するが、特定のコンテンツガイドラインに制約される。しかし、展開は当初から遅延と変更されたリリース日程に悩まされてきた。
2024年6月のブログ投稿で、OpenAIはボイスエンジンモデルがさまざまな声、アクセント、話し方を考慮し、与えられたテキストに対して話者が発しそうな音を予測する方法を詳述した。これにより、モデルはテキストから音声を生成するだけでなく、異なる話者がテキストをどのように発声するかを反映した「音声発話」を生成できる。
当初、ボイスエンジン(当時はカスタムボイスと呼ばれていた)は、TechCrunchが見たドラフトブログ投稿によると、2024年3月7日にOpenAIのAPIに追加される予定だった。最初のアクセスは、ソーシャルベネフィットのあるアプリを開発する、または技術の革新的かつ責任ある使用を示す最大100人の「信頼できる開発者」に優先的に提供される計画だった。OpenAIはすでにサービスを商標登録し、「標準」ボイスは100万文字あたり15ドル、「HD品質」ボイスは100万文字あたり30ドルの価格を設定していた。
しかし、発表は土壇場で延期された。数週間後、OpenAIはサインアップオプションなしでボイスエンジンを公開し、2023年後半から協力していた少数の開発者にアクセスを限定した。
「合成音声の責任ある展開と、社会がこれらの新たな能力にどう適応すべきかについて対話を始めたい」とOpenAIは2024年3月末の発表ブログ投稿で述べた。「これらの会話と小規模テストの結果に基づき、この技術を大規模に展開するかどうか、どのように展開するかをより適切に決定する」とした。
長い開発の道のり
ボイスエンジンは2022年から開発が進められ、2023年夏にはOpenAIがその可能性とリスクを世界の政策立案者に披露した。現在、スタートアップのLivoxを含む数社がボイスエンジンにアクセスしており、Livoxは障害者がより自然にコミュニケーションできるようにすることを目指している。しかし、LivoxのCEOカルロス・ペレイラ氏は、ボイスエンジンがインターネット接続を必要とするため、顧客の多くが利用できないとして、製品に統合できていないと述べた。「声の品質と、異なる言語で話す能力は特に障害を持つ顧客にとってユニークだ」とペレイラ氏はTechCrunchにメールで語った。「これまで見た中で最も印象的で使いやすい音声作成ツールだ…OpenAIがオフラインバージョンを早く開発してくれることを願っている」と述べた。
ペレイラ氏は、OpenAIからリリース日やサービス料金に関する情報を受け取っておらず、Livoxはこれまで使用料を支払っていない。
2024年6月の投稿で、OpenAIはボイスエンジンの遅延の一因が米国選挙サイクル中の悪用の可能性であると示唆した。同社は生成された音声の出所を追跡するためのウォーターマーキングなどの安全対策を導入している。開発者は元の話者から「明示的な同意」を得る必要があり、音声がAI生成であることを視聴者に「明確に開示」しなければならない。しかし、OpenAIはこれらのポリシーが大規模にどのように執行されるか詳細を明らかにしておらず、これは大きな課題となる可能性がある。
OpenAIはまた、話者を検証する「音声認証体験」や著名人の声を模倣する音声の作成を防ぐ「禁止リスト」の構築にも言及した。これらは野心的なプロジェクトであり、ミスがあればOpenAIの安全性に関する評判をさらに損なう可能性がある。
効果的なフィルタリングとID検証は、音声クローニング技術を責任を持ってリリースするために不可欠になりつつある。AI音声クローニングは2024年に3番目に急成長した詐欺で、詐欺や銀行のセキュリティチェックの回避を引き起こし、プライバシーや著作権法が追いついていない。悪意ある者が有名人や政治家のディープフェイクを作成し、ソーシャルメディアで急速に拡散させている。
OpenAIは来週ボイスエンジンをリリースするかもしれないし、決してリリースされないかもしれない。同社はサービスを小規模に保つことを検討していると述べている。しかし確かなことは、見た目、安全性、またはその両方の理由で、ボイスエンジンの限定プレビューはOpenAIの歴史上最も長いものの一つとなっていることだ。
関連記事
Oracleの40億ドルNvidiaチップ投資がテキサスAIデータセンターを強化
Oracleは、Financial Timesが報じたところによると、OpenAIが開発するテキサスの主要な新データセンターを動かすために、約40億ドルのNvidiaチップに投資する予定です。この取引は、これまでで最大規模のチップ取得の一つであり、AIコンピューティングリソースに対する急増する需要を強調しています。テキサス州アビリーンに位置するこの施設は、米国初の「Stargate」データセンター
ソフトバンクが日本でAIデータセンターのために676百万ドルのシャープ工場を取得
ソフトバンクは、単独およびOpenAIとのパートナーシップを通じて、日本に主要なAIハブを設立するという目標を進めています。この技術大手は金曜日に、676百万ドルを投じてシャープの元LCDパネル工場を取得し、それをAIデータセンターに変換することを確認しました。ソフトバンクとシャープの取引には、大阪の堺工場の土地と建物が含まれており、1000億円(676百万ドル)で購入されました。この買収は、生成
AdobeとFigmaがOpenAIの高度な画像生成モデルを統合
OpenAIのChatGPTにおける強化された画像生成機能は、スタジオジブリ風のビジュアルやユニークなデザインを生み出す能力によりユーザー急増を牽引し、他のプラットフォームにも拡大しています。同社はブログ投稿で、この機能を支える「ネイティブにマルチモーダルなモデル」がAPIを通じて「gpt-image-1」として利用可能になると発表し、主要企業がすでに採用しています。「このモデルの柔軟性により、多
コメント (11)
0/200
FredLewis
2025年8月3日 0:07:14 JST
Why's OpenAI dragging their feet on Voice Engine? A year later and still just a preview? Sounds like they're scared of the ethical mess this could stir up. 😬
0
SamuelRoberts
2025年4月23日 10:46:04 JST
Um ano depois e a ferramenta de clonagem de voz do OpenAI ainda está em fase de teste. É frustrante, mas se lançarem, será algo incrível.
0
WillMitchell
2025年4月22日 15:48:14 JST
Lleva un año y todavía no han lanzado la herramienta de clonación de voz de OpenAI. Es una lástima, pero si llega a salir, será impresionante.
0
JamesWilliams
2025年4月22日 11:55:40 JST
A year later and OpenAI's voice cloning tool is still in preview. It’s a bummer, but the potential is huge if they ever release it.
0
OpenAIのボイスエンジン:長く待ち望まれたリリースか?
昨年3月末、OpenAIはAIサービス「ボイスエンジン」の「小規模プレビュー」を発表し、わずか15秒の音声で人の声をクローンできると約束した。1年が経過したが、このツールは依然としてプレビューモードであり、完全なリリースの明確なスケジュールはない。日の目を見るかどうかも未確定だ。
ボイスエンジンの広範な展開の遅れは、悪用の懸念や規制の監視を避ける試みによる可能性がある。OpenAIは過去に、安全性よりも派手な製品を優先し、競合他社に先駆けて市場に急ぐ姿勢で批判されてきた。
OpenAIの広報担当者はTechCrunchに対し、会社は「信頼できるパートナー」の選ばれたグループでボイスエンジンをテストしていると語った。「パートナーが技術をどのように活用しているかから、モデルの有用性と安全性を学んでいる」と広報担当者は説明。「音声療法、言語学習、カスタマーサポート、ビデオゲームのキャラクター、AIアバターなど、その応用範囲は刺激的だ」と述べた。
ボイスエンジン:これまでの歩み
ボイスエンジンは、OpenAIのテキスト音声変換APIやChatGPTのボイスモードを支えるもので、元の話者に驚くほど自然に近い音声を生成する。テキストを音声に変換するが、特定のコンテンツガイドラインに制約される。しかし、展開は当初から遅延と変更されたリリース日程に悩まされてきた。
2024年6月のブログ投稿で、OpenAIはボイスエンジンモデルがさまざまな声、アクセント、話し方を考慮し、与えられたテキストに対して話者が発しそうな音を予測する方法を詳述した。これにより、モデルはテキストから音声を生成するだけでなく、異なる話者がテキストをどのように発声するかを反映した「音声発話」を生成できる。
当初、ボイスエンジン(当時はカスタムボイスと呼ばれていた)は、TechCrunchが見たドラフトブログ投稿によると、2024年3月7日にOpenAIのAPIに追加される予定だった。最初のアクセスは、ソーシャルベネフィットのあるアプリを開発する、または技術の革新的かつ責任ある使用を示す最大100人の「信頼できる開発者」に優先的に提供される計画だった。OpenAIはすでにサービスを商標登録し、「標準」ボイスは100万文字あたり15ドル、「HD品質」ボイスは100万文字あたり30ドルの価格を設定していた。
しかし、発表は土壇場で延期された。数週間後、OpenAIはサインアップオプションなしでボイスエンジンを公開し、2023年後半から協力していた少数の開発者にアクセスを限定した。
「合成音声の責任ある展開と、社会がこれらの新たな能力にどう適応すべきかについて対話を始めたい」とOpenAIは2024年3月末の発表ブログ投稿で述べた。「これらの会話と小規模テストの結果に基づき、この技術を大規模に展開するかどうか、どのように展開するかをより適切に決定する」とした。
長い開発の道のり
ボイスエンジンは2022年から開発が進められ、2023年夏にはOpenAIがその可能性とリスクを世界の政策立案者に披露した。現在、スタートアップのLivoxを含む数社がボイスエンジンにアクセスしており、Livoxは障害者がより自然にコミュニケーションできるようにすることを目指している。しかし、LivoxのCEOカルロス・ペレイラ氏は、ボイスエンジンがインターネット接続を必要とするため、顧客の多くが利用できないとして、製品に統合できていないと述べた。「声の品質と、異なる言語で話す能力は特に障害を持つ顧客にとってユニークだ」とペレイラ氏はTechCrunchにメールで語った。「これまで見た中で最も印象的で使いやすい音声作成ツールだ…OpenAIがオフラインバージョンを早く開発してくれることを願っている」と述べた。
ペレイラ氏は、OpenAIからリリース日やサービス料金に関する情報を受け取っておらず、Livoxはこれまで使用料を支払っていない。
2024年6月の投稿で、OpenAIはボイスエンジンの遅延の一因が米国選挙サイクル中の悪用の可能性であると示唆した。同社は生成された音声の出所を追跡するためのウォーターマーキングなどの安全対策を導入している。開発者は元の話者から「明示的な同意」を得る必要があり、音声がAI生成であることを視聴者に「明確に開示」しなければならない。しかし、OpenAIはこれらのポリシーが大規模にどのように執行されるか詳細を明らかにしておらず、これは大きな課題となる可能性がある。
OpenAIはまた、話者を検証する「音声認証体験」や著名人の声を模倣する音声の作成を防ぐ「禁止リスト」の構築にも言及した。これらは野心的なプロジェクトであり、ミスがあればOpenAIの安全性に関する評判をさらに損なう可能性がある。
効果的なフィルタリングとID検証は、音声クローニング技術を責任を持ってリリースするために不可欠になりつつある。AI音声クローニングは2024年に3番目に急成長した詐欺で、詐欺や銀行のセキュリティチェックの回避を引き起こし、プライバシーや著作権法が追いついていない。悪意ある者が有名人や政治家のディープフェイクを作成し、ソーシャルメディアで急速に拡散させている。
OpenAIは来週ボイスエンジンをリリースするかもしれないし、決してリリースされないかもしれない。同社はサービスを小規模に保つことを検討していると述べている。しかし確かなことは、見た目、安全性、またはその両方の理由で、ボイスエンジンの限定プレビューはOpenAIの歴史上最も長いものの一つとなっていることだ。


Why's OpenAI dragging their feet on Voice Engine? A year later and still just a preview? Sounds like they're scared of the ethical mess this could stir up. 😬




Um ano depois e a ferramenta de clonagem de voz do OpenAI ainda está em fase de teste. É frustrante, mas se lançarem, será algo incrível.




Lleva un año y todavía no han lanzado la herramienta de clonación de voz de OpenAI. Es una lástima, pero si llega a salir, será impresionante.




A year later and OpenAI's voice cloning tool is still in preview. It’s a bummer, but the potential is huge if they ever release it.












