1年後に音声クローニングツールをまだリリースしていないOpenai

家

ニュース

2025年4月21日

AnthonyHernández

# openai

OpenAIのボイスエンジン：長く待ち望まれたリリースか？

昨年3月末、OpenAIはAIサービス「ボイスエンジン」の「小規模プレビュー」を発表し、わずか15秒の音声で人の声をクローンできると約束した。1年が経過したが、このツールは依然としてプレビューモードであり、完全なリリースの明確なスケジュールはない。日の目を見るかどうかも未確定だ。

ボイスエンジンの広範な展開の遅れは、悪用の懸念や規制の監視を避ける試みによる可能性がある。OpenAIは過去に、安全性よりも派手な製品を優先し、競合他社に先駆けて市場に急ぐ姿勢で批判されてきた。

OpenAIの広報担当者はTechCrunchに対し、会社は「信頼できるパートナー」の選ばれたグループでボイスエンジンをテストしていると語った。「パートナーが技術をどのように活用しているかから、モデルの有用性と安全性を学んでいる」と広報担当者は説明。「音声療法、言語学習、カスタマーサポート、ビデオゲームのキャラクター、AIアバターなど、その応用範囲は刺激的だ」と述べた。

ボイスエンジン：これまでの歩み

ボイスエンジンは、OpenAIのテキスト音声変換APIやChatGPTのボイスモードを支えるもので、元の話者に驚くほど自然に近い音声を生成する。テキストを音声に変換するが、特定のコンテンツガイドラインに制約される。しかし、展開は当初から遅延と変更されたリリース日程に悩まされてきた。

2024年6月のブログ投稿で、OpenAIはボイスエンジンモデルがさまざまな声、アクセント、話し方を考慮し、与えられたテキストに対して話者が発しそうな音を予測する方法を詳述した。これにより、モデルはテキストから音声を生成するだけでなく、異なる話者がテキストをどのように発声するかを反映した「音声発話」を生成できる。

当初、ボイスエンジン（当時はカスタムボイスと呼ばれていた）は、TechCrunchが見たドラフトブログ投稿によると、2024年3月7日にOpenAIのAPIに追加される予定だった。最初のアクセスは、ソーシャルベネフィットのあるアプリを開発する、または技術の革新的かつ責任ある使用を示す最大100人の「信頼できる開発者」に優先的に提供される計画だった。OpenAIはすでにサービスを商標登録し、「標準」ボイスは100万文字あたり15ドル、「HD品質」ボイスは100万文字あたり30ドルの価格を設定していた。

しかし、発表は土壇場で延期された。数週間後、OpenAIはサインアップオプションなしでボイスエンジンを公開し、2023年後半から協力していた少数の開発者にアクセスを限定した。

「合成音声の責任ある展開と、社会がこれらの新たな能力にどう適応すべきかについて対話を始めたい」とOpenAIは2024年3月末の発表ブログ投稿で述べた。「これらの会話と小規模テストの結果に基づき、この技術を大規模に展開するかどうか、どのように展開するかをより適切に決定する」とした。

長い開発の道のり

ボイスエンジンは2022年から開発が進められ、2023年夏にはOpenAIがその可能性とリスクを世界の政策立案者に披露した。現在、スタートアップのLivoxを含む数社がボイスエンジンにアクセスしており、Livoxは障害者がより自然にコミュニケーションできるようにすることを目指している。しかし、LivoxのCEOカルロス・ペレイラ氏は、ボイスエンジンがインターネット接続を必要とするため、顧客の多くが利用できないとして、製品に統合できていないと述べた。「声の品質と、異なる言語で話す能力は特に障害を持つ顧客にとってユニークだ」とペレイラ氏はTechCrunchにメールで語った。「これまで見た中で最も印象的で使いやすい音声作成ツールだ…OpenAIがオフラインバージョンを早く開発してくれることを願っている」と述べた。

ペレイラ氏は、OpenAIからリリース日やサービス料金に関する情報を受け取っておらず、Livoxはこれまで使用料を支払っていない。

2024年6月の投稿で、OpenAIはボイスエンジンの遅延の一因が米国選挙サイクル中の悪用の可能性であると示唆した。同社は生成された音声の出所を追跡するためのウォーターマーキングなどの安全対策を導入している。開発者は元の話者から「明示的な同意」を得る必要があり、音声がAI生成であることを視聴者に「明確に開示」しなければならない。しかし、OpenAIはこれらのポリシーが大規模にどのように執行されるか詳細を明らかにしておらず、これは大きな課題となる可能性がある。

OpenAIはまた、話者を検証する「音声認証体験」や著名人の声を模倣する音声の作成を防ぐ「禁止リスト」の構築にも言及した。これらは野心的なプロジェクトであり、ミスがあればOpenAIの安全性に関する評判をさらに損なう可能性がある。

効果的なフィルタリングとID検証は、音声クローニング技術を責任を持ってリリースするために不可欠になりつつある。AI音声クローニングは2024年に3番目に急成長した詐欺で、詐欺や銀行のセキュリティチェックの回避を引き起こし、プライバシーや著作権法が追いついていない。悪意ある者が有名人や政治家のディープフェイクを作成し、ソーシャルメディアで急速に拡散させている。

OpenAIは来週ボイスエンジンをリリースするかもしれないし、決してリリースされないかもしれない。同社はサービスを小規模に保つことを検討していると述べている。しかし確かなことは、見た目、安全性、またはその両方の理由で、ボイスエンジンの限定プレビューはOpenAIの歴史上最も長いものの一つとなっていることだ。

エヌビディアのAIハイプが現実のものとなる。 VB Transform 2025で勃発したAIチップ戦争VB Transform 2025の激しいパネルディスカッションでは、戦線が引かれ、台頭する挑戦者たちがNvidiaの支配的な市場ポジションに直接狙いを定めた。中心的な質問は、明白な矛盾を露呈した：AIによる推論は、70％という巨大な粗利率を実現しながら、同時にコモディティ化した「工場」と言えるのか？挑戦者が語るGroqのジョナサン

OpenAIがChatGPT Proをo3にアップグレード。今週は、マイクロソフト、グーグル、Anthropicを含むハイテク大手から重要なAIの開発が目撃された。OpenAIは、コードネーム "io "と呼ばれる野心的なハードウェア構想のために、注目されたジョニー・アイブのデザイン会社を65億ドルで買収したことにとどまらず、独自の画期的なアップデートで発表の慌ただしさを締めくくった。同社は、ChatGPT内のOperator自律ウェブ・ナビゲーション・シ

非営利団体、AIエージェントを活用してチャリティ募金活動を強化大手テック企業がAIの "エージェント "をビジネスの生産性向上剤として推進する一方で、ある非営利団体はAIが社会的利益に貢献する可能性を実証している。オープン・フィランソロピーが支援する慈善研究グループ、セージ・フューチャーは最近、AIモデルが慈善活動の資金調達にどのように協力できるかを示す革新的な実験を行った。この非営利団体は、OpenAIのGPT-4oとo1、AnthropicのClau

コメント (11)

0/200

提出する

FredLewis

2025年8月3日 0:07:14 JST

Why's OpenAI dragging their feet on Voice Engine? A year later and still just a preview? Sounds like they're scared of the ethical mess this could stir up. 😬