オプション
ニュース
Openaiは、転写と音声生成AIモデルをアップグレードします

Openaiは、転写と音声生成AIモデルをアップグレードします

2025年4月10日
146

OpenAIは、APIを通じて転写および音声生成のための新しいAIモデルを展開しており、従来のバージョンに比べて大幅な改善を約束しています。これらのアップデートは、ユーザーのために独立してタスクを実行できる自律システムの構築に焦点を当てたOpenAIのより大きな「エージェント的」ビジョンの一部です。「エージェント」という言葉には議論の余地がありますが、OpenAIの製品責任者であるオリビエ・ゴデマンは、これをビジネスの顧客と対話できるチャットボットと見なしています。

「今後数か月で、ますます多くのエージェントが登場するでしょう」とゴデマンはTechCrunchとのブリーフィングで語りました。「全体的な目標は、顧客や開発者が有用でアクセスしやすく、正確なエージェントを活用できるように支援することです。」

OpenAIの最新のテキスト音声変換モデル「gpt-4o-mini-tts」は、より自然でニュアンスのある音声を生成することを目指すだけでなく、従来のモデルよりも適応性が高いです。開発者は、「狂気の科学者のように話す」や「マインドフルネスの教師のような穏やかな声を使う」といった自然言語コマンドでモデルを指導できます。この制御レベルにより、よりパーソナライズされた音声体験が可能になります。

「トゥルークライム風」の、使い古された声のサンプルはこちらです:

女性の「プロフェッショナル」な声の例はこちらです:

OpenAIの製品チームメンバーであるジェフ・ハリスは、TechCrunchに対し、目的は開発者が音声の「体験」と「コンテキスト」の両方をカスタマイズできるようにすることだと強調しました。「さまざまなシナリオでは、単調な声は望ましくありません」とハリスは説明しました。「たとえば、顧客サポートの場面で、ミスに対して謝罪するような声が必要な場合、その感情を声に注入できます。開発者やユーザーは、コンテンツだけでなく話し方も制御したいと強く望んでいると考えています。」

OpenAIの新しい音声認識モデル「gpt-4o-transcribe」と「gpt-4o-mini-transcribe」では、時代遅れのWhisper転写モデルを置き換える予定です。多様な高品質オーディオデータでトレーニングされたこれらのモデルは、アクセントのある多様な音声や、騒がしい環境でも優れた処理能力を誇ります。さらに、これらのモデルはWhisperが時折単語や文全体を捏造し、転写に人種的コメントや架空の医療治療などの不正確さを加える「幻覚」の問題が少ないです。

「この点で、これらのモデルはWhisperに比べて大幅な改善を示しています」とハリスは述べました。「モデルの正確性は、信頼できる音声体験にとって非常に重要であり、正確性とは、モデルが話された言葉を正しく捉え、話されていない内容を追加しないことを意味します。」

ただし、言語によってパフォーマンスは異なる場合があります。OpenAIの内部ベンチマークによると、2つのモデルのうちより正確な「gpt-4o-transcribe」は、タミル語、テルグ語、マラヤーラム語、カンナダ語などのインド系およびドラビダ系言語で「単語エラー率」が約30%に近づいています。これは、これらの言語では10語中約3語が人間の転写と異なる可能性があることを示唆しています。

OpenAI転写結果

OpenAI転写ベンチマークの結果。画像提供:OpenAI

これまでの慣例とは異なり、OpenAIはこれらの新しい転写モデルを無料で公開しません。従来、Whisperの新バージョンはMITライセンスで商用利用向けにリリースされてきました。ハリスは、「gpt-4o-transcribe」と「gpt-4o-mini-transcribe」はWhisperよりも大幅に大きいため、オープンリリースには適さないと指摘しました。

「これらのモデルは、Whisperのように一般的なラップトップで動作するには大きすぎます」とハリスは付け加えました。「モデルをオープンにリリースする際は、特定のニーズに適した形で慎重に行いたいと考えています。エンドユーザーのデバイスは、オープンソースモデルにとって主要な領域だと見ています。」

2025年3月20日午前11時54分(太平洋時間)に更新され、単語エラー率に関する説明を明確化し、ベンチマーク結果のチャートを最新バージョンに更新しました。

関連記事
非営利団体、AIエージェントを活用してチャリティ募金活動を強化 非営利団体、AIエージェントを活用してチャリティ募金活動を強化 大手テック企業がAIの "エージェント "をビジネスの生産性向上剤として推進する一方で、ある非営利団体はAIが社会的利益に貢献する可能性を実証している。オープン・フィランソロピーが支援する慈善研究グループ、セージ・フューチャーは最近、AIモデルが慈善活動の資金調達にどのように協力できるかを示す革新的な実験を行った。この非営利団体は、OpenAIのGPT-4oとo1、AnthropicのClau
トップAI研究所は、人類はAIシステムを理解する力を失いつつあると警告する トップAI研究所は、人類はAIシステムを理解する力を失いつつあると警告する OpenAI、Google DeepMind、Anthropic、Metaの研究者は、前例のない団結を示し、競争上の相違を脇に置いて、責任あるAI開発について集団で警告を発した。これらの通常ライバル関係にある組織から40人以上の一流の科学者が、AIの意思決定プロセスの透明性を確保するための窓が急速に狭まっていることを強調する画期的な研究論文を共同執筆した。この共同研究は、現代のAIシステムにおける
ChatGPT、ファイルアクセスにGoogle DriveとDropboxの統合を追加 ChatGPT、ファイルアクセスにGoogle DriveとDropboxの統合を追加 ChatGPTが企業向け新機能で生産性を向上OpenAIは、ChatGPTを包括的なビジネス生産性ツールに変える2つの強力な新機能を発表しました:自動会議文書化とシームレスなクラウドストレージ統合です。革命的な録音機能新しく導入された "記録モード "は、自動テープ起こしや分析を可能にします:重要なビジネス会議創造的なブレーンストーミングセッション 個人の思考プロセスこの
コメント (32)
0/200
FrankMartínez
FrankMartínez 2025年8月19日 17:01:39 JST

The new OpenAI models sound like a game-changer for voice tech! Can't wait to see how devs use this to make apps talk smoother than ever. 😎

BenHernández
BenHernández 2025年7月23日 17:50:48 JST

Wow, OpenAI's new transcription and voice models sound like a game-changer! I'm curious how these 'agentic' systems will stack up against real-world tasks. Could they finally nail natural-sounding convos? 🤔

GeorgeTaylor
GeorgeTaylor 2025年4月21日 4:57:07 JST

Os novos modelos de transcrição e geração de voz da OpenAI são um divisor de águas! Estou usando no meu podcast e as melhorias são impressionantes. O único ponto negativo? São um pouco caros, mas se você puder pagar, vale cada centavo! 🎙️💸

GregoryAllen
GregoryAllen 2025年4月17日 13:50:37 JST

OpenAI's new transcription and voice models are a game changer! I've been using them for my podcast and the improvements are night and day. The only downside? They're a bit pricey, but if you can swing it, they're worth every penny! 🎙️💸

StevenAllen
StevenAllen 2025年4月17日 13:38:26 JST

OpenAI의 새로운 음성 인식 및 음성 생성 모델은 정말 혁신적이에요! 제 팟캐스트에서 사용 중인데, 개선이 눈에 띄어요. 단점은 조금 비싸다는 건데, 감당할 수 있다면 그만한 가치가 있어요! 🎙️💸

NicholasClark
NicholasClark 2025年4月16日 14:54:41 JST

OpenAIの新しい音声認識と音声生成モデルは革命的です!ポッドキャストで使っていますが、改善が劇的です。唯一の欠点は少し高価なことですが、払えるならその価値は十分にあります!🎙️💸

トップに戻ります
OR