Openaiは、転写と音声生成AIモデルをアップグレードします
OpenAIは、APIを通じて転写および音声生成のための新しいAIモデルを展開しており、従来のバージョンに比べて大幅な改善を約束しています。これらのアップデートは、ユーザーのために独立してタスクを実行できる自律システムの構築に焦点を当てたOpenAIのより大きな「エージェント的」ビジョンの一部です。「エージェント」という言葉には議論の余地がありますが、OpenAIの製品責任者であるオリビエ・ゴデマンは、これをビジネスの顧客と対話できるチャットボットと見なしています。
「今後数か月で、ますます多くのエージェントが登場するでしょう」とゴデマンはTechCrunchとのブリーフィングで語りました。「全体的な目標は、顧客や開発者が有用でアクセスしやすく、正確なエージェントを活用できるように支援することです。」
OpenAIの最新のテキスト音声変換モデル「gpt-4o-mini-tts」は、より自然でニュアンスのある音声を生成することを目指すだけでなく、従来のモデルよりも適応性が高いです。開発者は、「狂気の科学者のように話す」や「マインドフルネスの教師のような穏やかな声を使う」といった自然言語コマンドでモデルを指導できます。この制御レベルにより、よりパーソナライズされた音声体験が可能になります。
「トゥルークライム風」の、使い古された声のサンプルはこちらです:
女性の「プロフェッショナル」な声の例はこちらです:
OpenAIの製品チームメンバーであるジェフ・ハリスは、TechCrunchに対し、目的は開発者が音声の「体験」と「コンテキスト」の両方をカスタマイズできるようにすることだと強調しました。「さまざまなシナリオでは、単調な声は望ましくありません」とハリスは説明しました。「たとえば、顧客サポートの場面で、ミスに対して謝罪するような声が必要な場合、その感情を声に注入できます。開発者やユーザーは、コンテンツだけでなく話し方も制御したいと強く望んでいると考えています。」
OpenAIの新しい音声認識モデル「gpt-4o-transcribe」と「gpt-4o-mini-transcribe」では、時代遅れのWhisper転写モデルを置き換える予定です。多様な高品質オーディオデータでトレーニングされたこれらのモデルは、アクセントのある多様な音声や、騒がしい環境でも優れた処理能力を誇ります。さらに、これらのモデルはWhisperが時折単語や文全体を捏造し、転写に人種的コメントや架空の医療治療などの不正確さを加える「幻覚」の問題が少ないです。
「この点で、これらのモデルはWhisperに比べて大幅な改善を示しています」とハリスは述べました。「モデルの正確性は、信頼できる音声体験にとって非常に重要であり、正確性とは、モデルが話された言葉を正しく捉え、話されていない内容を追加しないことを意味します。」
ただし、言語によってパフォーマンスは異なる場合があります。OpenAIの内部ベンチマークによると、2つのモデルのうちより正確な「gpt-4o-transcribe」は、タミル語、テルグ語、マラヤーラム語、カンナダ語などのインド系およびドラビダ系言語で「単語エラー率」が約30%に近づいています。これは、これらの言語では10語中約3語が人間の転写と異なる可能性があることを示唆しています。

OpenAI転写ベンチマークの結果。画像提供:OpenAI これまでの慣例とは異なり、OpenAIはこれらの新しい転写モデルを無料で公開しません。従来、Whisperの新バージョンはMITライセンスで商用利用向けにリリースされてきました。ハリスは、「gpt-4o-transcribe」と「gpt-4o-mini-transcribe」はWhisperよりも大幅に大きいため、オープンリリースには適さないと指摘しました。
「これらのモデルは、Whisperのように一般的なラップトップで動作するには大きすぎます」とハリスは付け加えました。「モデルをオープンにリリースする際は、特定のニーズに適した形で慎重に行いたいと考えています。エンドユーザーのデバイスは、オープンソースモデルにとって主要な領域だと見ています。」
2025年3月20日午前11時54分(太平洋時間)に更新され、単語エラー率に関する説明を明確化し、ベンチマーク結果のチャートを最新バージョンに更新しました。
関連記事
サティヤ・ナデラ、新たなOpenAIとの契約を活用する準備ができている
水曜日に、ウォール・ストリートのアナリストがマイクロソフトのCEOであるサティヤ・ナデラ氏に直接尋ねました。改正されたOpenAIとの提携関係が同社の財務状況にどのような影響を与えるのかと。ナデラ氏はこの新しい協定を「皆にとっての勝利」と表現しました。「OpenAIとの提携については満足しています。私は常にどんな提携でもウィンウィンの関係を築くことに重点を置いています。そうすることで、長期的に良いパートナーシップを維持できるからです。」彼は、マイクロソフトが依然としてOpenAIの知的財産、
OpenAIは、公的基金、ロボット税、週4日勤務制を柱とするAI経済の構想を提示した
各国政府が超知能機械による経済的影響への対応に苦慮する中、OpenAIは「知能の時代」において富と労働がどのように再構築されるべきかを概説した一連の政策提言を発表した。その構想は、公的資産基金や社会安全網の拡充といった伝統的な左派的な仕組みと、根本的に資本主義的で市場主導型の経済枠組みとを融合させたものである。OpenAIの提案は本質的に「要望リスト」に相当し、人工知能が労働と経済を変革する中で、
グレッグ・ブロックマンが、イーロン・マスクがOpenAIを去った経緯を明かす
2017年8月下旬、当時まだ小規模な非営利研究機関だったOpenAIの主要メンバーは、自社の技術を商用化し、汎用人工知能(AGI)の実現に必要な資金を調達するために、営利法人をどのように設立すべきかについて協議した。イーロン・マスクは同社の完全な支配権を要求しており、ちょうどその直前に共同創業者たち一人ひとりにテスラ「モデル3」を贈っていた。CTOのグレッグ・ブロックマンは、マスクとサム・アルトマ
関連特集おすすめ
コメント (33)
0/500
The new OpenAI models sound like a game-changer for voice tech! Can't wait to see how devs use this to make apps talk smoother than ever. 😎
Wow, OpenAI's new transcription and voice models sound like a game-changer! I'm curious how these 'agentic' systems will stack up against real-world tasks. Could they finally nail natural-sounding convos? 🤔
Os novos modelos de transcrição e geração de voz da OpenAI são um divisor de águas! Estou usando no meu podcast e as melhorias são impressionantes. O único ponto negativo? São um pouco caros, mas se você puder pagar, vale cada centavo! 🎙️💸
OpenAI's new transcription and voice models are a game changer! I've been using them for my podcast and the improvements are night and day. The only downside? They're a bit pricey, but if you can swing it, they're worth every penny! 🎙️💸
OpenAIは、APIを通じて転写および音声生成のための新しいAIモデルを展開しており、従来のバージョンに比べて大幅な改善を約束しています。これらのアップデートは、ユーザーのために独立してタスクを実行できる自律システムの構築に焦点を当てたOpenAIのより大きな「エージェント的」ビジョンの一部です。「エージェント」という言葉には議論の余地がありますが、OpenAIの製品責任者であるオリビエ・ゴデマンは、これをビジネスの顧客と対話できるチャットボットと見なしています。
「今後数か月で、ますます多くのエージェントが登場するでしょう」とゴデマンはTechCrunchとのブリーフィングで語りました。「全体的な目標は、顧客や開発者が有用でアクセスしやすく、正確なエージェントを活用できるように支援することです。」
OpenAIの最新のテキスト音声変換モデル「gpt-4o-mini-tts」は、より自然でニュアンスのある音声を生成することを目指すだけでなく、従来のモデルよりも適応性が高いです。開発者は、「狂気の科学者のように話す」や「マインドフルネスの教師のような穏やかな声を使う」といった自然言語コマンドでモデルを指導できます。この制御レベルにより、よりパーソナライズされた音声体験が可能になります。
「トゥルークライム風」の、使い古された声のサンプルはこちらです:
女性の「プロフェッショナル」な声の例はこちらです:
OpenAIの製品チームメンバーであるジェフ・ハリスは、TechCrunchに対し、目的は開発者が音声の「体験」と「コンテキスト」の両方をカスタマイズできるようにすることだと強調しました。「さまざまなシナリオでは、単調な声は望ましくありません」とハリスは説明しました。「たとえば、顧客サポートの場面で、ミスに対して謝罪するような声が必要な場合、その感情を声に注入できます。開発者やユーザーは、コンテンツだけでなく話し方も制御したいと強く望んでいると考えています。」
OpenAIの新しい音声認識モデル「gpt-4o-transcribe」と「gpt-4o-mini-transcribe」では、時代遅れのWhisper転写モデルを置き換える予定です。多様な高品質オーディオデータでトレーニングされたこれらのモデルは、アクセントのある多様な音声や、騒がしい環境でも優れた処理能力を誇ります。さらに、これらのモデルはWhisperが時折単語や文全体を捏造し、転写に人種的コメントや架空の医療治療などの不正確さを加える「幻覚」の問題が少ないです。
「この点で、これらのモデルはWhisperに比べて大幅な改善を示しています」とハリスは述べました。「モデルの正確性は、信頼できる音声体験にとって非常に重要であり、正確性とは、モデルが話された言葉を正しく捉え、話されていない内容を追加しないことを意味します。」
ただし、言語によってパフォーマンスは異なる場合があります。OpenAIの内部ベンチマークによると、2つのモデルのうちより正確な「gpt-4o-transcribe」は、タミル語、テルグ語、マラヤーラム語、カンナダ語などのインド系およびドラビダ系言語で「単語エラー率」が約30%に近づいています。これは、これらの言語では10語中約3語が人間の転写と異なる可能性があることを示唆しています。

これまでの慣例とは異なり、OpenAIはこれらの新しい転写モデルを無料で公開しません。従来、Whisperの新バージョンはMITライセンスで商用利用向けにリリースされてきました。ハリスは、「gpt-4o-transcribe」と「gpt-4o-mini-transcribe」はWhisperよりも大幅に大きいため、オープンリリースには適さないと指摘しました。
「これらのモデルは、Whisperのように一般的なラップトップで動作するには大きすぎます」とハリスは付け加えました。「モデルをオープンにリリースする際は、特定のニーズに適した形で慎重に行いたいと考えています。エンドユーザーのデバイスは、オープンソースモデルにとって主要な領域だと見ています。」
2025年3月20日午前11時54分(太平洋時間)に更新され、単語エラー率に関する説明を明確化し、ベンチマーク結果のチャートを最新バージョンに更新しました。
サティヤ・ナデラ、新たなOpenAIとの契約を活用する準備ができている
水曜日に、ウォール・ストリートのアナリストがマイクロソフトのCEOであるサティヤ・ナデラ氏に直接尋ねました。改正されたOpenAIとの提携関係が同社の財務状況にどのような影響を与えるのかと。ナデラ氏はこの新しい協定を「皆にとっての勝利」と表現しました。「OpenAIとの提携については満足しています。私は常にどんな提携でもウィンウィンの関係を築くことに重点を置いています。そうすることで、長期的に良いパートナーシップを維持できるからです。」彼は、マイクロソフトが依然としてOpenAIの知的財産、
OpenAIは、公的基金、ロボット税、週4日勤務制を柱とするAI経済の構想を提示した
各国政府が超知能機械による経済的影響への対応に苦慮する中、OpenAIは「知能の時代」において富と労働がどのように再構築されるべきかを概説した一連の政策提言を発表した。その構想は、公的資産基金や社会安全網の拡充といった伝統的な左派的な仕組みと、根本的に資本主義的で市場主導型の経済枠組みとを融合させたものである。OpenAIの提案は本質的に「要望リスト」に相当し、人工知能が労働と経済を変革する中で、
グレッグ・ブロックマンが、イーロン・マスクがOpenAIを去った経緯を明かす
2017年8月下旬、当時まだ小規模な非営利研究機関だったOpenAIの主要メンバーは、自社の技術を商用化し、汎用人工知能(AGI)の実現に必要な資金を調達するために、営利法人をどのように設立すべきかについて協議した。イーロン・マスクは同社の完全な支配権を要求しており、ちょうどその直前に共同創業者たち一人ひとりにテスラ「モデル3」を贈っていた。CTOのグレッグ・ブロックマンは、マスクとサム・アルトマ
The new OpenAI models sound like a game-changer for voice tech! Can't wait to see how devs use this to make apps talk smoother than ever. 😎
Wow, OpenAI's new transcription and voice models sound like a game-changer! I'm curious how these 'agentic' systems will stack up against real-world tasks. Could they finally nail natural-sounding convos? 🤔
Os novos modelos de transcrição e geração de voz da OpenAI são um divisor de águas! Estou usando no meu podcast e as melhorias são impressionantes. O único ponto negativo? São um pouco caros, mas se você puder pagar, vale cada centavo! 🎙️💸
OpenAI's new transcription and voice models are a game changer! I've been using them for my podcast and the improvements are night and day. The only downside? They're a bit pricey, but if you can swing it, they're worth every penny! 🎙️💸





家






