Openaiは、転写と音声生成AIモデルをアップグレードします
OpenAIは、APIを通じて転写および音声生成のための新しいAIモデルを展開しており、従来のバージョンに比べて大幅な改善を約束しています。これらのアップデートは、ユーザーのために独立してタスクを実行できる自律システムの構築に焦点を当てたOpenAIのより大きな「エージェント的」ビジョンの一部です。「エージェント」という言葉には議論の余地がありますが、OpenAIの製品責任者であるオリビエ・ゴデマンは、これをビジネスの顧客と対話できるチャットボットと見なしています。
「今後数か月で、ますます多くのエージェントが登場するでしょう」とゴデマンはTechCrunchとのブリーフィングで語りました。「全体的な目標は、顧客や開発者が有用でアクセスしやすく、正確なエージェントを活用できるように支援することです。」
OpenAIの最新のテキスト音声変換モデル「gpt-4o-mini-tts」は、より自然でニュアンスのある音声を生成することを目指すだけでなく、従来のモデルよりも適応性が高いです。開発者は、「狂気の科学者のように話す」や「マインドフルネスの教師のような穏やかな声を使う」といった自然言語コマンドでモデルを指導できます。この制御レベルにより、よりパーソナライズされた音声体験が可能になります。
「トゥルークライム風」の、使い古された声のサンプルはこちらです:
女性の「プロフェッショナル」な声の例はこちらです:
OpenAIの製品チームメンバーであるジェフ・ハリスは、TechCrunchに対し、目的は開発者が音声の「体験」と「コンテキスト」の両方をカスタマイズできるようにすることだと強調しました。「さまざまなシナリオでは、単調な声は望ましくありません」とハリスは説明しました。「たとえば、顧客サポートの場面で、ミスに対して謝罪するような声が必要な場合、その感情を声に注入できます。開発者やユーザーは、コンテンツだけでなく話し方も制御したいと強く望んでいると考えています。」
OpenAIの新しい音声認識モデル「gpt-4o-transcribe」と「gpt-4o-mini-transcribe」では、時代遅れのWhisper転写モデルを置き換える予定です。多様な高品質オーディオデータでトレーニングされたこれらのモデルは、アクセントのある多様な音声や、騒がしい環境でも優れた処理能力を誇ります。さらに、これらのモデルはWhisperが時折単語や文全体を捏造し、転写に人種的コメントや架空の医療治療などの不正確さを加える「幻覚」の問題が少ないです。
「この点で、これらのモデルはWhisperに比べて大幅な改善を示しています」とハリスは述べました。「モデルの正確性は、信頼できる音声体験にとって非常に重要であり、正確性とは、モデルが話された言葉を正しく捉え、話されていない内容を追加しないことを意味します。」
ただし、言語によってパフォーマンスは異なる場合があります。OpenAIの内部ベンチマークによると、2つのモデルのうちより正確な「gpt-4o-transcribe」は、タミル語、テルグ語、マラヤーラム語、カンナダ語などのインド系およびドラビダ系言語で「単語エラー率」が約30%に近づいています。これは、これらの言語では10語中約3語が人間の転写と異なる可能性があることを示唆しています。

OpenAI転写ベンチマークの結果。画像提供:OpenAI これまでの慣例とは異なり、OpenAIはこれらの新しい転写モデルを無料で公開しません。従来、Whisperの新バージョンはMITライセンスで商用利用向けにリリースされてきました。ハリスは、「gpt-4o-transcribe」と「gpt-4o-mini-transcribe」はWhisperよりも大幅に大きいため、オープンリリースには適さないと指摘しました。
「これらのモデルは、Whisperのように一般的なラップトップで動作するには大きすぎます」とハリスは付け加えました。「モデルをオープンにリリースする際は、特定のニーズに適した形で慎重に行いたいと考えています。エンドユーザーのデバイスは、オープンソースモデルにとって主要な領域だと見ています。」
2025年3月20日午前11時54分(太平洋時間)に更新され、単語エラー率に関する説明を明確化し、ベンチマーク結果のチャートを最新バージョンに更新しました。
関連記事
元OpenAIエンジニアが企業文化と急速な成長について語る
3週間前、OpenAIの主要製品に貢献したエンジニア、Calvin French-Owenが退社。彼は最近、OpenAIでの1年間を詳細に綴った魅力的なブログを公開し、CursorやAnthropicのClaude Codeに匹敵するコーディングエージェントCodexの開発に注力したことを明かした。French-Owenは、退社の理由が内部の対立ではなく、スタートアップ生活への回帰願望だったと説明
GoogleがOpenAIと競合するエンタープライズ市場向けに生産準備が整ったGemini 2.5 AIモデルを公開
Googleは月曜日、AI戦略を強化し、エンタープライズ向けに高度なGemini 2.5モデルを発表し、価格と性能で競争力のあるコスト効率の高いバリアントを導入しました。Alphabet傘下の同社は、主力AIモデルであるGemini 2.5 ProとGemini 2.5 Flashをテスト段階から完全な利用可能状態に移行し、重要なビジネスアプリケーションへの準備が整っていることを示しました。さらに
MetaがAI人材に高額報酬を提供、1億ドルのサインオンボーナスは否定
Metaは新しいスーパーインテリジェンスラボにAI研究者を引き付けるため、数百万ドル規模の報酬パッケージを提供しています。しかし、採用された研究者や漏洩した内部会議の発言によると、1億ドルの「サインオンボーナス」という主張は本当ではありません。The Vergeが木曜日に報じた漏洩した全社ミーティングでは、Metaの幹部がOpenAIのCEOサム・アルトマンが主張した、Metaがトップ研究者に提供
コメント (31)
0/200
BenHernández
2025年7月23日 17:50:48 JST
Wow, OpenAI's new transcription and voice models sound like a game-changer! I'm curious how these 'agentic' systems will stack up against real-world tasks. Could they finally nail natural-sounding convos? 🤔
0
GeorgeTaylor
2025年4月21日 4:57:07 JST
Os novos modelos de transcrição e geração de voz da OpenAI são um divisor de águas! Estou usando no meu podcast e as melhorias são impressionantes. O único ponto negativo? São um pouco caros, mas se você puder pagar, vale cada centavo! 🎙️💸
0
GregoryAllen
2025年4月17日 13:50:37 JST
OpenAI's new transcription and voice models are a game changer! I've been using them for my podcast and the improvements are night and day. The only downside? They're a bit pricey, but if you can swing it, they're worth every penny! 🎙️💸
0
StevenAllen
2025年4月17日 13:38:26 JST
OpenAI의 새로운 음성 인식 및 음성 생성 모델은 정말 혁신적이에요! 제 팟캐스트에서 사용 중인데, 개선이 눈에 띄어요. 단점은 조금 비싸다는 건데, 감당할 수 있다면 그만한 가치가 있어요! 🎙️💸
0
NicholasClark
2025年4月16日 14:54:41 JST
OpenAIの新しい音声認識と音声生成モデルは革命的です!ポッドキャストで使っていますが、改善が劇的です。唯一の欠点は少し高価なことですが、払えるならその価値は十分にあります!🎙️💸
0
SamuelRoberts
2025年4月16日 6:24:36 JST
Os novos modelos de transcrição e geração de voz da OpenAI são incríveis! A qualidade melhorou muito em comparação com as versões anteriores. Só queria que fossem um pouco mais rápidos, mas no geral, estou muito satisfeito! 😊
0
OpenAIは、APIを通じて転写および音声生成のための新しいAIモデルを展開しており、従来のバージョンに比べて大幅な改善を約束しています。これらのアップデートは、ユーザーのために独立してタスクを実行できる自律システムの構築に焦点を当てたOpenAIのより大きな「エージェント的」ビジョンの一部です。「エージェント」という言葉には議論の余地がありますが、OpenAIの製品責任者であるオリビエ・ゴデマンは、これをビジネスの顧客と対話できるチャットボットと見なしています。
「今後数か月で、ますます多くのエージェントが登場するでしょう」とゴデマンはTechCrunchとのブリーフィングで語りました。「全体的な目標は、顧客や開発者が有用でアクセスしやすく、正確なエージェントを活用できるように支援することです。」
OpenAIの最新のテキスト音声変換モデル「gpt-4o-mini-tts」は、より自然でニュアンスのある音声を生成することを目指すだけでなく、従来のモデルよりも適応性が高いです。開発者は、「狂気の科学者のように話す」や「マインドフルネスの教師のような穏やかな声を使う」といった自然言語コマンドでモデルを指導できます。この制御レベルにより、よりパーソナライズされた音声体験が可能になります。
「トゥルークライム風」の、使い古された声のサンプルはこちらです:
女性の「プロフェッショナル」な声の例はこちらです:
OpenAIの製品チームメンバーであるジェフ・ハリスは、TechCrunchに対し、目的は開発者が音声の「体験」と「コンテキスト」の両方をカスタマイズできるようにすることだと強調しました。「さまざまなシナリオでは、単調な声は望ましくありません」とハリスは説明しました。「たとえば、顧客サポートの場面で、ミスに対して謝罪するような声が必要な場合、その感情を声に注入できます。開発者やユーザーは、コンテンツだけでなく話し方も制御したいと強く望んでいると考えています。」
OpenAIの新しい音声認識モデル「gpt-4o-transcribe」と「gpt-4o-mini-transcribe」では、時代遅れのWhisper転写モデルを置き換える予定です。多様な高品質オーディオデータでトレーニングされたこれらのモデルは、アクセントのある多様な音声や、騒がしい環境でも優れた処理能力を誇ります。さらに、これらのモデルはWhisperが時折単語や文全体を捏造し、転写に人種的コメントや架空の医療治療などの不正確さを加える「幻覚」の問題が少ないです。
「この点で、これらのモデルはWhisperに比べて大幅な改善を示しています」とハリスは述べました。「モデルの正確性は、信頼できる音声体験にとって非常に重要であり、正確性とは、モデルが話された言葉を正しく捉え、話されていない内容を追加しないことを意味します。」
ただし、言語によってパフォーマンスは異なる場合があります。OpenAIの内部ベンチマークによると、2つのモデルのうちより正確な「gpt-4o-transcribe」は、タミル語、テルグ語、マラヤーラム語、カンナダ語などのインド系およびドラビダ系言語で「単語エラー率」が約30%に近づいています。これは、これらの言語では10語中約3語が人間の転写と異なる可能性があることを示唆しています。
これまでの慣例とは異なり、OpenAIはこれらの新しい転写モデルを無料で公開しません。従来、Whisperの新バージョンはMITライセンスで商用利用向けにリリースされてきました。ハリスは、「gpt-4o-transcribe」と「gpt-4o-mini-transcribe」はWhisperよりも大幅に大きいため、オープンリリースには適さないと指摘しました。
「これらのモデルは、Whisperのように一般的なラップトップで動作するには大きすぎます」とハリスは付け加えました。「モデルをオープンにリリースする際は、特定のニーズに適した形で慎重に行いたいと考えています。エンドユーザーのデバイスは、オープンソースモデルにとって主要な領域だと見ています。」
2025年3月20日午前11時54分(太平洋時間)に更新され、単語エラー率に関する説明を明確化し、ベンチマーク結果のチャートを最新バージョンに更新しました。




Wow, OpenAI's new transcription and voice models sound like a game-changer! I'm curious how these 'agentic' systems will stack up against real-world tasks. Could they finally nail natural-sounding convos? 🤔




Os novos modelos de transcrição e geração de voz da OpenAI são um divisor de águas! Estou usando no meu podcast e as melhorias são impressionantes. O único ponto negativo? São um pouco caros, mas se você puder pagar, vale cada centavo! 🎙️💸




OpenAI's new transcription and voice models are a game changer! I've been using them for my podcast and the improvements are night and day. The only downside? They're a bit pricey, but if you can swing it, they're worth every penny! 🎙️💸




OpenAI의 새로운 음성 인식 및 음성 생성 모델은 정말 혁신적이에요! 제 팟캐스트에서 사용 중인데, 개선이 눈에 띄어요. 단점은 조금 비싸다는 건데, 감당할 수 있다면 그만한 가치가 있어요! 🎙️💸




OpenAIの新しい音声認識と音声生成モデルは革命的です!ポッドキャストで使っていますが、改善が劇的です。唯一の欠点は少し高価なことですが、払えるならその価値は十分にあります!🎙️💸




Os novos modelos de transcrição e geração de voz da OpenAI são incríveis! A qualidade melhorou muito em comparação com as versões anteriores. Só queria que fossem um pouco mais rápidos, mas no geral, estou muito satisfeito! 😊












