オプション
ニュース
Openaiは、転写と音声生成AIモデルをアップグレードします

Openaiは、転写と音声生成AIモデルをアップグレードします

2025年4月10日
227

OpenAIは、APIを通じて転写および音声生成のための新しいAIモデルを展開しており、従来のバージョンに比べて大幅な改善を約束しています。これらのアップデートは、ユーザーのために独立してタスクを実行できる自律システムの構築に焦点を当てたOpenAIのより大きな「エージェント的」ビジョンの一部です。「エージェント」という言葉には議論の余地がありますが、OpenAIの製品責任者であるオリビエ・ゴデマンは、これをビジネスの顧客と対話できるチャットボットと見なしています。

「今後数か月で、ますます多くのエージェントが登場するでしょう」とゴデマンはTechCrunchとのブリーフィングで語りました。「全体的な目標は、顧客や開発者が有用でアクセスしやすく、正確なエージェントを活用できるように支援することです。」

OpenAIの最新のテキスト音声変換モデル「gpt-4o-mini-tts」は、より自然でニュアンスのある音声を生成することを目指すだけでなく、従来のモデルよりも適応性が高いです。開発者は、「狂気の科学者のように話す」や「マインドフルネスの教師のような穏やかな声を使う」といった自然言語コマンドでモデルを指導できます。この制御レベルにより、よりパーソナライズされた音声体験が可能になります。

「トゥルークライム風」の、使い古された声のサンプルはこちらです:

女性の「プロフェッショナル」な声の例はこちらです:

OpenAIの製品チームメンバーであるジェフ・ハリスは、TechCrunchに対し、目的は開発者が音声の「体験」と「コンテキスト」の両方をカスタマイズできるようにすることだと強調しました。「さまざまなシナリオでは、単調な声は望ましくありません」とハリスは説明しました。「たとえば、顧客サポートの場面で、ミスに対して謝罪するような声が必要な場合、その感情を声に注入できます。開発者やユーザーは、コンテンツだけでなく話し方も制御したいと強く望んでいると考えています。」

OpenAIの新しい音声認識モデル「gpt-4o-transcribe」と「gpt-4o-mini-transcribe」では、時代遅れのWhisper転写モデルを置き換える予定です。多様な高品質オーディオデータでトレーニングされたこれらのモデルは、アクセントのある多様な音声や、騒がしい環境でも優れた処理能力を誇ります。さらに、これらのモデルはWhisperが時折単語や文全体を捏造し、転写に人種的コメントや架空の医療治療などの不正確さを加える「幻覚」の問題が少ないです。

「この点で、これらのモデルはWhisperに比べて大幅な改善を示しています」とハリスは述べました。「モデルの正確性は、信頼できる音声体験にとって非常に重要であり、正確性とは、モデルが話された言葉を正しく捉え、話されていない内容を追加しないことを意味します。」

ただし、言語によってパフォーマンスは異なる場合があります。OpenAIの内部ベンチマークによると、2つのモデルのうちより正確な「gpt-4o-transcribe」は、タミル語、テルグ語、マラヤーラム語、カンナダ語などのインド系およびドラビダ系言語で「単語エラー率」が約30%に近づいています。これは、これらの言語では10語中約3語が人間の転写と異なる可能性があることを示唆しています。

OpenAI転写結果

OpenAI転写ベンチマークの結果。画像提供:OpenAI

これまでの慣例とは異なり、OpenAIはこれらの新しい転写モデルを無料で公開しません。従来、Whisperの新バージョンはMITライセンスで商用利用向けにリリースされてきました。ハリスは、「gpt-4o-transcribe」と「gpt-4o-mini-transcribe」はWhisperよりも大幅に大きいため、オープンリリースには適さないと指摘しました。

「これらのモデルは、Whisperのように一般的なラップトップで動作するには大きすぎます」とハリスは付け加えました。「モデルをオープンにリリースする際は、特定のニーズに適した形で慎重に行いたいと考えています。エンドユーザーのデバイスは、オープンソースモデルにとって主要な領域だと見ています。」

2025年3月20日午前11時54分(太平洋時間)に更新され、単語エラー率に関する説明を明確化し、ベンチマーク結果のチャートを最新バージョンに更新しました。

関連記事
サティヤ・ナデラ、新たなOpenAIとの契約を活用する準備ができている サティヤ・ナデラ、新たなOpenAIとの契約を活用する準備ができている 水曜日に、ウォール・ストリートのアナリストがマイクロソフトのCEOであるサティヤ・ナデラ氏に直接尋ねました。改正されたOpenAIとの提携関係が同社の財務状況にどのような影響を与えるのかと。ナデラ氏はこの新しい協定を「皆にとっての勝利」と表現しました。「OpenAIとの提携については満足しています。私は常にどんな提携でもウィンウィンの関係を築くことに重点を置いています。そうすることで、長期的に良いパートナーシップを維持できるからです。」彼は、マイクロソフトが依然としてOpenAIの知的財産、
OpenAIは、公的基金、ロボット税、週4日勤務制を柱とするAI経済の構想を提示した OpenAIは、公的基金、ロボット税、週4日勤務制を柱とするAI経済の構想を提示した 各国政府が超知能機械による経済的影響への対応に苦慮する中、OpenAIは「知能の時代」において富と労働がどのように再構築されるべきかを概説した一連の政策提言を発表した。その構想は、公的資産基金や社会安全網の拡充といった伝統的な左派的な仕組みと、根本的に資本主義的で市場主導型の経済枠組みとを融合させたものである。OpenAIの提案は本質的に「要望リスト」に相当し、人工知能が労働と経済を変革する中で、
グレッグ・ブロックマンが、イーロン・マスクがOpenAIを去った経緯を明かす グレッグ・ブロックマンが、イーロン・マスクがOpenAIを去った経緯を明かす 2017年8月下旬、当時まだ小規模な非営利研究機関だったOpenAIの主要メンバーは、自社の技術を商用化し、汎用人工知能(AGI)の実現に必要な資金を調達するために、営利法人をどのように設立すべきかについて協議した。イーロン・マスクは同社の完全な支配権を要求しており、ちょうどその直前に共同創業者たち一人ひとりにテスラ「モデル3」を贈っていた。CTOのグレッグ・ブロックマンは、マスクとサム・アルトマ
関連特集おすすめ
テキスト読み上げ ディスレクシアに最適なAI音声合成アプリ:生徒の学習と読解力の向上をサポート
ディスレクシアに最適なAI音声合成アプリ:生徒の学習と読解力の向上をサポート

ディスレクシア支援のために厳選された、2026年最新の最高評価AI TTSアプリをご紹介します。専門家によるランキングでは、無料ツールと有料ツールを比較し、読解効率と学習効果を高める強力な機能を詳しく解説しています。生徒の可能性を引き出す、ぜひ試すべき画期的なソリューションをご覧ください。XIX.AIでその第一歩を踏み出しましょう。

10 ツール
xix.ai
漫画制作 少年漫画向けトップAIジェネレーター:迫力満点のアクションシーンやエネルギーエフェクトを作成
少年漫画向けトップAIジェネレーター:迫力満点のアクションシーンやエネルギーエフェクトを作成

XIX.AIで、2026年のおすすめ少年漫画向けAIジェネレーターをご紹介します。厳選されたトップクラスのリストには、迫力満点のアクションシーンや躍動感あふれるエフェクトを作成できる強力なツールが揃っています。実際のテスト結果をもとに、無料版と有料版の比較も可能です。あなたの創造力を解き放ち、今日から壮大な漫画の制作を始めましょう!

15 ツール
xix.ai
仕事 おすすめのAI経費管理ツール:レシートをスキャンして、業務経費を自動分類
おすすめのAI経費管理ツール:レシートをスキャンして、業務経費を自動分類

2026年最新・最高のAI経費管理ツール:レシートをスキャンし、法人経費を自動分類する高評価ツールをご紹介。手間いらずの経費管理、正確な財務追跡、コンプライアンス対応の効率化を実現する、画期的なソリューションをご覧ください。無料版と有料版の比較表は厳選され、毎週更新されるため、最適なツール選びにお役立ていただけます。XIX.AIの専門家が厳選したツールで、AIの力を最大限に活用しましょう。

10 ツール
xix.ai
仕事 おすすめのAI採用ツール:履歴書の選考と候補者の面接スケジュール管理を自動化
おすすめのAI採用ツール:履歴書の選考と候補者の面接スケジュール管理を自動化

XIX.AIで、2026年最新の評価の高いAI採用ツールをチェックしましょう。厳選されたリストには、履歴書のスクリーニングや候補者の面接スケジュール管理を自動化する、強力で画期的なソリューションが揃っています。実際のテスト結果や毎週更新されるランキングを参考に、無料版と有料版の比較が可能です。最適な採用アシスタントを見つけて、今すぐ採用業務を効率化しましょう!

10 ツール
xix.ai
生産性 AIパーソナルウェルネス&集中力コーチ:バーンアウトの予防とメンタルエネルギーの向上
AIパーソナルウェルネス&集中力コーチ:バーンアウトの予防とメンタルエネルギーの向上

XIX.AIで、2026年最高のAIパーソナルウェルネス&集中力向上ツールをご紹介。厳選されたランキングでは、バーンアウトの解消やメンタルエネルギーの向上に役立つ、高評価で画期的なツールを取り上げています。実際のユーザーの声をもとに、無料版と有料版の比較も可能です。今すぐ、最高の生産性とウェルビーイングへの道を開きましょう。

10 ツール
xix.ai
チャットボット 高評価のAI恋愛チャットボット:一貫した個性で長期的な関係を築く
高評価のAI恋愛チャットボット:一貫した個性で長期的な関係を築く

2026年版、本物の長期的なつながりを築くための、高評価のAI恋愛チャットボットをご紹介します。厳選されたリストには、魅力的で一貫性のあるキャラクター、無料版と有料版の比較、そして実地テストの結果が掲載されています。あなたにぴったりのパートナーを見つけて、今すぐXIX.AIで関係を築き始めましょう。

10 ツール
xix.ai
コメント (33)
0/500
LeviKing
LeviKing 2025年12月23日 9:30:38 JST

음성 생성 모델 향상이라... 이게 결국 콜센터 직원 대체 같은 데 쓰이면 실업률 걱정이네요. 기술 좋지만 사회적 영향도 고민해야 할 문제 같아요.

FrankMartínez
FrankMartínez 2025年8月19日 17:01:39 JST

The new OpenAI models sound like a game-changer for voice tech! Can't wait to see how devs use this to make apps talk smoother than ever. 😎

BenHernández
BenHernández 2025年7月23日 17:50:48 JST

Wow, OpenAI's new transcription and voice models sound like a game-changer! I'm curious how these 'agentic' systems will stack up against real-world tasks. Could they finally nail natural-sounding convos? 🤔

GeorgeTaylor
GeorgeTaylor 2025年4月21日 4:57:07 JST

Os novos modelos de transcrição e geração de voz da OpenAI são um divisor de águas! Estou usando no meu podcast e as melhorias são impressionantes. O único ponto negativo? São um pouco caros, mas se você puder pagar, vale cada centavo! 🎙️💸

GregoryAllen
GregoryAllen 2025年4月17日 13:50:37 JST

OpenAI's new transcription and voice models are a game changer! I've been using them for my podcast and the improvements are night and day. The only downside? They're a bit pricey, but if you can swing it, they're worth every penny! 🎙️💸

StevenAllen
StevenAllen 2025年4月17日 13:38:26 JST

OpenAI의 새로운 음성 인식 및 음성 생성 모델은 정말 혁신적이에요! 제 팟캐스트에서 사용 중인데, 개선이 눈에 띄어요. 단점은 조금 비싸다는 건데, 감당할 수 있다면 그만한 가치가 있어요! 🎙️💸

OR