ニュース Openaiは、転写と音声生成AIモデルをアップグレードします

Openaiは、転写と音声生成AIモデルをアップグレードします

2025年4月10日
CharlesWhite
6

Openaiは、APIを介して転写と音声生成のための新しいAIモデルを展開しており、以前のバージョンよりも大幅な改善を約束しています。これらの更新は、OpenAIのより大きな「エージェント」ビジョンの一部であり、ユーザー向けにタスクを独立して実行できる自律システムの作成に焦点を当てています。 「エージェント」という用語は議論することができますが、Openaiの製品責任者であるOlivier Godementは、それをビジネスの顧客とやり取りできるチャットボットと見なしています。

「今後数か月のうちに、ますます多くのエージェントが出現するのを見るでしょう」と、Godementはブリーフィング中にTechCrunchと共有しました。 「包括的な目標は、顧客と開発者が有用でアクセスしやすく、正確なエージェントを利用するのを支援することです。」

「GPT-4O-MINI-TTS」と呼ばれるOpenAIの最新のテキストからスピーチモデルは、よりリアルで微妙なスピーチを生み出すことを目指しているだけでなく、前任者よりも適応性があります。開発者は、「狂った科学者のように話す」や「マインドフルネスの教師のように穏やかな声を使う」など、自然言語コマンドを使用してモデルをガイドできるようになりました。このレベルの制御により、よりパーソナライズされた音声体験が可能になります。

これは、「真の犯罪スタイル」の風化した声のサンプルです。

そして、これが女性の「プロの」声の例です:

Openaiの製品チームのメンバーであるJeff Harrisは、TechCrunchに、開発者が音声「エクスペリエンス」と「コンテキスト」の両方をカスタマイズできるようにすることであることを強調しました。 「さまざまなシナリオでは、単調な声が欲しくない」とハリスは説明した。 「たとえば、声が間違いを謝罪する必要があるカスタマーサポートの設定では、その感情を声に注入することができます。開発者とユーザーは、コンテンツだけでなくスピーチの方法を制御したいと考えています。」

Openaiの新しいスピーチツーテキスト製品「GPT-4O Transcribe」および「GPT-4O-MINI-Transcribe」に移行すると、これらのモデルは、時代遅れのささやき転写モデルを置き換えるように設定されています。高品質のオーディオデータの多様な配列で訓練されているため、ノイズの多い設定であっても、アクセントと多様な音声をよりよく処理すると主張しています。さらに、これらのモデルは「幻覚」を起こしやすいものではありません。これは、ささやきが単語や文章全体を発明することがあり、人種的な解説や架空の医療などの不正確さを加えて、転写に不正確な問題を課します。

「これらのモデルは、この点でささやきよりも大きな改善を示しています」とハリスは指摘しました。 「信頼できる音声体験には、モデルの精度を確保することが重要であり、精度では、モデルが声のないコンテンツを追加せずに話し言葉を正しくキャプチャすることを意味します。」

ただし、パフォーマンスは言語によって異なる場合があります。 Openaiの内部ベンチマークは、GPT-4O転写、2つのうち、より正確であるため、Tamil、Telugu、Malayalam、KannadaなどのDravidian言語で30%に近づいている「単語エラー率」が30%に近づいていることを示しています。これは、10語ごとに約3語がこれらの言語の人間の転写とは異なる可能性があることを示唆しています。

Openai転写の結果

Openai転写ベンチマークの結果。画像クレジット:Openai

彼らの通常の練習からの脱却で、Openaiはこれらの新しい転写モデルを自由に利用できるようにしません。歴史的に、彼らは商業使用のためのMITライセンスの下で新しいささやきバージョンをリリースしました。 Harrisは、GPT-4O転写とGPT-4O-Mini-Transcribeはささやきよりも大幅に大きいため、オープンリリースには適さないと指摘しました。

「これらのモデルは、ささやきのように典型的なラップトップで実行するには大きすぎます」とハリスは付け加えました。 「モデルを公然とリリースするとき、それを思慮深くやりたいと考えて、特定のニーズに合わせて調整されます。エンドユーザーデバイスは、オープンソースモデルの主要な領域と見なしています。」

2025年3月20日、午前11時54分PTを更新して、単語のエラー率に関する言語を明確にし、より最近のバージョンでベンチマーク結果チャートを更新します。

関連記事
Google Search Introduces 'AI Mode' for Complex, Multi-Part Queries Google Search Introduces 'AI Mode' for Complex, Multi-Part Queries Google Unveils "AI Mode" in Search to Rival Perplexity AI and ChatGPTGoogle is stepping up its game in the AI arena with the launch of an experimental "AI Mode" feature in its Search engine. Aimed at taking on the likes of Perplexity AI and OpenAI's ChatGPT Search, this new mode was announced on Wed
ChatGPT's Unsolicited Use of User Names Sparks 'Creepy' Concerns Among Some ChatGPT's Unsolicited Use of User Names Sparks 'Creepy' Concerns Among Some Some users of ChatGPT have recently encountered an odd new feature: the chatbot occasionally uses their name while working through problems. This wasn't part of its usual behavior before, and many users report that ChatGPT mentions their names without ever being told what to call them. Opinions on
OpenAI Enhances ChatGPT to Recall Previous Conversations OpenAI Enhances ChatGPT to Recall Previous Conversations OpenAI made a big announcement on Thursday about rolling out a fresh feature in ChatGPT called "memory." This nifty tool is designed to make your chats with the AI more personalized by remembering what you've talked about before. Imagine not having to repeat yourself every time you start a new conve
コメント (20)
0/200
ThomasBaker
ThomasBaker 2025年4月11日 18:32:00 GMT

OpenAI's new transcription and voice models are a game-changer! 🎤 The improvements are legit, making my workflow so much smoother. Can't wait to see what else they come up with in their 'agentic' vision. Keep it up, OpenAI! 🚀

EmmaTurner
EmmaTurner 2025年4月11日 21:05:15 GMT

OpenAIの新しいトランスクリプションと音声生成モデルは革命的!🎤 改善点が本物で、私の作業がずっとスムーズになった。'agentic'ビジョンで次に何を出すのか楽しみだね。頑張れ、OpenAI!🚀

DanielThomas
DanielThomas 2025年4月10日 19:20:36 GMT

OpenAI의 새로운 전사 및 음성 생성 모델은 혁신적이야! 🎤 개선 사항이 진짜라서 내 작업 흐름이 훨씬 더 부드러워졌어. 'agentic' 비전에서 다음에 무엇을 내놓을지 기대돼. 계속해라, OpenAI! 🚀

JasonMartin
JasonMartin 2025年4月14日 21:30:18 GMT

Os novos modelos de transcrição e geração de voz da OpenAI são revolucionários! 🎤 As melhorias são reais, tornando meu fluxo de trabalho muito mais suave. Mal posso esperar para ver o que mais eles vão lançar na visão 'agentic'. Continue assim, OpenAI! 🚀

RobertLewis
RobertLewis 2025年4月10日 15:34:07 GMT

OpenAI के नए ट्रांसक्रिप्शन और वॉइस जनरेशन मॉडल क्रांतिकारी हैं! 🎤 सुधार वास्तविक हैं, जिससे मेरा कार्यप्रवाह बहुत आसान हो गया है। 'एजेंटिक' विजन में वे और क्या लाएंगे, इसका इंतजार नहीं कर सकता। आगे बढ़ो, OpenAI! 🚀

OliverPhillips
OliverPhillips 2025年4月11日 17:06:16 GMT

OpenAI's new transcription and voice models sound promising! I'm excited to see how these upgrades will improve my workflow. The idea of autonomous systems is cool, but I hope they don't get too creepy. 🤖

Back to Top
OR