オプション
ニュース
Openaiは、転写と音声生成AIモデルをアップグレードします

Openaiは、転写と音声生成AIモデルをアップグレードします

2025年4月10日
100

Openaiは、APIを介して転写と音声生成のための新しいAIモデルを展開しており、以前のバージョンよりも大幅な改善を約束しています。これらの更新は、OpenAIのより大きな「エージェント」ビジョンの一部であり、ユーザー向けにタスクを独立して実行できる自律システムの作成に焦点を当てています。 「エージェント」という用語は議論することができますが、Openaiの製品責任者であるOlivier Godementは、それをビジネスの顧客とやり取りできるチャットボットと見なしています。

「今後数か月のうちに、ますます多くのエージェントが出現するのを見るでしょう」と、Godementはブリーフィング中にTechCrunchと共有しました。 「包括的な目標は、顧客と開発者が有用でアクセスしやすく、正確なエージェントを利用するのを支援することです。」

「GPT-4O-MINI-TTS」と呼ばれるOpenAIの最新のテキストからスピーチモデルは、よりリアルで微妙なスピーチを生み出すことを目指しているだけでなく、前任者よりも適応性があります。開発者は、「狂った科学者のように話す」や「マインドフルネスの教師のように穏やかな声を使う」など、自然言語コマンドを使用してモデルをガイドできるようになりました。このレベルの制御により、よりパーソナライズされた音声体験が可能になります。

これは、「真の犯罪スタイル」の風化した声のサンプルです。

そして、これが女性の「プロの」声の例です:

Openaiの製品チームのメンバーであるJeff Harrisは、TechCrunchに、開発者が音声「エクスペリエンス」と「コンテキスト」の両方をカスタマイズできるようにすることであることを強調しました。 「さまざまなシナリオでは、単調な声が欲しくない」とハリスは説明した。 「たとえば、声が間違いを謝罪する必要があるカスタマーサポートの設定では、その感情を声に注入することができます。開発者とユーザーは、コンテンツだけでなくスピーチの方法を制御したいと考えています。」

Openaiの新しいスピーチツーテキスト製品「GPT-4O Transcribe」および「GPT-4O-MINI-Transcribe」に移行すると、これらのモデルは、時代遅れのささやき転写モデルを置き換えるように設定されています。高品質のオーディオデータの多様な配列で訓練されているため、ノイズの多い設定であっても、アクセントと多様な音声をよりよく処理すると主張しています。さらに、これらのモデルは「幻覚」を起こしやすいものではありません。これは、ささやきが単語や文章全体を発明することがあり、人種的な解説や架空の医療などの不正確さを加えて、転写に不正確な問題を課します。

「これらのモデルは、この点でささやきよりも大きな改善を示しています」とハリスは指摘しました。 「信頼できる音声体験には、モデルの精度を確保することが重要であり、精度では、モデルが声のないコンテンツを追加せずに話し言葉を正しくキャプチャすることを意味します。」

ただし、パフォーマンスは言語によって異なる場合があります。 Openaiの内部ベンチマークは、GPT-4O転写、2つのうち、より正確であるため、Tamil、Telugu、Malayalam、KannadaなどのDravidian言語で30%に近づいている「単語エラー率」が30%に近づいていることを示しています。これは、10語ごとに約3語がこれらの言語の人間の転写とは異なる可能性があることを示唆しています。

Openai転写の結果

Openai転写ベンチマークの結果。画像クレジット:Openai

彼らの通常の練習からの脱却で、Openaiはこれらの新しい転写モデルを自由に利用できるようにしません。歴史的に、彼らは商業使用のためのMITライセンスの下で新しいささやきバージョンをリリースしました。 Harrisは、GPT-4O転写とGPT-4O-Mini-Transcribeはささやきよりも大幅に大きいため、オープンリリースには適さないと指摘しました。

「これらのモデルは、ささやきのように典型的なラップトップで実行するには大きすぎます」とハリスは付け加えました。 「モデルを公然とリリースするとき、それを思慮深くやりたいと考えて、特定のニーズに合わせて調整されます。エンドユーザーデバイスは、オープンソースモデルの主要な領域と見なしています。」

2025年3月20日、午前11時54分PTを更新して、単語のエラー率に関する言語を明確にし、より最近のバージョンでベンチマーク結果チャートを更新します。

関連記事
OpenAI升級其Operator Agent的AI模型 OpenAI升級其Operator Agent的AI模型 OpenAI將Operator推向全新境界OpenAI正為其自主AI代理Operator進行重大升級。這項變革意味著Operator即將採用基於o3模型的架構,這是OpenAI尖端o系列推理模型的最新成員。此前Operator一直使用客製化版本的GPT-4o驅動,但這次迭代將帶來顯著改進。o3的突破性意義在數學與邏輯推理任務方面,o3幾乎在所有指標上都超越前
OpenAI的o3 AI模型在基準測試中的得分低於最初暗示的水準 OpenAI的o3 AI模型在基準測試中的得分低於最初暗示的水準 為什麼 AI 基準測試的差異很重要?提到 AI 時,數字往往能說明一切——有時,這些數字並不一定完全相符。以 OpenAI 的 o3 模型為例。最初的聲稱簡直令人驚嘆:據報導,o3 可以處理超過 25% 的 notoriously tough FrontierMath 問題。作為參考,競爭對手還停留在個位數。但隨著近期的發展,受人尊敬的研究機構 Epoch
Ziff Davis指控OpenAI涉嫌侵權 Ziff Davis指控OpenAI涉嫌侵權 Ziff Davis控告OpenAI版權侵權訴訟這起事件在科技和出版界掀起了軒然大波,Ziff Davis——旗下擁有CNET、PCMag、IGN和Everyday Health等品牌的龐大企業聯盟——已對OpenAI提起版權侵權訴訟。根據《紐約時報》的報導,該訴訟聲稱OpenAI故意未經許可使用Ziff Davis的內容,製作了其作品的「精確副本」。這是截
コメント (30)
0/200
ThomasBaker
ThomasBaker 2025年4月12日 0:00:00 GMT

OpenAI's new transcription and voice models are a game-changer! 🎤 The improvements are legit, making my workflow so much smoother. Can't wait to see what else they come up with in their 'agentic' vision. Keep it up, OpenAI! 🚀

EmmaTurner
EmmaTurner 2025年4月12日 0:00:00 GMT

OpenAIの新しいトランスクリプションと音声生成モデルは革命的!🎤 改善点が本物で、私の作業がずっとスムーズになった。'agentic'ビジョンで次に何を出すのか楽しみだね。頑張れ、OpenAI!🚀

DanielThomas
DanielThomas 2025年4月11日 0:00:00 GMT

OpenAI의 새로운 전사 및 음성 생성 모델은 혁신적이야! 🎤 개선 사항이 진짜라서 내 작업 흐름이 훨씬 더 부드러워졌어. 'agentic' 비전에서 다음에 무엇을 내놓을지 기대돼. 계속해라, OpenAI! 🚀

JasonMartin
JasonMartin 2025年4月15日 0:00:00 GMT

Os novos modelos de transcrição e geração de voz da OpenAI são revolucionários! 🎤 As melhorias são reais, tornando meu fluxo de trabalho muito mais suave. Mal posso esperar para ver o que mais eles vão lançar na visão 'agentic'. Continue assim, OpenAI! 🚀

RobertLewis
RobertLewis 2025年4月10日 0:00:00 GMT

OpenAI के नए ट्रांसक्रिप्शन और वॉइस जनरेशन मॉडल क्रांतिकारी हैं! 🎤 सुधार वास्तविक हैं, जिससे मेरा कार्यप्रवाह बहुत आसान हो गया है। 'एजेंटिक' विजन में वे और क्या लाएंगे, इसका इंतजार नहीं कर सकता। आगे बढ़ो, OpenAI! 🚀

OliverPhillips
OliverPhillips 2025年4月12日 0:00:00 GMT

OpenAI's new transcription and voice models sound promising! I'm excited to see how these upgrades will improve my workflow. The idea of autonomous systems is cool, but I hope they don't get too creepy. 🤖

トップに戻ります
OR