OpenAIは、自社のAPIにおいて音声認識機能を発表しました。

オープンAIは木曜日に、自社のAPIに新たな音声認識機能がいくつか追加されたと発表しました。これらの機能は、開発者が会話を行ったり、テキストを転写したり、翻訳したりできるアプリケーションを構築するのに役立つように設計されています。
同社の新しいGPT-Realtime-2は、ユーザーと会話を行うことができるリアルな音声シミュレーションを生成するために開発された音声モデルです。しかし、前身のGPT-Realtime-1.5とは異なり、このバージョンにはGPT-5クラスの推論機能が組み込まれており、オープンAIによると、これによってより複雑なユーザー要求に対応できるようになったとのことです。
また、同社はGPT-Realtime-Translateもリリースしており、その名前の通り、会話中にユーザーの話す内容をリアルタイムで翻訳するサービスを提供します。この機能は70以上の入力言語と13の出力言語をサポートしています。
最後に、オープンAIはGPT-Realtime-Whisperという新しいテキスト転写機能も導入しました。これにより、会話が行われている際にその内容をリアルタイムでテキストに変換することができます。
同社は、「今回リリースされたこれらのモデルによって、リアルタイムのオーディオ処理機能が単純な応答型のものから、実際に仕事をこなせる音声インターフェースへと進化した」と述べています。
これらの更新内容から恩恵を受けるのは誰でしょうか?顧客サービスの機能を拡充したい企業は明らかな対象です。しかし、オープンAIによると、新しい機能は教育、メディア、イベント、クリエイタープラットフォームなど、多岐にわたる分野で活用される見込みです。
これらのツールは企業にとって非常に有用かもしれませんが、悪用される可能性もあります。オープンAIは、新しい機能がスパムや詐欺、その他のオンライン上の不正行為に利用されるのを防ぐための対策を講じていると述べています。システム内には特定のトリガーが組み込まれており、「有害なコンテンツガイドラインに違反していると検出された場合には、会話を停止させることができる」とオープンAIは説明しています。
すべての新しい音声モデルは、オープンAIのRealtime APIに含まれています。TranslateおよびWhisperは分単位で料金が請求されますが、GPT-Realtime-2はトークンの消費量に基づいて料金が計算されます。
関連記事
サティヤ・ナデラ、新たなOpenAIとの契約を活用する準備ができている
水曜日に、ウォール・ストリートのアナリストがマイクロソフトのCEOであるサティヤ・ナデラ氏に直接尋ねました。改正されたOpenAIとの提携関係が同社の財務状況にどのような影響を与えるのかと。ナデラ氏はこの新しい協定を「皆にとっての勝利」と表現しました。「OpenAIとの提携については満足しています。私は常にどんな提携でもウィンウィンの関係を築くことに重点を置いています。そうすることで、長期的に良いパートナーシップを維持できるからです。」彼は、マイクロソフトが依然としてOpenAIの知的財産、
OpenAIは、公的基金、ロボット税、週4日勤務制を柱とするAI経済の構想を提示した
各国政府が超知能機械による経済的影響への対応に苦慮する中、OpenAIは「知能の時代」において富と労働がどのように再構築されるべきかを概説した一連の政策提言を発表した。その構想は、公的資産基金や社会安全網の拡充といった伝統的な左派的な仕組みと、根本的に資本主義的で市場主導型の経済枠組みとを融合させたものである。OpenAIの提案は本質的に「要望リスト」に相当し、人工知能が労働と経済を変革する中で、
グレッグ・ブロックマンが、イーロン・マスクがOpenAIを去った経緯を明かす
2017年8月下旬、当時まだ小規模な非営利研究機関だったOpenAIの主要メンバーは、自社の技術を商用化し、汎用人工知能(AGI)の実現に必要な資金を調達するために、営利法人をどのように設立すべきかについて協議した。イーロン・マスクは同社の完全な支配権を要求しており、ちょうどその直前に共同創業者たち一人ひとりにテスラ「モデル3」を贈っていた。CTOのグレッグ・ブロックマンは、マスクとサム・アルトマ
関連特集おすすめ
コメント (0)
0/500

オープンAIは木曜日に、自社のAPIに新たな音声認識機能がいくつか追加されたと発表しました。これらの機能は、開発者が会話を行ったり、テキストを転写したり、翻訳したりできるアプリケーションを構築するのに役立つように設計されています。
同社の新しいGPT-Realtime-2は、ユーザーと会話を行うことができるリアルな音声シミュレーションを生成するために開発された音声モデルです。しかし、前身のGPT-Realtime-1.5とは異なり、このバージョンにはGPT-5クラスの推論機能が組み込まれており、オープンAIによると、これによってより複雑なユーザー要求に対応できるようになったとのことです。
また、同社はGPT-Realtime-Translateもリリースしており、その名前の通り、会話中にユーザーの話す内容をリアルタイムで翻訳するサービスを提供します。この機能は70以上の入力言語と13の出力言語をサポートしています。
最後に、オープンAIはGPT-Realtime-Whisperという新しいテキスト転写機能も導入しました。これにより、会話が行われている際にその内容をリアルタイムでテキストに変換することができます。
同社は、「今回リリースされたこれらのモデルによって、リアルタイムのオーディオ処理機能が単純な応答型のものから、実際に仕事をこなせる音声インターフェースへと進化した」と述べています。
これらの更新内容から恩恵を受けるのは誰でしょうか?顧客サービスの機能を拡充したい企業は明らかな対象です。しかし、オープンAIによると、新しい機能は教育、メディア、イベント、クリエイタープラットフォームなど、多岐にわたる分野で活用される見込みです。
これらのツールは企業にとって非常に有用かもしれませんが、悪用される可能性もあります。オープンAIは、新しい機能がスパムや詐欺、その他のオンライン上の不正行為に利用されるのを防ぐための対策を講じていると述べています。システム内には特定のトリガーが組み込まれており、「有害なコンテンツガイドラインに違反していると検出された場合には、会話を停止させることができる」とオープンAIは説明しています。
すべての新しい音声モデルは、オープンAIのRealtime APIに含まれています。TranslateおよびWhisperは分単位で料金が請求されますが、GPT-Realtime-2はトークンの消費量に基づいて料金が計算されます。
サティヤ・ナデラ、新たなOpenAIとの契約を活用する準備ができている
水曜日に、ウォール・ストリートのアナリストがマイクロソフトのCEOであるサティヤ・ナデラ氏に直接尋ねました。改正されたOpenAIとの提携関係が同社の財務状況にどのような影響を与えるのかと。ナデラ氏はこの新しい協定を「皆にとっての勝利」と表現しました。「OpenAIとの提携については満足しています。私は常にどんな提携でもウィンウィンの関係を築くことに重点を置いています。そうすることで、長期的に良いパートナーシップを維持できるからです。」彼は、マイクロソフトが依然としてOpenAIの知的財産、
OpenAIは、公的基金、ロボット税、週4日勤務制を柱とするAI経済の構想を提示した
各国政府が超知能機械による経済的影響への対応に苦慮する中、OpenAIは「知能の時代」において富と労働がどのように再構築されるべきかを概説した一連の政策提言を発表した。その構想は、公的資産基金や社会安全網の拡充といった伝統的な左派的な仕組みと、根本的に資本主義的で市場主導型の経済枠組みとを融合させたものである。OpenAIの提案は本質的に「要望リスト」に相当し、人工知能が労働と経済を変革する中で、
グレッグ・ブロックマンが、イーロン・マスクがOpenAIを去った経緯を明かす
2017年8月下旬、当時まだ小規模な非営利研究機関だったOpenAIの主要メンバーは、自社の技術を商用化し、汎用人工知能(AGI)の実現に必要な資金を調達するために、営利法人をどのように設立すべきかについて協議した。イーロン・マスクは同社の完全な支配権を要求しており、ちょうどその直前に共同創業者たち一人ひとりにテスラ「モデル3」を贈っていた。CTOのグレッグ・ブロックマンは、マスクとサム・アルトマ





家






