テキスト翻訳で知られるDeepLが、今度は音声翻訳に注力している

テキスト翻訳ツールで知られる翻訳企業DeepLは本日、カスタムアプリケーションを通じて、会議やモバイル・ウェブ上の会話、現場担当者のグループディスカッションといった場面に対応する音声翻訳スイートをリリースした。 また同社は、外部の開発者や企業がコールセンターなどの特定のユースケースに合わせてDeepLの技術を応用できるようにするAPIも導入した。
「長年にわたりテキスト翻訳に注力してきた私たちにとって、音声翻訳は自然な次のステップでした」と、DeepLのCEOであるヤレク・クティロフスキ氏はTechCrunchのインタビューで語った。「テキストや文書の翻訳では大きな進歩を遂げました。しかし、リアルタイムの音声翻訳において、優れた製品は存在しないと感じていました。」
クティロフスキ氏は、リアルタイム翻訳製品の開発における主な課題は、遅延(話者が発話してから翻訳された音声が聞こえるまでの時間差)を低減することと、高い精度を維持することの適切なバランスを見出すことにあると説明した。
DeepLは、ZoomやMicrosoft Teamsなどのプラットフォーム向けアドオンをリリースする。これにより、話者が母国語で話す間、聞き手はリアルタイムの翻訳音声を聞くか、画面上のリアルタイム翻訳テキストを追うことができる。このプログラムは現在アーリーアクセスで提供されており、同社は組織向けにウェイティングリストへの登録を受け付けている。 DeepLはまた、対面またはリモートで行われるモバイルおよびウェブベースの会話向けの製品も提供しています。
さらにDeepLは、研修やワークショップなどのグループ会話への参加も可能にしており、参加者はQRコードを通じて参加できます。
DeepLによると、同社の音声翻訳技術は、業界固有の用語や企業名、人名を含む独自の語彙を学習し、適応させることができるという。
Kutylowski氏は、AIが今後数年間でカスタマーサービスのあり方を一変させると指摘しました。同氏は、翻訳レイヤーを活用することで、有能なスタッフが不足しており、採用コストも高い言語でのサポート提供が可能になると述べました。
同社は、音声対音声のスタック全体を自社で管理していると述べています。ただし、現在のシステムでは、音声をテキストに変換し、翻訳を適用した後、そのテキストを再び音声に変換しています。DeepLは、長年にわたるテキスト翻訳の経験が、翻訳品質において優位性をもたらしていると考えています。 将来的には、テキスト変換の段階を完全に省略したエンドツーエンドの音声翻訳モデルの開発を目指している。
DeepLは、関連分野で活動する資金力のある複数のスタートアップとの競争に直面している。昨年、Quadrille CapitalとTeleperformanceから6,500万ドルの資金調達を行ったSanasは、AIを活用して話者のアクセントをリアルタイムで修正する技術を提供しており、このツールは主にコールセンターのエージェントを対象としている。
ドバイを拠点とするCamb.AIは、Amazon Web Servicesを含むメディア・エンターテインメント企業向けの音声合成および翻訳に注力しており、動画コンテンツの大規模な吹き替えやローカライズを支援している。
Redditの共同創業者アレクシス・オハニアンが率いるSeven Seven Sixの支援を受けるPalabraは、意味と話し手の本来の声を両方とも維持するように設計されたリアルタイム音声翻訳エンジンを開発しており、DeepLが現在構築しているものとの直接的な競合関係にあります。
関連記事
ElevenLabs、ブラックロック、ジェイミー・フォックス、エヴァ・ロンゴリアを新たな投資家として発表
音声AI企業であるElevenLabsは、2月に発表された5億ドルのシリーズDラウンドにおいて、追加の投資家名を明らかにした。 これには、ブラックロック、ウェリントン、D.E.ショー、シュローダーズといった機関投資家、NVIDIA、セールスフォース、サンタンデール、KPN、ドイツテレコムなどの企業、そしてジェイミー・フォックス、エヴァ・ロンゴリア、『Squid Game』のクリエイターであるファン
ミストラル、オープンソースの音声生成モデルを発表
フランスのAI企業Mistralは木曜日、音声AIアシスタントやカスタマーサポートなどの企業向けアプリケーション向けに設計された、新しいオープンソースのテキスト読み上げ(TTS)モデルを発表した。このモデルにより、企業は営業や顧客エンゲージメントのための音声エージェントを構築できるようになり、MistralはElevenLabs、Deepgram、OpenAIの直接的な競合相手としての地位を確立し
おすすめのAI音声入力アプリ:専門家のレビューとランキング
AI音声入力アプリは、比較的短期間で目覚ましい進歩を遂げました。長い間、これらのアプリは動作が重く、誤認識も多いため、ユーザーは特定のアクセントで、かつ非常に明瞭に話す必要がありました。しかし、大規模言語モデル(LLM)や音声認識技術の進歩により、状況は一変しました。現在では、音声をより正確に理解するだけでなく、文脈を把握して適切な形式でテキストを生成できるシステムが実現しています。開発者たちは、
関連特集おすすめ
コメント (0)
0/500

テキスト翻訳ツールで知られる翻訳企業DeepLは本日、カスタムアプリケーションを通じて、会議やモバイル・ウェブ上の会話、現場担当者のグループディスカッションといった場面に対応する音声翻訳スイートをリリースした。 また同社は、外部の開発者や企業がコールセンターなどの特定のユースケースに合わせてDeepLの技術を応用できるようにするAPIも導入した。
「長年にわたりテキスト翻訳に注力してきた私たちにとって、音声翻訳は自然な次のステップでした」と、DeepLのCEOであるヤレク・クティロフスキ氏はTechCrunchのインタビューで語った。「テキストや文書の翻訳では大きな進歩を遂げました。しかし、リアルタイムの音声翻訳において、優れた製品は存在しないと感じていました。」
クティロフスキ氏は、リアルタイム翻訳製品の開発における主な課題は、遅延(話者が発話してから翻訳された音声が聞こえるまでの時間差)を低減することと、高い精度を維持することの適切なバランスを見出すことにあると説明した。
DeepLは、ZoomやMicrosoft Teamsなどのプラットフォーム向けアドオンをリリースする。これにより、話者が母国語で話す間、聞き手はリアルタイムの翻訳音声を聞くか、画面上のリアルタイム翻訳テキストを追うことができる。このプログラムは現在アーリーアクセスで提供されており、同社は組織向けにウェイティングリストへの登録を受け付けている。 DeepLはまた、対面またはリモートで行われるモバイルおよびウェブベースの会話向けの製品も提供しています。
さらにDeepLは、研修やワークショップなどのグループ会話への参加も可能にしており、参加者はQRコードを通じて参加できます。
DeepLによると、同社の音声翻訳技術は、業界固有の用語や企業名、人名を含む独自の語彙を学習し、適応させることができるという。
Kutylowski氏は、AIが今後数年間でカスタマーサービスのあり方を一変させると指摘しました。同氏は、翻訳レイヤーを活用することで、有能なスタッフが不足しており、採用コストも高い言語でのサポート提供が可能になると述べました。
同社は、音声対音声のスタック全体を自社で管理していると述べています。ただし、現在のシステムでは、音声をテキストに変換し、翻訳を適用した後、そのテキストを再び音声に変換しています。DeepLは、長年にわたるテキスト翻訳の経験が、翻訳品質において優位性をもたらしていると考えています。 将来的には、テキスト変換の段階を完全に省略したエンドツーエンドの音声翻訳モデルの開発を目指している。
DeepLは、関連分野で活動する資金力のある複数のスタートアップとの競争に直面している。昨年、Quadrille CapitalとTeleperformanceから6,500万ドルの資金調達を行ったSanasは、AIを活用して話者のアクセントをリアルタイムで修正する技術を提供しており、このツールは主にコールセンターのエージェントを対象としている。
ドバイを拠点とするCamb.AIは、Amazon Web Servicesを含むメディア・エンターテインメント企業向けの音声合成および翻訳に注力しており、動画コンテンツの大規模な吹き替えやローカライズを支援している。
Redditの共同創業者アレクシス・オハニアンが率いるSeven Seven Sixの支援を受けるPalabraは、意味と話し手の本来の声を両方とも維持するように設計されたリアルタイム音声翻訳エンジンを開発しており、DeepLが現在構築しているものとの直接的な競合関係にあります。
ElevenLabs、ブラックロック、ジェイミー・フォックス、エヴァ・ロンゴリアを新たな投資家として発表
音声AI企業であるElevenLabsは、2月に発表された5億ドルのシリーズDラウンドにおいて、追加の投資家名を明らかにした。 これには、ブラックロック、ウェリントン、D.E.ショー、シュローダーズといった機関投資家、NVIDIA、セールスフォース、サンタンデール、KPN、ドイツテレコムなどの企業、そしてジェイミー・フォックス、エヴァ・ロンゴリア、『Squid Game』のクリエイターであるファン
ミストラル、オープンソースの音声生成モデルを発表
フランスのAI企業Mistralは木曜日、音声AIアシスタントやカスタマーサポートなどの企業向けアプリケーション向けに設計された、新しいオープンソースのテキスト読み上げ(TTS)モデルを発表した。このモデルにより、企業は営業や顧客エンゲージメントのための音声エージェントを構築できるようになり、MistralはElevenLabs、Deepgram、OpenAIの直接的な競合相手としての地位を確立し
おすすめのAI音声入力アプリ:専門家のレビューとランキング
AI音声入力アプリは、比較的短期間で目覚ましい進歩を遂げました。長い間、これらのアプリは動作が重く、誤認識も多いため、ユーザーは特定のアクセントで、かつ非常に明瞭に話す必要がありました。しかし、大規模言語モデル(LLM)や音声認識技術の進歩により、状況は一変しました。現在では、音声をより正確に理解するだけでなく、文脈を把握して適切な形式でテキストを生成できるシステムが実現しています。開発者たちは、





家






