オプション
ニュース
ElevenLabsは、新しいスピーチツーテキストモデルを発表します

ElevenLabsは、新しいスピーチツーテキストモデルを発表します

2025年4月10日
114

ElevenLabsは、最近1億8000万ドルの資金調達に成功したAIスタートアップで、オーディオ生成技術で知られています。しかし今回、彼らは大胆にも新しい領域に踏み出し、初の独立した音声認識モデル「Scribe」をリリースしました。

33億ドルの評価額を持つElevenLabsは、豊富なボイスコレクションのおかげで、テキスト読み上げサービスを必要とする多くの企業にとって頼りになる存在でした。今、彼らは音声認識に照準を合わせ、Gladia、Speechmatics、AssemblyAI、Deepgram、OpenAIのWhisperモデルといったビッグネームに挑戦しようとしています。

Scribeは本気です。初めから99以上の言語をサポートしています。ElevenLabsによると、25以上の言語で優れた精度を誇り、単語エラー率は5%未満です。具体的には、英語(97%の精度を主張)、フランス語、ドイツ語、ヒンディー語、インドネシア語、日本語、カンナダ語、マラヤーラム語、ポーランド語、ポルトガル語、スペイン語、ベトナム語などが含まれます。その他の言語は、精度のカテゴリーに分けられます:高(単語エラー率5%~10%)、良好(10%~20%)、中程度(25%~50%)。

同社は、ScribeがFLEURSおよびCommon Voiceのベンチマークテストによると、Google Gemini 2.0 FlashやWhisper Large V3を複数の言語で上回っていると主張しています。

画像提供:ElevenLabs

ElevenLabsは昨年、AI対話エージェントプラットフォーム用に音声認識部分を構築しましたが、Scribeは独立した音声認識モデルとして初めての試みです。先月TechCrunchとの対談で、CEOのMati Staniszewskiは音声認識技術を強化する計画について明かしました。

「私たちは、会話であなたが何を言っているかをよりよく理解したいと考えています。もうコンテンツ生成だけではありません。音声の理解と書き起こしに進出しているのです」とStaniszewskiは述べました。「音声認識は古い技術だと思う人も多いですが、多くの言語ではまだかなり粗いものです。私たちは、社内にデータラベリングチームがあり、迅速なフィードバックを得られるので、もっと良いものができると考えています。」

Scribeには、話者を識別するスマートスピーカーダイアライゼーション、正確な字幕のための単語レベルのタイムスタンプ、観客の笑い声などの音声イベントの自動タグ付けといったクールな機能もあります。さらに、ElevenLabsは顧客がスタジオでビデオコンテンツを直接書き起こして字幕やキャプションを追加できるようにしています。

現時点では、Scribeは録音済みのオーディオにのみ対応しています。ただし、同社は低遅延のリアルタイムバージョンを近日中に開発中だとしています。そのため、会議の書き起こしやボイスメモの作成にはまだ準備ができていません。

ElevenLabsは、Scribeの書き起こしオーディオ1時間あたり0.40ドルの料金を設定しています。これは競争力のある価格ですが、一部のライバルはオーディオ書き起こしをより安価な料金で提供しており、いくつかの異なる機能も含まれています。

関連記事
マスターエメラルド 海賊ヌズロッケ究極のサバイバル&ストラテジーガイド マスターエメラルド 海賊ヌズロッケ究極のサバイバル&ストラテジーガイド Emerald Kaizoは、これまでに考案されたポケモンのROMハックの中で最も手強いものの1つである。Nuzlockeの実行を試みることは飛躍的に挑戦を増加させるが、綿密な計画と戦略的な実行によって勝利は達成可能である。この決定版ガイドでは、ハードコア・ヌズロッケのルールでエメラルドのかいぞくを制覇するために必要なツール、実戦で試された戦術、綿密なAI分析が紹介されている。ポケモンマスターの究
AIを駆使したカバーレター:ジャーナル投稿のためのエキスパートガイド AIを駆使したカバーレター:ジャーナル投稿のためのエキスパートガイド 競争の激しい今日の学術出版環境では、効果的なカバーレターを作成することが、原稿の採否を決定的に左右します。ChatGPTのようなAIを搭載したツールが、この重要なタスクをいかに効率化し、ジャーナル編集者の目を引く洗練されたプロフェッショナルなレターを作成できるかをご覧ください。ChatGPTの包括的なガイドでは、投稿パッケージを最適化し、出版を最大限に成功させるための戦略をステップごとに紹介してい
米国、ソーシャルメディア規制をめぐり外国公務員を制裁へ 米国、ソーシャルメディア規制をめぐり外国公務員を制裁へ 米国、世界のデジタルコンテンツ規制に対抗国務省は今週、ヨーロッパのデジタル・ガバナンス政策を標的に鋭い外交的非難を行い、オンライン・プラットフォームの支配をめぐる緊張の高まりを示唆した。マルコ・ルビオ長官は、米国が米国のデジタル空間に影響を及ぼす検閲の行き過ぎとみなすものに関与する外国政府関係者を対象とした、新しいビザ制限政策を発表した。新しいビザ制限の説明水曜日に発表された政策では、米
コメント (29)
0/200
MiaDavis
MiaDavis 2025年9月5日 9:30:33 JST

스타트업이 이렇게 빠르게 성장하는 걸 보면 놀랍네요 ㅎㅎ 음성 분야는 경쟁이 심한데, ElevenLabs가 STT 시장에서도 성공할 수 있을까요? 투자금 1억 8천만 달러로 뭔가 특별한 기술을 만들겠죠? 🤔

LawrenceLopez
LawrenceLopez 2025年8月31日 5:30:33 JST

A ElevenLabs não para de inovar! Esse novo modelo de speech-to-text parece promissor, mas fico pensando... será que vai conseguir competir com gigantes como Google e OpenAI no mercado de transcrição? 🤔 Espero que ofereça algo único pra justificar o hype!

TimothyMartínez
TimothyMartínez 2025年8月21日 22:01:20 JST

Scribe sounds like a game-changer! I'm curious if it'll handle my thick accent as well as it claims. Excited to try it for podcast transcriptions! 😎

MatthewTaylor
MatthewTaylor 2025年8月13日 6:00:59 JST

Just saw ElevenLabs' Scribe model news—97% accuracy in English is wild! 😮 I'm curious how it'll handle my thick accent in meetings. Hope they drop that real-time version soon!

RogerRoberts
RogerRoberts 2025年4月21日 10:44:55 JST

¡El Scribe de ElevenLabs es genial! Es increíble cómo han entrado en el mercado de voz a texto con un modelo tan sólido. Mi única queja es que a veces tiene problemas con acentos fuertes. Pero, para ser el primer intento, es bastante impresionante. ¡Sigan así, ElevenLabs! 🚀

RalphHill
RalphHill 2025年4月21日 5:36:44 JST

O novo modelo Scribe do ElevenLabs é incrível! Eles passaram da geração de áudio para o reconhecimento de fala de forma tão suave. Testei e a precisão é boa, mas tropeça um pouco com sotaques fortes. Vale a pena conferir se você gosta de IA! 😊

トップに戻ります
OR