オプション
ニュース
ElevenLabsは、新しいスピーチツーテキストモデルを発表します

ElevenLabsは、新しいスピーチツーテキストモデルを発表します

2025年4月10日
114

ElevenLabsは、最近1億8000万ドルの資金調達に成功したAIスタートアップで、オーディオ生成技術で知られています。しかし今回、彼らは大胆にも新しい領域に踏み出し、初の独立した音声認識モデル「Scribe」をリリースしました。

33億ドルの評価額を持つElevenLabsは、豊富なボイスコレクションのおかげで、テキスト読み上げサービスを必要とする多くの企業にとって頼りになる存在でした。今、彼らは音声認識に照準を合わせ、Gladia、Speechmatics、AssemblyAI、Deepgram、OpenAIのWhisperモデルといったビッグネームに挑戦しようとしています。

Scribeは本気です。初めから99以上の言語をサポートしています。ElevenLabsによると、25以上の言語で優れた精度を誇り、単語エラー率は5%未満です。具体的には、英語(97%の精度を主張)、フランス語、ドイツ語、ヒンディー語、インドネシア語、日本語、カンナダ語、マラヤーラム語、ポーランド語、ポルトガル語、スペイン語、ベトナム語などが含まれます。その他の言語は、精度のカテゴリーに分けられます:高(単語エラー率5%~10%)、良好(10%~20%)、中程度(25%~50%)。

同社は、ScribeがFLEURSおよびCommon Voiceのベンチマークテストによると、Google Gemini 2.0 FlashやWhisper Large V3を複数の言語で上回っていると主張しています。

画像提供:ElevenLabs

ElevenLabsは昨年、AI対話エージェントプラットフォーム用に音声認識部分を構築しましたが、Scribeは独立した音声認識モデルとして初めての試みです。先月TechCrunchとの対談で、CEOのMati Staniszewskiは音声認識技術を強化する計画について明かしました。

「私たちは、会話であなたが何を言っているかをよりよく理解したいと考えています。もうコンテンツ生成だけではありません。音声の理解と書き起こしに進出しているのです」とStaniszewskiは述べました。「音声認識は古い技術だと思う人も多いですが、多くの言語ではまだかなり粗いものです。私たちは、社内にデータラベリングチームがあり、迅速なフィードバックを得られるので、もっと良いものができると考えています。」

Scribeには、話者を識別するスマートスピーカーダイアライゼーション、正確な字幕のための単語レベルのタイムスタンプ、観客の笑い声などの音声イベントの自動タグ付けといったクールな機能もあります。さらに、ElevenLabsは顧客がスタジオでビデオコンテンツを直接書き起こして字幕やキャプションを追加できるようにしています。

現時点では、Scribeは録音済みのオーディオにのみ対応しています。ただし、同社は低遅延のリアルタイムバージョンを近日中に開発中だとしています。そのため、会議の書き起こしやボイスメモの作成にはまだ準備ができていません。

ElevenLabsは、Scribeの書き起こしオーディオ1時間あたり0.40ドルの料金を設定しています。これは競争力のある価格ですが、一部のライバルはオーディオ書き起こしをより安価な料金で提供しており、いくつかの異なる機能も含まれています。

関連記事
AI Voice Translator G5 Pro: シームレスなグローバルコミュニケーション AI Voice Translator G5 Pro: シームレスなグローバルコミュニケーション グローバルな接続が不可欠な世界において、言語の壁を越えることはこれまで以上に重要です。AI Voice Translator G5 Proは、リアルタイム翻訳機能により、さまざまなシナリオで実際的な解決策を提供します。新しい国を探索したり、国際ビジネスを行ったり、新しい言語を学んだりする場合、このデバイスは簡単にコミュニケーションを効率化します。この記事では、AI Voice Translator
HitPaw AI Photo Enhancerで画像を向上させる:包括的ガイド HitPaw AI Photo Enhancerで画像を向上させる:包括的ガイド 写真編集の体験を変えたいですか?最先端の人工知能のおかげで、画像の改善が今や簡単に行えます。この詳細なガイドでは、HitPaw AI Photo Enhancer、画像の品質と解像度を自動的に向上させるオフラインAIツールを探ります。プロの写真家であろうと、個人のスナップショットを磨きたい愛好家であろうと、HitPaw AI Photo Enhancerは驚くべき結果をもたらす強力な機能を提供しま
AI駆動の音楽作成:楽曲とビデオを簡単に制作 AI駆動の音楽作成:楽曲とビデオを簡単に制作 音楽作成は時間、資源、専門知識を必要とする複雑なプロセスです。人工知能はこのプロセスを変革し、シンプルで誰でも利用できるものにしました。このガイドでは、AIがどのようにして誰でも無料でユニークな楽曲やビジュアルを制作できるようにするか、新たな創造的可能性を解き放つ方法を紹介します。直感的で使いやすいインターフェースと先進的なAIを備えたプラットフォームを探索し、音楽のアイデアを高コストなしで現実に
コメント (27)
0/200
TimothyMartínez
TimothyMartínez 2025年8月21日 22:01:20 JST

Scribe sounds like a game-changer! I'm curious if it'll handle my thick accent as well as it claims. Excited to try it for podcast transcriptions! 😎

MatthewTaylor
MatthewTaylor 2025年8月13日 6:00:59 JST

Just saw ElevenLabs' Scribe model news—97% accuracy in English is wild! 😮 I'm curious how it'll handle my thick accent in meetings. Hope they drop that real-time version soon!

RogerRoberts
RogerRoberts 2025年4月21日 10:44:55 JST

¡El Scribe de ElevenLabs es genial! Es increíble cómo han entrado en el mercado de voz a texto con un modelo tan sólido. Mi única queja es que a veces tiene problemas con acentos fuertes. Pero, para ser el primer intento, es bastante impresionante. ¡Sigan así, ElevenLabs! 🚀

RalphHill
RalphHill 2025年4月21日 5:36:44 JST

O novo modelo Scribe do ElevenLabs é incrível! Eles passaram da geração de áudio para o reconhecimento de fala de forma tão suave. Testei e a precisão é boa, mas tropeça um pouco com sotaques fortes. Vale a pena conferir se você gosta de IA! 😊

PaulBrown
PaulBrown 2025年4月20日 11:47:04 JST

ElevenLabsのScribeはすごいね!音声からテキストへの変換がこんなにスムーズだなんて。ただ、少しだけ重いアクセントだと苦手なところがあるかな。でも、初挑戦にしてはかなり良いと思うよ!頑張ってね、ElevenLabs!🚀

HarryLewis
HarryLewis 2025年4月20日 10:23:49 JST

ElevenLabs의 Scribe 정말 멋지네요! 음성에서 텍스트로 변환하는 게 이렇게 부드럽다니. 다만, 조금 무거운 억양은 어려워하는 것 같아요. 그래도 첫 시도치고는 꽤 훌륭해요! 계속 화이팅, ElevenLabs! 🚀

トップに戻ります
OR