option
Maison
Nouvelles
ElevenLabs dévoile un nouveau modèle de parole

ElevenLabs dévoile un nouveau modèle de parole

10 avril 2025
114

ElevenLabs, une startup d'IA ayant récemment obtenu un impressionnant financement de 180 millions de dollars, est réputée pour ses compétences en génération audio. Mais maintenant, ils se lancent audacieusement dans un nouveau domaine en dévoilant leur premier modèle autonome de conversion parole-texte, appelé Scribe.

Évaluée à 3,3 milliards de dollars, ElevenLabs est devenue une référence pour de nombreuses entreprises ayant besoin de services de synthèse vocale, grâce à leur vaste collection de voix. Désormais, ils se concentrent sur la détection de la parole, avec l'ambition de rivaliser avec des grands noms comme Gladia, Speechmatics, AssemblyAI, Deepgram et les modèles Whisper d'OpenAI.

Scribe ne plaisante pas : il prend en charge plus de 99 langues dès le départ. ElevenLabs affirme qu'il offre une excellente précision pour plus de 25 langues, avec un taux d'erreur de mots inférieur à 5 %. Cela inclut l'anglais (avec une précision revendiquée de 97 %), le français, l'allemand, l'hindi, l'indonésien, le japonais, le kannada, le malayalam, le polonais, le portugais, l'espagnol et le vietnamien, entre autres. Les autres langues se répartissent en différentes catégories de précision : élevée (taux d'erreur de mots de 5 % à 10 %), bonne (10 % à 20 %) et modérée (25 % à 50 %).

L'entreprise affirme que Scribe surpasse Google Gemini 2.0 Flash et Whisper Large V3 dans plusieurs langues, selon les tests de référence FLEURS & Common Voice.

Crédits image : ElevenLabs

ElevenLabs a en réalité développé la partie conversion parole-texte pour leur plateforme d'agent conversationnel IA l'année dernière, mais Scribe est leur première tentative de modèle autonome de détection de la parole. Lors d'une discussion avec TechCrunch le mois dernier, le PDG Mati Staniszewski a révélé leurs plans pour renforcer leur technologie de détection de la parole.

"Nous voulons améliorer notre compréhension de ce que vous dites dans une conversation. Nous ne nous contentons plus de générer du contenu ; nous évoluons vers la compréhension et la transcription de la parole," a déclaré Staniszewski. "Beaucoup de gens pensent que la conversion parole-texte est dépassée, mais pour de nombreuses langues, c'est encore assez approximatif. Nous pensons pouvoir faire mieux car nous avons des équipes internes pour étiqueter les données et nous fournir des retours rapides."

Scribe propose également des fonctionnalités intéressantes, comme une diarisation intelligente des locuteurs pour identifier qui parle, des horodatages au niveau des mots pour des sous-titres précis, et un étiquetage automatique des événements sonores comme les rires du public. De plus, ElevenLabs permet aux clients de transcrire directement le contenu vidéo pour ajouter des sous-titres ou des légendes dans leur studio.

Pour l'instant, Scribe ne fonctionne qu'avec des audios préenregistrés. Mais pas d'inquiétude, l'entreprise indique qu'elle travaille sur une version en temps réel à faible latence pour bientôt. Donc, il n'est pas encore prêt pour les transcriptions de réunions ou la prise de notes vocales.

ElevenLabs facture 0,40 $ par heure d'audio transcrit pour Scribe. C'est un prix compétitif, mais certains concurrents proposent des tarifs plus bas pour les transcriptions audio, avec quelques fonctionnalités différentes incluses.

Article connexe
Traducteur Vocal IA G5 Pro : Communication Mondiale Fluide Traducteur Vocal IA G5 Pro : Communication Mondiale Fluide Dans un monde où la connectivité mondiale est essentielle, combler les écarts linguistiques est plus important que jamais. Le Traducteur Vocal IA G5 Pro offre une solution pratique avec ses fonctionna
Élevez Vos Images avec HitPaw AI Photo Enhancer : Un Guide Complet Élevez Vos Images avec HitPaw AI Photo Enhancer : Un Guide Complet Voulez-vous transformer votre expérience d'édition de photos ? Grâce à une intelligence artificielle de pointe, améliorer vos images est désormais sans effort. Ce guide détaillé explore le HitPaw AI P
Création musicale alimentée par l'IA : Créez des chansons et des vidéos sans effort Création musicale alimentée par l'IA : Créez des chansons et des vidéos sans effort La création musicale peut être complexe, nécessitant du temps, des ressources et une expertise. L'intelligence artificielle a transformé ce processus, le rendant simple et accessible. Ce guide montre
commentaires (27)
0/200
TimothyMartínez
TimothyMartínez 21 août 2025 15:01:20 UTC+02:00

Scribe sounds like a game-changer! I'm curious if it'll handle my thick accent as well as it claims. Excited to try it for podcast transcriptions! 😎

MatthewTaylor
MatthewTaylor 12 août 2025 23:00:59 UTC+02:00

Just saw ElevenLabs' Scribe model news—97% accuracy in English is wild! 😮 I'm curious how it'll handle my thick accent in meetings. Hope they drop that real-time version soon!

RogerRoberts
RogerRoberts 21 avril 2025 03:44:55 UTC+02:00

¡El Scribe de ElevenLabs es genial! Es increíble cómo han entrado en el mercado de voz a texto con un modelo tan sólido. Mi única queja es que a veces tiene problemas con acentos fuertes. Pero, para ser el primer intento, es bastante impresionante. ¡Sigan así, ElevenLabs! 🚀

RalphHill
RalphHill 20 avril 2025 22:36:44 UTC+02:00

O novo modelo Scribe do ElevenLabs é incrível! Eles passaram da geração de áudio para o reconhecimento de fala de forma tão suave. Testei e a precisão é boa, mas tropeça um pouco com sotaques fortes. Vale a pena conferir se você gosta de IA! 😊

PaulBrown
PaulBrown 20 avril 2025 04:47:04 UTC+02:00

ElevenLabsのScribeはすごいね!音声からテキストへの変換がこんなにスムーズだなんて。ただ、少しだけ重いアクセントだと苦手なところがあるかな。でも、初挑戦にしてはかなり良いと思うよ!頑張ってね、ElevenLabs!🚀

HarryLewis
HarryLewis 20 avril 2025 03:23:49 UTC+02:00

ElevenLabs의 Scribe 정말 멋지네요! 음성에서 텍스트로 변환하는 게 이렇게 부드럽다니. 다만, 조금 무거운 억양은 어려워하는 것 같아요. 그래도 첫 시도치고는 꽤 훌륭해요! 계속 화이팅, ElevenLabs! 🚀

Retour en haut
OR