option
Maison
Nouvelles
ElevenLabs dévoile un nouveau modèle de parole

ElevenLabs dévoile un nouveau modèle de parole

10 avril 2025
114

ElevenLabs, une startup d'IA ayant récemment obtenu un impressionnant financement de 180 millions de dollars, est réputée pour ses compétences en génération audio. Mais maintenant, ils se lancent audacieusement dans un nouveau domaine en dévoilant leur premier modèle autonome de conversion parole-texte, appelé Scribe.

Évaluée à 3,3 milliards de dollars, ElevenLabs est devenue une référence pour de nombreuses entreprises ayant besoin de services de synthèse vocale, grâce à leur vaste collection de voix. Désormais, ils se concentrent sur la détection de la parole, avec l'ambition de rivaliser avec des grands noms comme Gladia, Speechmatics, AssemblyAI, Deepgram et les modèles Whisper d'OpenAI.

Scribe ne plaisante pas : il prend en charge plus de 99 langues dès le départ. ElevenLabs affirme qu'il offre une excellente précision pour plus de 25 langues, avec un taux d'erreur de mots inférieur à 5 %. Cela inclut l'anglais (avec une précision revendiquée de 97 %), le français, l'allemand, l'hindi, l'indonésien, le japonais, le kannada, le malayalam, le polonais, le portugais, l'espagnol et le vietnamien, entre autres. Les autres langues se répartissent en différentes catégories de précision : élevée (taux d'erreur de mots de 5 % à 10 %), bonne (10 % à 20 %) et modérée (25 % à 50 %).

L'entreprise affirme que Scribe surpasse Google Gemini 2.0 Flash et Whisper Large V3 dans plusieurs langues, selon les tests de référence FLEURS & Common Voice.

Crédits image : ElevenLabs

ElevenLabs a en réalité développé la partie conversion parole-texte pour leur plateforme d'agent conversationnel IA l'année dernière, mais Scribe est leur première tentative de modèle autonome de détection de la parole. Lors d'une discussion avec TechCrunch le mois dernier, le PDG Mati Staniszewski a révélé leurs plans pour renforcer leur technologie de détection de la parole.

"Nous voulons améliorer notre compréhension de ce que vous dites dans une conversation. Nous ne nous contentons plus de générer du contenu ; nous évoluons vers la compréhension et la transcription de la parole," a déclaré Staniszewski. "Beaucoup de gens pensent que la conversion parole-texte est dépassée, mais pour de nombreuses langues, c'est encore assez approximatif. Nous pensons pouvoir faire mieux car nous avons des équipes internes pour étiqueter les données et nous fournir des retours rapides."

Scribe propose également des fonctionnalités intéressantes, comme une diarisation intelligente des locuteurs pour identifier qui parle, des horodatages au niveau des mots pour des sous-titres précis, et un étiquetage automatique des événements sonores comme les rires du public. De plus, ElevenLabs permet aux clients de transcrire directement le contenu vidéo pour ajouter des sous-titres ou des légendes dans leur studio.

Pour l'instant, Scribe ne fonctionne qu'avec des audios préenregistrés. Mais pas d'inquiétude, l'entreprise indique qu'elle travaille sur une version en temps réel à faible latence pour bientôt. Donc, il n'est pas encore prêt pour les transcriptions de réunions ou la prise de notes vocales.

ElevenLabs facture 0,40 $ par heure d'audio transcrit pour Scribe. C'est un prix compétitif, mais certains concurrents proposent des tarifs plus bas pour les transcriptions audio, avec quelques fonctionnalités différentes incluses.

Article connexe
Trump exempte les smartphones, les ordinateurs et les puces de la hausse des droits de douane Trump exempte les smartphones, les ordinateurs et les puces de la hausse des droits de douane L'administration Trump a accordé des exclusions pour les smartphones, les ordinateurs et divers appareils électroniques des récentes augmentations tarifaires, même lorsqu'ils sont importés de Chine, s
L'IA réimagine Michael Jackson dans le métavers grâce à des transformations numériques stupéfiantes L'IA réimagine Michael Jackson dans le métavers grâce à des transformations numériques stupéfiantes L'intelligence artificielle est en train de remodeler fondamentalement notre compréhension de la créativité, du divertissement et de l'héritage culturel. Cette exploration des interprétations de Micha
La formation atténue-t-elle les effets de délestage cognitif induits par l'IA ? La formation atténue-t-elle les effets de délestage cognitif induits par l'IA ? Un récent article d'investigation sur Unite.ai intitulé "ChatGPT Might Be Draining Your Brain : La dette cognitive à l'ère de l'IA" a mis en lumière une recherche du MIT. Le journaliste Alex McFarland
commentaires (29)
0/200
MiaDavis
MiaDavis 5 septembre 2025 02:30:33 UTC+02:00

스타트업이 이렇게 빠르게 성장하는 걸 보면 놀랍네요 ㅎㅎ 음성 분야는 경쟁이 심한데, ElevenLabs가 STT 시장에서도 성공할 수 있을까요? 투자금 1억 8천만 달러로 뭔가 특별한 기술을 만들겠죠? 🤔

LawrenceLopez
LawrenceLopez 30 août 2025 22:30:33 UTC+02:00

A ElevenLabs não para de inovar! Esse novo modelo de speech-to-text parece promissor, mas fico pensando... será que vai conseguir competir com gigantes como Google e OpenAI no mercado de transcrição? 🤔 Espero que ofereça algo único pra justificar o hype!

TimothyMartínez
TimothyMartínez 21 août 2025 15:01:20 UTC+02:00

Scribe sounds like a game-changer! I'm curious if it'll handle my thick accent as well as it claims. Excited to try it for podcast transcriptions! 😎

MatthewTaylor
MatthewTaylor 12 août 2025 23:00:59 UTC+02:00

Just saw ElevenLabs' Scribe model news—97% accuracy in English is wild! 😮 I'm curious how it'll handle my thick accent in meetings. Hope they drop that real-time version soon!

RogerRoberts
RogerRoberts 21 avril 2025 03:44:55 UTC+02:00

¡El Scribe de ElevenLabs es genial! Es increíble cómo han entrado en el mercado de voz a texto con un modelo tan sólido. Mi única queja es que a veces tiene problemas con acentos fuertes. Pero, para ser el primer intento, es bastante impresionante. ¡Sigan así, ElevenLabs! 🚀

RalphHill
RalphHill 20 avril 2025 22:36:44 UTC+02:00

O novo modelo Scribe do ElevenLabs é incrível! Eles passaram da geração de áudio para o reconhecimento de fala de forma tão suave. Testei e a precisão é boa, mas tropeça um pouco com sotaques fortes. Vale a pena conferir se você gosta de IA! 😊

Retour en haut
OR