Phonic, eine Sprach -KI -Plattform, sichert Investitionen von Lux

KI-generierte Stimmen sind ziemlich verdammt gut geworden, weißt du? Sie sind auf dem Niveau für Dinge wie Hörbücher, Podcasts, das Vorlesen von Artikeln und sogar grundlegenden Kundensupport. Aber viele Unternehmen sind immer noch nicht völlig von der Zuverlässigkeit der KI-Stimmtechnologie für ihre Abläufe überzeugt.
Hier kommen Moin Nadeem und Nikhil Murthy ins Spiel, zwei MIT-Absolventen. Sie haben Phonic gegründet, ein Unternehmen, das sich ganz darauf konzentriert, die Zuverlässigkeit synthetischer Stimmen zu erhöhen und gleichzeitig die Verzögerung zu reduzieren. Diese Jungs sind seit über sieben Jahren befreundet, seit sie sich am MIT kennengelernt haben. Als sie letztes Jahr Phonic starteten, stellten sie eine Marktlücke fest – niemand bot wirklich eine umfassende Stimmtechnologie-Lösung an.
„KI-Stimmen sind an einem Punkt, an dem man verschiedene Teile zusammennäht, wie automatische Spracherkennung und Text-to-Speech, und dann etwas Intelligenz hinzufügt,“ erklärte Murthy gegenüber TechCrunch. „Aber als wir mit echten Kunden sprachen, stellten wir fest, dass es an Lösungen mangelt, die Dinge zuverlässig in großem Maßstab handhaben können.“
Nadeem, der früher bei MosaicML arbeitete (das 2023 von Databricks für satte 1,3 Milliarden Dollar übernommen wurde), wies darauf hin, dass viele Unternehmen im Bereich KI-Stimmen, wie Vapi und Rounded, einfach verschiedene KI-Modelle zusammenflicken. Phonic hingegen macht es anders – sie trainieren ihre Modelle von Anfang bis Ende komplett selbst. Murthy glaubt, dass dieser Ansatz große Vorteile hat.
„Wenn du die Modelle besitzt, kannst du wirklich solide Zuverlässigkeitsmerkmale direkt in die Modelle einbauen,“ sagte er. „Wenn du diese Ebene nicht kontrollierst, versuchst du nur, Teile zusammenzukleben, die nicht wirklich gut zusammenpassen.“
Außerdem erwähnte Murthy, dass Phonics Vorgehensweise es ihnen ermöglicht, ihre Modelle kosteneffizient zu hosten und zu betreiben. Sie trainieren ihre Modelle mit allerlei Aufnahmen, einschließlich akzentuierter und gedämpfter Sprache, um sicherzustellen, dass sie super robust sind.
Derzeit arbeitet Phonic mit einer ausgewählten Gruppe von Partnern in der Versicherungs- und Gesundheitsbranche zusammen, bereitet sich aber auf einen breiteren Start in ein paar Monaten vor. Nadeem sagte, dass bald jeder Interessierte die Technologie von Phonic direkt auf ihrer Website ausprobieren kann.
Phonic hat es geschafft, 4 Millionen Dollar in einer Seed-Finanzierungsrunde einzusammeln, angeführt von Lux, mit einigen großen Namen wie Replit-Mitgründer Amjad Masad, Hugging Face-Mitgründer Clem Delangue, Applied Intuition-Mitgründer Qasar Younis und Modal Labs-Gründer Erik Bernhardsson, die sich beteiligt haben.
Grace Isford von Lux Capital sagte, dass sie von Phonics einzigartigem Ansatz, Modelle intern zu trainieren, angezogen wurden. „Wir denken, dass sowohl Moin als auch Nikhil unglaubliche Technologen sind,“ sagte sie. „Sie haben am MIT einen Machine-Learning-Club gegründet und arbeiten schon seit einiger Zeit am Training von Modellen. Ihre Methode, Diffusion und proprietäre Modelle im KI-Stimmenbereich zu kombinieren, ist ziemlich innovativ.“
Verwandter Artikel
ElevenLabs gibt BlackRock, Jamie Foxx und Eva Longoria als neue Investoren bekannt
Das Sprach-KI-Unternehmen ElevenLabs hat weitere Investoren für seine im Februar angekündigte Serie-D-Finanzierungsrunde in Höhe von 500 Millionen US-Dollar bekannt gegeben. Dazu gehören institutionel
DeepL, bekannt für seine Textübersetzungen, widmet sich nun der Sprachübersetzung
DeepL, ein Übersetzungsunternehmen, das vor allem für seine textbasierten Tools bekannt ist, hat heute eine Suite für Sprach-zu-Sprach-Übersetzungen auf den Markt gebracht, die über maßgeschneiderte A
Mistral stellt ein Open-Source-Modell zur Sprachgenerierung vor
Das französische KI-Unternehmen Mistral hat am Donnerstag ein neues Open-Source-Text-to-Speech-Modell vorgestellt, das für Sprach-KI-Assistenten und Unternehmensanwendungen wie den Kundensupport konzi
Empfehlungen zu verwandten Spezialthemen
Kommentare (50)
AI音声がここまで自然になったのはすごい進歩だね😲 でもまだ多くの企業が信用に足るかどうか躊躇しているって紹介されてた通り、私も大事な顧客対応を全て任せるのはちょっと…と感じる。Phonicへの投資が実用性の向上につながるといいな。
AI voices are getting wild! Phonic’s tech sounds super promising for podcasts and support. Wonder how it stacks up against human voices in real-world chaos? 🤔
AI voices are getting wild! Phonic’s tech sounds super promising for podcasts and support. Excited to see where this investment takes them! 🎙️
Whoa, AI voices are getting so real! Phonic's tech sounds like it could make audiobooks way more immersive. Curious if they’ll tackle accents next—imagine a perfect British narrator for my favorite novels! 😄
Whoa, AI voices are getting wild! Phonic sounds like it’s killing it with this tech. I wonder if it’ll make audiobooks feel like a real person’s reading to me. 🤔 Excited to see where this goes!

KI-generierte Stimmen sind ziemlich verdammt gut geworden, weißt du? Sie sind auf dem Niveau für Dinge wie Hörbücher, Podcasts, das Vorlesen von Artikeln und sogar grundlegenden Kundensupport. Aber viele Unternehmen sind immer noch nicht völlig von der Zuverlässigkeit der KI-Stimmtechnologie für ihre Abläufe überzeugt.
Hier kommen Moin Nadeem und Nikhil Murthy ins Spiel, zwei MIT-Absolventen. Sie haben Phonic gegründet, ein Unternehmen, das sich ganz darauf konzentriert, die Zuverlässigkeit synthetischer Stimmen zu erhöhen und gleichzeitig die Verzögerung zu reduzieren. Diese Jungs sind seit über sieben Jahren befreundet, seit sie sich am MIT kennengelernt haben. Als sie letztes Jahr Phonic starteten, stellten sie eine Marktlücke fest – niemand bot wirklich eine umfassende Stimmtechnologie-Lösung an.
„KI-Stimmen sind an einem Punkt, an dem man verschiedene Teile zusammennäht, wie automatische Spracherkennung und Text-to-Speech, und dann etwas Intelligenz hinzufügt,“ erklärte Murthy gegenüber TechCrunch. „Aber als wir mit echten Kunden sprachen, stellten wir fest, dass es an Lösungen mangelt, die Dinge zuverlässig in großem Maßstab handhaben können.“
Nadeem, der früher bei MosaicML arbeitete (das 2023 von Databricks für satte 1,3 Milliarden Dollar übernommen wurde), wies darauf hin, dass viele Unternehmen im Bereich KI-Stimmen, wie Vapi und Rounded, einfach verschiedene KI-Modelle zusammenflicken. Phonic hingegen macht es anders – sie trainieren ihre Modelle von Anfang bis Ende komplett selbst. Murthy glaubt, dass dieser Ansatz große Vorteile hat.
„Wenn du die Modelle besitzt, kannst du wirklich solide Zuverlässigkeitsmerkmale direkt in die Modelle einbauen,“ sagte er. „Wenn du diese Ebene nicht kontrollierst, versuchst du nur, Teile zusammenzukleben, die nicht wirklich gut zusammenpassen.“
Außerdem erwähnte Murthy, dass Phonics Vorgehensweise es ihnen ermöglicht, ihre Modelle kosteneffizient zu hosten und zu betreiben. Sie trainieren ihre Modelle mit allerlei Aufnahmen, einschließlich akzentuierter und gedämpfter Sprache, um sicherzustellen, dass sie super robust sind.
Derzeit arbeitet Phonic mit einer ausgewählten Gruppe von Partnern in der Versicherungs- und Gesundheitsbranche zusammen, bereitet sich aber auf einen breiteren Start in ein paar Monaten vor. Nadeem sagte, dass bald jeder Interessierte die Technologie von Phonic direkt auf ihrer Website ausprobieren kann.
Phonic hat es geschafft, 4 Millionen Dollar in einer Seed-Finanzierungsrunde einzusammeln, angeführt von Lux, mit einigen großen Namen wie Replit-Mitgründer Amjad Masad, Hugging Face-Mitgründer Clem Delangue, Applied Intuition-Mitgründer Qasar Younis und Modal Labs-Gründer Erik Bernhardsson, die sich beteiligt haben.
Grace Isford von Lux Capital sagte, dass sie von Phonics einzigartigem Ansatz, Modelle intern zu trainieren, angezogen wurden. „Wir denken, dass sowohl Moin als auch Nikhil unglaubliche Technologen sind,“ sagte sie. „Sie haben am MIT einen Machine-Learning-Club gegründet und arbeiten schon seit einiger Zeit am Training von Modellen. Ihre Methode, Diffusion und proprietäre Modelle im KI-Stimmenbereich zu kombinieren, ist ziemlich innovativ.“
ElevenLabs gibt BlackRock, Jamie Foxx und Eva Longoria als neue Investoren bekannt
Das Sprach-KI-Unternehmen ElevenLabs hat weitere Investoren für seine im Februar angekündigte Serie-D-Finanzierungsrunde in Höhe von 500 Millionen US-Dollar bekannt gegeben. Dazu gehören institutionel
DeepL, bekannt für seine Textübersetzungen, widmet sich nun der Sprachübersetzung
DeepL, ein Übersetzungsunternehmen, das vor allem für seine textbasierten Tools bekannt ist, hat heute eine Suite für Sprach-zu-Sprach-Übersetzungen auf den Markt gebracht, die über maßgeschneiderte A
Mistral stellt ein Open-Source-Modell zur Sprachgenerierung vor
Das französische KI-Unternehmen Mistral hat am Donnerstag ein neues Open-Source-Text-to-Speech-Modell vorgestellt, das für Sprach-KI-Assistenten und Unternehmensanwendungen wie den Kundensupport konzi
AI音声がここまで自然になったのはすごい進歩だね😲 でもまだ多くの企業が信用に足るかどうか躊躇しているって紹介されてた通り、私も大事な顧客対応を全て任せるのはちょっと…と感じる。Phonicへの投資が実用性の向上につながるといいな。
AI voices are getting wild! Phonic’s tech sounds super promising for podcasts and support. Wonder how it stacks up against human voices in real-world chaos? 🤔
AI voices are getting wild! Phonic’s tech sounds super promising for podcasts and support. Excited to see where this investment takes them! 🎙️
Whoa, AI voices are getting so real! Phonic's tech sounds like it could make audiobooks way more immersive. Curious if they’ll tackle accents next—imagine a perfect British narrator for my favorite novels! 😄
Whoa, AI voices are getting wild! Phonic sounds like it’s killing it with this tech. I wonder if it’ll make audiobooks feel like a real person’s reading to me. 🤔 Excited to see where this goes!





Heim






