Heim
Der CEO von ElevenLabs prognostiziert, dass Audio-Tools mit künstlicher Intelligenz zu Massenware werden

Mati Staniszewski, CEO und Mitbegründer des KI-Audio-Unternehmens ElevenLabs, gab kürzlich eine aufschlussreiche Erklärung für ein Unternehmen ab, das sich der Entwicklung von KI-Modellen widmet: Er glaubt, dass diese Modelle letztendlich zu einer Massenware werden.
Er teilte diese Sichtweise während einer Diskussion über die Zukunft von KI-Audio auf der TechCrunch Disrupt 2025-Konferenz am Dienstag und skizzierte dabei sowohl seine kurzfristigen als auch seine langfristigen Aussichten für diesen Bereich.
Staniszewski merkte an, dass das Forschungsteam seines Unternehmens wichtige Herausforderungen in der Modellarchitektur erfolgreich bewältigt habe und dass dieser Fokus auf der Entwicklung von Kernmodellen auch in den nächsten ein bis zwei Jahren Priorität haben werde.
„Die Technologie wird sich langfristig – in den nächsten Jahren – zu einer Massenware entwickeln“, prognostizierte Staniszewski. „Auch wenn bei bestimmten Stimmen oder Sprachen weiterhin Unterschiede bestehen, wird sich der allgemeine Abstand bei den Kernfunktionen deutlich verringern.“
Auf die Frage, warum ElevenLabs sich auf die Modellentwicklung konzentrieren würde, wenn diese doch irgendwann zur Massenware werden würde, erklärte Staniszewski, dass sie derzeit „den bedeutendsten Wettbewerbsvorteil und den größten verfügbaren Fortschritt“ darstellten.
Er verwies auf das anhaltende Problem der mangelnden Qualität und Natürlichkeit von KI-Stimmen oder -Interaktionen als ein Problem, für das noch eine Lösung gefunden werden muss.
„Der einzige Weg, dies derzeit zu lösen, ist ... die Entwicklung der Modelle im eigenen Haus. Langfristig werden sich auch andere Akteure dieser Herausforderung stellen“, erklärte Staniszewski.
Er fügte hinzu, dass Nutzer für zuverlässige, skalierbare Anwendungen wahrscheinlich weiterhin spezielle Modelle einsetzen werden, die auf bestimmte Aufgaben zugeschnitten sind.
Mit Blick auf die Zukunft rechnet Staniszewski innerhalb der nächsten zwei Jahre mit einer Veränderung, da immer mehr Modelle multimodale oder fusionierte Architekturen verwenden werden.
„Das bedeutet, dass Sie Audio und Video gleichzeitig generieren oder Audio mit großen Sprachmodellen in einer Konversationsschnittstelle kombinieren können“, sagte er und verwies auf Googles Veo 3 als Beispiel dafür, was integrierte Modelle leisten können.
Der Gründer gab bekannt, dass ElevenLabs Partnerschaften anstrebt und Open-Source-Technologien erforscht, um seine Audiospezialisierung mit den Stärken anderer KI-Modelle zu verbinden.
Die Strategie des Unternehmens bestehe darin, sowohl in die Entwicklung grundlegender Modelle als auch in praktische Anwendungen zu investieren, um dauerhaften Wert zu schaffen.
„Genauso wie die Synergie zwischen Software und Hardware für Apple revolutionär war, glauben wir, dass die Kombination aus Produktdesign und KI die nächste Generation transformativer Anwendungsfälle definieren wird“, schloss er.
Verwandter Artikel
Barry Diller: Das Vertrauen in Sam Altman spielt keine Rolle, da die allgemeine künstliche Intelligenz (AGI) immer näher rückt
Barry Diller, der milliardenschwere Medienmogul, hält OpenAI-CEO Sam Altman nicht für unglaubwürdig, obwohl jüngste Berichte das Gegenteil nahelegen. Bei seiner Rede auf der „Future of Everything“-Kon
YouTube weitet die KI-basierte Deepfake-Erkennung auf Politiker, Regierungsvertreter und Journalisten aus
Am Dienstag gab YouTube bekannt, dass es seine Deepfake-Erkennungstechnologie auf eine ausgewählte Gruppe von Regierungsbeamten, politischen Kandidaten und Journalisten ausweiten wird. Das Tool identi
Der wahre Unterschied: Nicht das eine, sondern das andere
Manchmal sind Dinge nicht nur das eine, sondern auch das andere. Der Satz „Es ist nicht nur dies – es ist auch das“ ist in KI-generierten Texten so alltäglich geworden, dass er mittlerweile mehr als n
Empfehlungen zu verwandten Spezialthemen
Kommentare (0)

Mati Staniszewski, CEO und Mitbegründer des KI-Audio-Unternehmens ElevenLabs, gab kürzlich eine aufschlussreiche Erklärung für ein Unternehmen ab, das sich der Entwicklung von KI-Modellen widmet: Er glaubt, dass diese Modelle letztendlich zu einer Massenware werden.
Er teilte diese Sichtweise während einer Diskussion über die Zukunft von KI-Audio auf der TechCrunch Disrupt 2025-Konferenz am Dienstag und skizzierte dabei sowohl seine kurzfristigen als auch seine langfristigen Aussichten für diesen Bereich.
Staniszewski merkte an, dass das Forschungsteam seines Unternehmens wichtige Herausforderungen in der Modellarchitektur erfolgreich bewältigt habe und dass dieser Fokus auf der Entwicklung von Kernmodellen auch in den nächsten ein bis zwei Jahren Priorität haben werde.
„Die Technologie wird sich langfristig – in den nächsten Jahren – zu einer Massenware entwickeln“, prognostizierte Staniszewski. „Auch wenn bei bestimmten Stimmen oder Sprachen weiterhin Unterschiede bestehen, wird sich der allgemeine Abstand bei den Kernfunktionen deutlich verringern.“
Auf die Frage, warum ElevenLabs sich auf die Modellentwicklung konzentrieren würde, wenn diese doch irgendwann zur Massenware werden würde, erklärte Staniszewski, dass sie derzeit „den bedeutendsten Wettbewerbsvorteil und den größten verfügbaren Fortschritt“ darstellten.
Er verwies auf das anhaltende Problem der mangelnden Qualität und Natürlichkeit von KI-Stimmen oder -Interaktionen als ein Problem, für das noch eine Lösung gefunden werden muss.
„Der einzige Weg, dies derzeit zu lösen, ist ... die Entwicklung der Modelle im eigenen Haus. Langfristig werden sich auch andere Akteure dieser Herausforderung stellen“, erklärte Staniszewski.
Er fügte hinzu, dass Nutzer für zuverlässige, skalierbare Anwendungen wahrscheinlich weiterhin spezielle Modelle einsetzen werden, die auf bestimmte Aufgaben zugeschnitten sind.
Mit Blick auf die Zukunft rechnet Staniszewski innerhalb der nächsten zwei Jahre mit einer Veränderung, da immer mehr Modelle multimodale oder fusionierte Architekturen verwenden werden.
„Das bedeutet, dass Sie Audio und Video gleichzeitig generieren oder Audio mit großen Sprachmodellen in einer Konversationsschnittstelle kombinieren können“, sagte er und verwies auf Googles Veo 3 als Beispiel dafür, was integrierte Modelle leisten können.
Der Gründer gab bekannt, dass ElevenLabs Partnerschaften anstrebt und Open-Source-Technologien erforscht, um seine Audiospezialisierung mit den Stärken anderer KI-Modelle zu verbinden.
Die Strategie des Unternehmens bestehe darin, sowohl in die Entwicklung grundlegender Modelle als auch in praktische Anwendungen zu investieren, um dauerhaften Wert zu schaffen.
„Genauso wie die Synergie zwischen Software und Hardware für Apple revolutionär war, glauben wir, dass die Kombination aus Produktdesign und KI die nächste Generation transformativer Anwendungsfälle definieren wird“, schloss er.
Barry Diller: Das Vertrauen in Sam Altman spielt keine Rolle, da die allgemeine künstliche Intelligenz (AGI) immer näher rückt
Barry Diller, der milliardenschwere Medienmogul, hält OpenAI-CEO Sam Altman nicht für unglaubwürdig, obwohl jüngste Berichte das Gegenteil nahelegen. Bei seiner Rede auf der „Future of Everything“-Kon
YouTube weitet die KI-basierte Deepfake-Erkennung auf Politiker, Regierungsvertreter und Journalisten aus
Am Dienstag gab YouTube bekannt, dass es seine Deepfake-Erkennungstechnologie auf eine ausgewählte Gruppe von Regierungsbeamten, politischen Kandidaten und Journalisten ausweiten wird. Das Tool identi
Der wahre Unterschied: Nicht das eine, sondern das andere
Manchmal sind Dinge nicht nur das eine, sondern auch das andere. Der Satz „Es ist nicht nur dies – es ist auch das“ ist in KI-generierten Texten so alltäglich geworden, dass er mittlerweile mehr als n











