Phonic, una plataforma de IA de voz, asegura la inversión de Lux

Las voces generadas por AI han mejorado bastante, ¿sabes? Están a la altura para cosas como audiolibros, podcasts, leer artículos en voz alta e incluso soporte al cliente básico. Pero muchas empresas aún no están completamente convencidas de la fiabilidad de la tecnología de voz de AI para sus operaciones.
Ahí es donde entran Moin Nadeem y Nikhil Murthy, un par de graduados de MIT. Fundaron Phonic, una empresa que se dedica a mejorar la fiabilidad de las voces sintéticas mientras reduce el retraso. Estos chicos han sido amigos durante más de siete años, desde que se conocieron en MIT. Cuando lanzaron Phonic el año pasado, notaron un hueco en el mercado: nadie ofrecía realmente una solución completa de tecnología de voz.
"La AI de voz está en un punto en el que estás juntando diferentes piezas, como el reconocimiento automático de voz y la conversión de texto a voz, y luego añades algo de inteligencia," explicó Murthy a TechCrunch. "Pero cuando hablamos con clientes reales, nos dimos cuenta de que hay una escasez de soluciones que puedan manejar las cosas de manera fiable a gran escala."
Nadeem, quien trabajó anteriormente en MosaicML (que Databricks adquirió por la impresionante suma de $1.3 mil millones en 2023), señaló que muchas empresas en el sector de la AI de voz, como Vapi y Rounded, simplemente están combinando diferentes modelos de AI. Phonic, por otro lado, hace las cosas de manera diferente: entrenan sus modelos desde cero, todo internamente. Murthy considera que este enfoque tiene grandes ventajas.
"Cuando posees los modelos, realmente puedes incorporar características de fiabilidad sólidas directamente en los modelos mismos," dijo. "Si no controlas esa capa, solo estás intentando pegar piezas que no encajan bien."
Además, Murthy mencionó que la forma de hacer las cosas de Phonic les permite alojar y ejecutar sus modelos de manera rentable. Entrenan sus modelos con todo tipo de grabaciones, incluyendo habla con acentos y amortiguada, para asegurarse de que sean súper robustos.
En este momento, Phonic está trabajando con un grupo selecto de socios en las industrias de seguros y salud, pero se están preparando para un lanzamiento más amplio en unos meses. Nadeem dijo que pronto, cualquiera interesado podrá probar la tecnología de Phonic directamente desde su sitio web.
Phonic ha logrado recaudar $4 millones en financiación inicial, con Lux liderando la ronda y algunos nombres importantes como el cofundador de Replit, Amjad Masad, el cofundador de Hugging Face, Clem Delangue, el cofundador de Applied Intuition, Qasar Younis, y el fundador de Modal Labs, Erik Bernhardsson, aportando su granito de arena.
Grace Isford de Lux Capital dijo que se sintieron atraídos por el enfoque único de Phonic para entrenar modelos internamente. "Creemos que tanto Moin como Nikhil son tecnólogos increíbles," dijo. "Iniciaron un club de aprendizaje automático en MIT y han estado trabajando en entrenar modelos durante un tiempo. Su método de combinar difusión y modelos propietarios en el sector de la AI de voz es bastante innovador."
Artículo relacionado
ElevenLabs anuncia que BlackRock, Jamie Foxx y Eva Longoria se han convertido en nuevos inversores
ElevenLabs, la empresa de inteligencia artificial aplicada a la voz, ha dado a conocer nuevos inversores en su ronda de financiación de serie D, por valor de 500 millones de dólares, anunciada inicial
DeepL, conocida por la traducción de textos, se centra ahora en la traducción de voz
DeepL, una empresa de traducción conocida principalmente por sus herramientas de texto, ha lanzado hoy un paquete de traducción de voz a voz diseñado para situaciones como reuniones, conversaciones po
Mistral presenta un modelo de generación de voz de código abierto
La empresa francesa de IA Mistral presentó el jueves un nuevo modelo de código abierto de conversión de texto a voz, diseñado para asistentes de voz con IA y aplicaciones empresariales como la atenció
Recomendaciones de temas especiales relacionados
comentario (50)
0/500
AI音声がここまで自然になったのはすごい進歩だね😲 でもまだ多くの企業が信用に足るかどうか躊躇しているって紹介されてた通り、私も大事な顧客対応を全て任せるのはちょっと…と感じる。Phonicへの投資が実用性の向上につながるといいな。
AI voices are getting wild! Phonic’s tech sounds super promising for podcasts and support. Wonder how it stacks up against human voices in real-world chaos? 🤔
AI voices are getting wild! Phonic’s tech sounds super promising for podcasts and support. Excited to see where this investment takes them! 🎙️
Whoa, AI voices are getting so real! Phonic's tech sounds like it could make audiobooks way more immersive. Curious if they’ll tackle accents next—imagine a perfect British narrator for my favorite novels! 😄
Whoa, AI voices are getting wild! Phonic sounds like it’s killing it with this tech. I wonder if it’ll make audiobooks feel like a real person’s reading to me. 🤔 Excited to see where this goes!

Las voces generadas por AI han mejorado bastante, ¿sabes? Están a la altura para cosas como audiolibros, podcasts, leer artículos en voz alta e incluso soporte al cliente básico. Pero muchas empresas aún no están completamente convencidas de la fiabilidad de la tecnología de voz de AI para sus operaciones.
Ahí es donde entran Moin Nadeem y Nikhil Murthy, un par de graduados de MIT. Fundaron Phonic, una empresa que se dedica a mejorar la fiabilidad de las voces sintéticas mientras reduce el retraso. Estos chicos han sido amigos durante más de siete años, desde que se conocieron en MIT. Cuando lanzaron Phonic el año pasado, notaron un hueco en el mercado: nadie ofrecía realmente una solución completa de tecnología de voz.
"La AI de voz está en un punto en el que estás juntando diferentes piezas, como el reconocimiento automático de voz y la conversión de texto a voz, y luego añades algo de inteligencia," explicó Murthy a TechCrunch. "Pero cuando hablamos con clientes reales, nos dimos cuenta de que hay una escasez de soluciones que puedan manejar las cosas de manera fiable a gran escala."
Nadeem, quien trabajó anteriormente en MosaicML (que Databricks adquirió por la impresionante suma de $1.3 mil millones en 2023), señaló que muchas empresas en el sector de la AI de voz, como Vapi y Rounded, simplemente están combinando diferentes modelos de AI. Phonic, por otro lado, hace las cosas de manera diferente: entrenan sus modelos desde cero, todo internamente. Murthy considera que este enfoque tiene grandes ventajas.
"Cuando posees los modelos, realmente puedes incorporar características de fiabilidad sólidas directamente en los modelos mismos," dijo. "Si no controlas esa capa, solo estás intentando pegar piezas que no encajan bien."
Además, Murthy mencionó que la forma de hacer las cosas de Phonic les permite alojar y ejecutar sus modelos de manera rentable. Entrenan sus modelos con todo tipo de grabaciones, incluyendo habla con acentos y amortiguada, para asegurarse de que sean súper robustos.
En este momento, Phonic está trabajando con un grupo selecto de socios en las industrias de seguros y salud, pero se están preparando para un lanzamiento más amplio en unos meses. Nadeem dijo que pronto, cualquiera interesado podrá probar la tecnología de Phonic directamente desde su sitio web.
Phonic ha logrado recaudar $4 millones en financiación inicial, con Lux liderando la ronda y algunos nombres importantes como el cofundador de Replit, Amjad Masad, el cofundador de Hugging Face, Clem Delangue, el cofundador de Applied Intuition, Qasar Younis, y el fundador de Modal Labs, Erik Bernhardsson, aportando su granito de arena.
Grace Isford de Lux Capital dijo que se sintieron atraídos por el enfoque único de Phonic para entrenar modelos internamente. "Creemos que tanto Moin como Nikhil son tecnólogos increíbles," dijo. "Iniciaron un club de aprendizaje automático en MIT y han estado trabajando en entrenar modelos durante un tiempo. Su método de combinar difusión y modelos propietarios en el sector de la AI de voz es bastante innovador."
ElevenLabs anuncia que BlackRock, Jamie Foxx y Eva Longoria se han convertido en nuevos inversores
ElevenLabs, la empresa de inteligencia artificial aplicada a la voz, ha dado a conocer nuevos inversores en su ronda de financiación de serie D, por valor de 500 millones de dólares, anunciada inicial
DeepL, conocida por la traducción de textos, se centra ahora en la traducción de voz
DeepL, una empresa de traducción conocida principalmente por sus herramientas de texto, ha lanzado hoy un paquete de traducción de voz a voz diseñado para situaciones como reuniones, conversaciones po
Mistral presenta un modelo de generación de voz de código abierto
La empresa francesa de IA Mistral presentó el jueves un nuevo modelo de código abierto de conversión de texto a voz, diseñado para asistentes de voz con IA y aplicaciones empresariales como la atenció
AI音声がここまで自然になったのはすごい進歩だね😲 でもまだ多くの企業が信用に足るかどうか躊躇しているって紹介されてた通り、私も大事な顧客対応を全て任せるのはちょっと…と感じる。Phonicへの投資が実用性の向上につながるといいな。
AI voices are getting wild! Phonic’s tech sounds super promising for podcasts and support. Wonder how it stacks up against human voices in real-world chaos? 🤔
AI voices are getting wild! Phonic’s tech sounds super promising for podcasts and support. Excited to see where this investment takes them! 🎙️
Whoa, AI voices are getting so real! Phonic's tech sounds like it could make audiobooks way more immersive. Curious if they’ll tackle accents next—imagine a perfect British narrator for my favorite novels! 😄
Whoa, AI voices are getting wild! Phonic sounds like it’s killing it with this tech. I wonder if it’ll make audiobooks feel like a real person’s reading to me. 🤔 Excited to see where this goes!





Hogar






