Phonic, uma plataforma de voz de voz, protege o investimento de Lux

Vozes geradas por IA têm ficado muito boas, sabia? Elas estão à altura para coisas como audiolivros, podcasts, leitura de artigos em voz alta e até suporte básico ao cliente. Mas muitas empresas ainda não estão totalmente convencidas da confiabilidade da tecnologia de voz de IA para suas operações.
É aí que entram Moin Nadeem e Nikhil Murthy, dois formados pelo MIT. Eles fundaram a Phonic, uma empresa totalmente focada em aumentar a confiabilidade de vozes sintéticas enquanto reduz o atraso. Esses caras são amigos há mais de sete anos, desde que se conheceram no MIT. Quando lançaram a Phonic no último ano, eles perceberam uma lacuna no mercado — ninguém estava realmente oferecendo uma solução completa de tecnologia de voz.
"A IA de voz está em um ponto em que você junta diferentes partes, como reconhecimento de voz automático e conversão de texto em fala, e depois adiciona um pouco de inteligência," explicou Murthy ao TechCrunch. "Mas quando conversamos com clientes reais, percebemos que há uma escassez de soluções que possam lidar com as coisas de forma confiável em grande escala."
Nadeem, que costumava trabalhar na MosaicML (que a Databricks adquiriu por impressionantes $1,3 bilhão em 2023), apontou que muitas empresas no setor de IA de voz, como Vapi e Rounded, estão apenas juntando diferentes modelos de IA. A Phonic, por outro lado, faz as coisas de forma diferente — eles treinam seus modelos do início ao fim, tudo internamente. Murthy acredita que essa abordagem traz grandes vantagens.
"Quando você possui os modelos, pode realmente incorporar recursos sólidos de confiabilidade diretamente nos próprios modelos," ele disse. "Se você não controla essa camada, está apenas tentando colar pedaços que não se encaixam muito bem."
Além disso, Murthy mencionou que a forma da Phonic de fazer as coisas permite que eles hospedem e executem seus modelos de maneira econômica. Eles treinam seus modelos com todos os tipos de gravações, incluindo fala com sotaque e abafada, para garantir que sejam extremamente robustos.
No momento, a Phonic está trabalhando com um grupo seleto de parceiros nas indústrias de seguros e saúde, mas eles estão se preparando para um lançamento mais amplo em alguns meses. Nadeem disse que, em breve, qualquer pessoa interessada poderá experimentar a tecnologia da Phonic diretamente no site deles.
A Phonic conseguiu arrecadar $4 milhões em financiamento inicial, com a Lux liderando a rodada e alguns grandes nomes como o cofundador da Replit, Amjad Masad, o cofundador da Hugging Face, Clem Delangue, o cofundador da Applied Intuition, Qasar Younis, e o fundador da Modal Labs, Erik Bernhardsson, contribuindo.
Grace Isford, da Lux Capital, disse que eles foram atraídos pela abordagem única da Phonic de treinar modelos internamente. "Achamos que tanto Moin quanto Nikhil são tecnólogos incríveis," ela disse. "Eles iniciaram um clube de aprendizado de máquina no MIT e têm trabalhado no treinamento de modelos há um tempo. O método deles de misturar difusão e modelos proprietários no setor de IA de voz é bastante inovador."
Artigo relacionado
A ElevenLabs anuncia a BlackRock, Jamie Foxx e Eva Longoria como novos investidores
A ElevenLabs, empresa especializada em IA de voz, revelou novos investidores em sua rodada de financiamento da Série D, no valor de US$ 500 milhões, anunciada originalmente em fevereiro. Entre eles es
O DeepL, conhecido pela tradução de textos, agora se volta para a tradução de voz
A DeepL, empresa de tradução mais conhecida por suas ferramentas baseadas em texto, lançou hoje um pacote de tradução de voz para voz voltado para cenários como reuniões, conversas em dispositivos móv
A Mistral lança um modelo de geração de fala de código aberto
A empresa francesa de IA Mistral revelou na quinta-feira um novo modelo de conversão de texto em fala de código aberto, projetado para assistentes de voz com IA e aplicações empresariais, como atendim
Recomendações de tópicos especiais relacionados
Comentários (50)
AI音声がここまで自然になったのはすごい進歩だね😲 でもまだ多くの企業が信用に足るかどうか躊躇しているって紹介されてた通り、私も大事な顧客対応を全て任せるのはちょっと…と感じる。Phonicへの投資が実用性の向上につながるといいな。
AI voices are getting wild! Phonic’s tech sounds super promising for podcasts and support. Wonder how it stacks up against human voices in real-world chaos? 🤔
AI voices are getting wild! Phonic’s tech sounds super promising for podcasts and support. Excited to see where this investment takes them! 🎙️
Whoa, AI voices are getting so real! Phonic's tech sounds like it could make audiobooks way more immersive. Curious if they’ll tackle accents next—imagine a perfect British narrator for my favorite novels! 😄
Whoa, AI voices are getting wild! Phonic sounds like it’s killing it with this tech. I wonder if it’ll make audiobooks feel like a real person’s reading to me. 🤔 Excited to see where this goes!

Vozes geradas por IA têm ficado muito boas, sabia? Elas estão à altura para coisas como audiolivros, podcasts, leitura de artigos em voz alta e até suporte básico ao cliente. Mas muitas empresas ainda não estão totalmente convencidas da confiabilidade da tecnologia de voz de IA para suas operações.
É aí que entram Moin Nadeem e Nikhil Murthy, dois formados pelo MIT. Eles fundaram a Phonic, uma empresa totalmente focada em aumentar a confiabilidade de vozes sintéticas enquanto reduz o atraso. Esses caras são amigos há mais de sete anos, desde que se conheceram no MIT. Quando lançaram a Phonic no último ano, eles perceberam uma lacuna no mercado — ninguém estava realmente oferecendo uma solução completa de tecnologia de voz.
"A IA de voz está em um ponto em que você junta diferentes partes, como reconhecimento de voz automático e conversão de texto em fala, e depois adiciona um pouco de inteligência," explicou Murthy ao TechCrunch. "Mas quando conversamos com clientes reais, percebemos que há uma escassez de soluções que possam lidar com as coisas de forma confiável em grande escala."
Nadeem, que costumava trabalhar na MosaicML (que a Databricks adquiriu por impressionantes $1,3 bilhão em 2023), apontou que muitas empresas no setor de IA de voz, como Vapi e Rounded, estão apenas juntando diferentes modelos de IA. A Phonic, por outro lado, faz as coisas de forma diferente — eles treinam seus modelos do início ao fim, tudo internamente. Murthy acredita que essa abordagem traz grandes vantagens.
"Quando você possui os modelos, pode realmente incorporar recursos sólidos de confiabilidade diretamente nos próprios modelos," ele disse. "Se você não controla essa camada, está apenas tentando colar pedaços que não se encaixam muito bem."
Além disso, Murthy mencionou que a forma da Phonic de fazer as coisas permite que eles hospedem e executem seus modelos de maneira econômica. Eles treinam seus modelos com todos os tipos de gravações, incluindo fala com sotaque e abafada, para garantir que sejam extremamente robustos.
No momento, a Phonic está trabalhando com um grupo seleto de parceiros nas indústrias de seguros e saúde, mas eles estão se preparando para um lançamento mais amplo em alguns meses. Nadeem disse que, em breve, qualquer pessoa interessada poderá experimentar a tecnologia da Phonic diretamente no site deles.
A Phonic conseguiu arrecadar $4 milhões em financiamento inicial, com a Lux liderando a rodada e alguns grandes nomes como o cofundador da Replit, Amjad Masad, o cofundador da Hugging Face, Clem Delangue, o cofundador da Applied Intuition, Qasar Younis, e o fundador da Modal Labs, Erik Bernhardsson, contribuindo.
Grace Isford, da Lux Capital, disse que eles foram atraídos pela abordagem única da Phonic de treinar modelos internamente. "Achamos que tanto Moin quanto Nikhil são tecnólogos incríveis," ela disse. "Eles iniciaram um clube de aprendizado de máquina no MIT e têm trabalhado no treinamento de modelos há um tempo. O método deles de misturar difusão e modelos proprietários no setor de IA de voz é bastante inovador."
A ElevenLabs anuncia a BlackRock, Jamie Foxx e Eva Longoria como novos investidores
A ElevenLabs, empresa especializada em IA de voz, revelou novos investidores em sua rodada de financiamento da Série D, no valor de US$ 500 milhões, anunciada originalmente em fevereiro. Entre eles es
O DeepL, conhecido pela tradução de textos, agora se volta para a tradução de voz
A DeepL, empresa de tradução mais conhecida por suas ferramentas baseadas em texto, lançou hoje um pacote de tradução de voz para voz voltado para cenários como reuniões, conversas em dispositivos móv
A Mistral lança um modelo de geração de fala de código aberto
A empresa francesa de IA Mistral revelou na quinta-feira um novo modelo de conversão de texto em fala de código aberto, projetado para assistentes de voz com IA e aplicações empresariais, como atendim
AI音声がここまで自然になったのはすごい進歩だね😲 でもまだ多くの企業が信用に足るかどうか躊躇しているって紹介されてた通り、私も大事な顧客対応を全て任せるのはちょっと…と感じる。Phonicへの投資が実用性の向上につながるといいな。
AI voices are getting wild! Phonic’s tech sounds super promising for podcasts and support. Wonder how it stacks up against human voices in real-world chaos? 🤔
AI voices are getting wild! Phonic’s tech sounds super promising for podcasts and support. Excited to see where this investment takes them! 🎙️
Whoa, AI voices are getting so real! Phonic's tech sounds like it could make audiobooks way more immersive. Curious if they’ll tackle accents next—imagine a perfect British narrator for my favorite novels! 😄
Whoa, AI voices are getting wild! Phonic sounds like it’s killing it with this tech. I wonder if it’ll make audiobooks feel like a real person’s reading to me. 🤔 Excited to see where this goes!





Lar






