Speechify 通过语音输入和虚拟助手增强 Chrome 浏览器扩展功能
Speechify 主要是一款用于收听文章、PDF 和文档的工具。现在,该公司增强了 Chrome 浏览器扩展的语音检测功能,推出了语音输入和会话语音助手来回答你的问题等功能。
在语音识别模型质量显著提高的推动下,语音检测工具在过去的一年中迅速发展。Speechify 顺势推出了自己的听写工具,最初支持英语。与其他解决方案类似,Speechify 的语音输入会自动纠正错误并删除填充词。
在一天多的短暂测试中,我发现 Speechify 的工具还有很大的改进空间。例如,它在 Gmail 和 Google Docs 中运行良好,但在 WordPress 等网站上,我遇到了激活语音听写功能和实现可靠性能的问题。该公司表示,它正在逐步优化流行网站的工具。

图片来源:Speechify 在准确性方面,该工具的单词错误率高于 Wispr Flow、Willow 和 Monologue 等竞争产品。Speechify 指出,其模型会随着使用频率的增加而改进,从而逐渐降低错误率。
这家初创公司还推出了一个对话式语音助手,可以从浏览器的侧边栏访问。您可以就正在浏览的网页向它提问,例如 "三个要点是什么?"或 "用更简单的语言解释一下"。
虽然 ChatGPT 和 Gemini 提供了对话语音模式,但 Speechify 认为这些功能在这些平台中是次要的。相比之下,这家初创公司将语音交互定位为自己工具的核心、前沿和中心体验。
"我们相信,当用户打开 ChatGPT 或 Gemini 应用程序时,基于文本的聊天将始终是默认体验。这是他们的受众所期待的。语音交互可能仍将是次要功能,对这些提供商来说往往是事后的想法。公司首席业务官 Rohan Pavuluri 在给 TechCrunch 的一封电子邮件中解释说:"我们在 Speechify 多年的经验告诉我们,包括我们自己的用户在内,市场上有很大一部分人喜欢将语音作为他们与人工智能交互时的主要默认模式。
Techcrunch 活动加入 Disrupt 2026 候选名单
确保您在 Disrupt 2026 候补名单上的位置,以便优先获得早鸟门票。过去的 Disrupt 阶段有来自 Google Cloud、Netflix、Microsoft、Box、Phia、a16z、ElevenLabs、Wayve、Hugging Face、Elad Gil 和 Vinod Khosla 的领导者--他们是 250 多位行业专家中的一部分,这些专家将主持 200 多场会议,旨在加速您的发展并增强您的竞争优势。您还将有机会与数百家在各个领域推动创新的初创企业进行交流。
加入 Disrupt 2026 候补名单
确保您在 Disrupt 2026 候补名单上的位置,以便优先获得早鸟门票。在过去的 Disrupt 阶段,谷歌云、Netflix、微软、Box、Phia、a16z、ElevenLabs、Wayve、Hugging Face、Elad Gil 和 Vinod Khosla 等公司的领导都曾参与其中,他们是 250 多位行业专家中的一员,他们将主持 200 多场会议,旨在加速您的发展并增强您的竞争优势。您还将有机会与数百家在各个领域推动创新的初创公司建立联系。
旧金山 2026 年 10 月 13-15 日 现在就报名目前的一个限制是,Speechify 的助手不兼容内置侧边栏助手的浏览器,如 OpenAI 的 Atlas、Perplexity 的 Comet 和 Dia。这家初创公司并不过分担心,因为它的扩展主要是为 Chrome 浏览器及其庞大的用户群设计的。
Speechify 计划分阶段在其所有桌面和移动应用中集成语音输入和语音助手功能。
该公司还计划开发能够自主执行任务的人工智能代理。虽然没有透露完整的路线图,但举出的一个例子是让代理打电话预约或等待客服。Truecaller 和 Cloacked 等其他公司也在追求类似的目标。
相关文章
Mistral 发布开源语音生成模型
法国人工智能公司Mistral于周四发布了一款新的开源文本转语音模型,该模型专为语音AI助手及客户支持等企业应用而设计。该模型使企业能够构建用于销售和客户互动的语音代理,从而使Mistral成为ElevenLabs、Deepgram和OpenAI的直接竞争对手。该模型名为Voxtral TTS,支持九种语言,包括英语、法语、德语、西班牙语、荷兰语、葡萄牙语、意大利语、印地语和阿拉伯语。“我们的客户
最佳AI语音输入应用:专家评测与排行榜
AI语音输入应用在相对较短的时间内取得了显著进步。长期以来,这类应用反应迟缓且容易出错,要求用户必须使用特定的口音并清晰地表达。随着大型语言模型(LLMs)和语音转文本技术的进步,这一状况已然改变。如今的系统不仅能更准确地识别语音,还能利用上下文正确排版文本。开发者已集成自动去除口头语、修正语无伦次以及管理标点符号等功能,生成的文本几乎无需编辑。鉴于目前可选方案众多,我们整理了一份当前最佳且最实用
尽管面临挑战,Wispr Flow 仍押注印度语音人工智能的未来
印度的数字生态系统与语音技术紧密相连,从语音备忘录到多语言消息传递皆是如此。鉴于该国语言多样性、语言切换的惯例以及各异的变现潜力,将这些普遍存在的习惯转化为可扩展的AI业务面临着巨大挑战。Wispr Flow正致力于把握这一复杂但前景广阔的机遇。这家总部位于旧金山湾区的初创公司专注于开发人工智能驱动的语音输入软件,其报告显示印度目前已成为其增长最快的市场。尽管该地区基于语音的人工智能产品仍处于早期
相关专题推荐
评论 (1)
0/500
Endlich mal eine sinnvolle Erweiterung für Chrome! Die Sprachsteuerung ist genau das, was mir im Alltag fehlt, besonders wenn ich müde bin und nicht tippen möchte. Hoffentlich wird die KI-Assistentin nicht zu aufdringlich und sammelt keine sensiblen Daten. Das wäre ein echter Dealbreaker. Mal sehen, wie sich das im Vergleich zu anderen Tools schlägt. 😅
Speechify 主要是一款用于收听文章、PDF 和文档的工具。现在,该公司增强了 Chrome 浏览器扩展的语音检测功能,推出了语音输入和会话语音助手来回答你的问题等功能。
在语音识别模型质量显著提高的推动下,语音检测工具在过去的一年中迅速发展。Speechify 顺势推出了自己的听写工具,最初支持英语。与其他解决方案类似,Speechify 的语音输入会自动纠正错误并删除填充词。
在一天多的短暂测试中,我发现 Speechify 的工具还有很大的改进空间。例如,它在 Gmail 和 Google Docs 中运行良好,但在 WordPress 等网站上,我遇到了激活语音听写功能和实现可靠性能的问题。该公司表示,它正在逐步优化流行网站的工具。

在准确性方面,该工具的单词错误率高于 Wispr Flow、Willow 和 Monologue 等竞争产品。Speechify 指出,其模型会随着使用频率的增加而改进,从而逐渐降低错误率。
这家初创公司还推出了一个对话式语音助手,可以从浏览器的侧边栏访问。您可以就正在浏览的网页向它提问,例如 "三个要点是什么?"或 "用更简单的语言解释一下"。
虽然 ChatGPT 和 Gemini 提供了对话语音模式,但 Speechify 认为这些功能在这些平台中是次要的。相比之下,这家初创公司将语音交互定位为自己工具的核心、前沿和中心体验。
"我们相信,当用户打开 ChatGPT 或 Gemini 应用程序时,基于文本的聊天将始终是默认体验。这是他们的受众所期待的。语音交互可能仍将是次要功能,对这些提供商来说往往是事后的想法。公司首席业务官 Rohan Pavuluri 在给 TechCrunch 的一封电子邮件中解释说:"我们在 Speechify 多年的经验告诉我们,包括我们自己的用户在内,市场上有很大一部分人喜欢将语音作为他们与人工智能交互时的主要默认模式。
Techcrunch 活动加入 Disrupt 2026 候选名单
确保您在 Disrupt 2026 候补名单上的位置,以便优先获得早鸟门票。过去的 Disrupt 阶段有来自 Google Cloud、Netflix、Microsoft、Box、Phia、a16z、ElevenLabs、Wayve、Hugging Face、Elad Gil 和 Vinod Khosla 的领导者--他们是 250 多位行业专家中的一部分,这些专家将主持 200 多场会议,旨在加速您的发展并增强您的竞争优势。您还将有机会与数百家在各个领域推动创新的初创企业进行交流。
加入 Disrupt 2026 候补名单
确保您在 Disrupt 2026 候补名单上的位置,以便优先获得早鸟门票。在过去的 Disrupt 阶段,谷歌云、Netflix、微软、Box、Phia、a16z、ElevenLabs、Wayve、Hugging Face、Elad Gil 和 Vinod Khosla 等公司的领导都曾参与其中,他们是 250 多位行业专家中的一员,他们将主持 200 多场会议,旨在加速您的发展并增强您的竞争优势。您还将有机会与数百家在各个领域推动创新的初创公司建立联系。
旧金山 2026 年 10 月 13-15 日 现在就报名目前的一个限制是,Speechify 的助手不兼容内置侧边栏助手的浏览器,如 OpenAI 的 Atlas、Perplexity 的 Comet 和 Dia。这家初创公司并不过分担心,因为它的扩展主要是为 Chrome 浏览器及其庞大的用户群设计的。
Speechify 计划分阶段在其所有桌面和移动应用中集成语音输入和语音助手功能。
该公司还计划开发能够自主执行任务的人工智能代理。虽然没有透露完整的路线图,但举出的一个例子是让代理打电话预约或等待客服。Truecaller 和 Cloacked 等其他公司也在追求类似的目标。
Mistral 发布开源语音生成模型
法国人工智能公司Mistral于周四发布了一款新的开源文本转语音模型,该模型专为语音AI助手及客户支持等企业应用而设计。该模型使企业能够构建用于销售和客户互动的语音代理,从而使Mistral成为ElevenLabs、Deepgram和OpenAI的直接竞争对手。该模型名为Voxtral TTS,支持九种语言,包括英语、法语、德语、西班牙语、荷兰语、葡萄牙语、意大利语、印地语和阿拉伯语。“我们的客户
最佳AI语音输入应用:专家评测与排行榜
AI语音输入应用在相对较短的时间内取得了显著进步。长期以来,这类应用反应迟缓且容易出错,要求用户必须使用特定的口音并清晰地表达。随着大型语言模型(LLMs)和语音转文本技术的进步,这一状况已然改变。如今的系统不仅能更准确地识别语音,还能利用上下文正确排版文本。开发者已集成自动去除口头语、修正语无伦次以及管理标点符号等功能,生成的文本几乎无需编辑。鉴于目前可选方案众多,我们整理了一份当前最佳且最实用
尽管面临挑战,Wispr Flow 仍押注印度语音人工智能的未来
印度的数字生态系统与语音技术紧密相连,从语音备忘录到多语言消息传递皆是如此。鉴于该国语言多样性、语言切换的惯例以及各异的变现潜力,将这些普遍存在的习惯转化为可扩展的AI业务面临着巨大挑战。Wispr Flow正致力于把握这一复杂但前景广阔的机遇。这家总部位于旧金山湾区的初创公司专注于开发人工智能驱动的语音输入软件,其报告显示印度目前已成为其增长最快的市场。尽管该地区基于语音的人工智能产品仍处于早期
Endlich mal eine sinnvolle Erweiterung für Chrome! Die Sprachsteuerung ist genau das, was mir im Alltag fehlt, besonders wenn ich müde bin und nicht tippen möchte. Hoffentlich wird die KI-Assistentin nicht zu aufdringlich und sammelt keine sensiblen Daten. Das wäre ein echter Dealbreaker. Mal sehen, wie sich das im Vergleich zu anderen Tools schlägt. 😅





首页






