安卓和Chrome的AI及无障碍增强
2025年05月22日
JustinWilliams
0
在全球无障碍意识日之际,我们很高兴宣布我们对Android和Chrome产品的重大更新,同时为致力于语音识别工具开发的开发者提供新的资源。这些人工智能领域的进步正在使我们的数字世界变得更加无障碍和包容。
Android上的更多AI创新
我们通过将Google AI和Gemini融入移动体验,特别是在视觉和听觉方面,进一步加强了我们对无障碍的承诺。
利用Gemini和TalkBack增强细节
去年,我们将Gemini的功能集成到Android的屏幕阅读器TalkBack中,为图像提供了AI生成的描述,即使没有替代文本。现在,我们正在扩展这一功能。用户现在可以对收到的图像提问,比如朋友的新吉他。你可以询问制作、颜色或照片中的其他元素。此外,你还可以获取整个屏幕的描述并提问。例如,在购物应用中浏览促销时,你可以询问Gemini关于某件商品的材质或检查是否有可用的折扣。

理解字幕背后的更多情感
通过表达性字幕,你的Android设备现在可以在大多数应用中提供实时字幕,不仅捕捉所说的话,还捕捉表达方式。我们添加了一个新的持续时间功能,突出显示单词被拉长的时刻,比如在体育广播中听到的“amaaazing shot”,或视频消息中的拖长的“nooooo”。你还会得到更多声音标签,如口哨声或清嗓子声。此更新适用于在美国、英国、加拿大和澳大利亚运行Android 15及以上版本的设备,仅限英语。

全球范围内改进语音识别
自2019年启动Euphonia项目以来,我们的目标是使非标准语音模式的人士更容易使用语音识别。现在,我们正在为全球的开发者和组织提供支持,帮助他们将这项技术适应更多的语言和文化背景。
新的开发者资源
为了培养一个全球性的无障碍工具生态系统,我们通过Euphonia项目的GitHub页面向开发者开放我们的开源存储库。这允许他们开发个性化的音频工具进行研究,或训练他们的模型识别多样化的语音模式。
支持非洲的新项目
今年早些时候,我们与Google.org合作,支持伦敦大学学院建立数字语言包容中心(CDLI)。CDLI专注于为非洲的非英语使用者提升语音识别技术。他们正在创建10种非洲语言的开源数据集,开发新的语音识别模型,并支持该领域的更广泛的组织和开发者社区。
为学生扩展无障碍选项
无障碍工具对有残疾的学生至关重要,从使用面部手势通过面部控制导航Chromebook,到通过阅读模式定制他们的阅读体验。现在,使用Chromebook进行SAT和高级课程考试的学生将可以访问所有Google内置的无障碍功能,包括ChromeVox屏幕阅读器和听写功能,以及大学理事会自己的数字考试工具。
让Chrome更无障碍
随着每天超过20亿的用户,我们不断努力改进Chrome的无障碍功能。实时字幕和为屏幕阅读器用户提供的图像描述都是这项努力的组成部分。
更轻松地访问Chrome上的PDF
以前,扫描的PDF在桌面版Chrome中对屏幕阅读器不友好。现在,通过光学字符识别(OCR),Chrome可以识别这些PDF,允许你高亮、复制、搜索文本,并使用你的屏幕阅读器来阅读它们。
通过页面缩放轻松阅读
Chrome for Android上的页面缩放现在允许你增大文本大小,而不改变网页布局或你的浏览体验,类似于桌面版Chrome的工作方式。你可以设置你的缩放偏好以应用于所有页面或特定页面。

要使用此功能,只需点击Chrome右上角的三点菜单并调整你的缩放设置。
相关文章
Adobe AI代理提升Photoshop和Premiere Pro
Adobe 正在通过引入设计用来彻底改变我们使用 Photoshop 和 Premiere Pro 方式的人工智能代理,震撼创意界。在最近的一篇博客文章中,Adobe 的数字媒体首席技术官 Ely Greenfield 透露了这些承诺将使编辑变得轻松的新功能。Photoshop 的新“创意代理”将出现在一个方便的浮动操作面板中。这个智能工具会分析你的照片,并
前OpenAI CEO警告AI奉承和谄媚
过分顺从的AI令人不安的现实想象一个AI助手,它对你说的任何话都表示同意,不管你的想法多么荒谬或有害。这听起来像是菲利普·K·迪克科幻故事中的情节,但这正在OpenAI的ChatGPT中发生,尤其是GPT-4o模型。这不仅仅是一个有趣的功能;这是一个令人担忧的趋势,已经引起了用户和业界领导者的关注。在过去几天里,像前OpenAI CEO Emmett She
微软推出Recall和AI增强搜索功能,适用于Copilot Plus PC
微软终于在今天推出了Recall功能,适用于所有Copilot Plus PC,经过长时间的期待和多次延迟。这项功能会捕捉你几乎所有在PC上的操作的截图,与增强的AI驱动的Windows搜索界面以及一个类似于谷歌“圈选搜索”的新功能“点击操作”一同亮相。Recall最初计划与Copilot Plus PC一同在去年六月发布,但研究人员的安全担忧导致其推迟。微
评论 (0)
0/200






在全球无障碍意识日之际,我们很高兴宣布我们对Android和Chrome产品的重大更新,同时为致力于语音识别工具开发的开发者提供新的资源。这些人工智能领域的进步正在使我们的数字世界变得更加无障碍和包容。
Android上的更多AI创新
我们通过将Google AI和Gemini融入移动体验,特别是在视觉和听觉方面,进一步加强了我们对无障碍的承诺。
利用Gemini和TalkBack增强细节
去年,我们将Gemini的功能集成到Android的屏幕阅读器TalkBack中,为图像提供了AI生成的描述,即使没有替代文本。现在,我们正在扩展这一功能。用户现在可以对收到的图像提问,比如朋友的新吉他。你可以询问制作、颜色或照片中的其他元素。此外,你还可以获取整个屏幕的描述并提问。例如,在购物应用中浏览促销时,你可以询问Gemini关于某件商品的材质或检查是否有可用的折扣。
理解字幕背后的更多情感
通过表达性字幕,你的Android设备现在可以在大多数应用中提供实时字幕,不仅捕捉所说的话,还捕捉表达方式。我们添加了一个新的持续时间功能,突出显示单词被拉长的时刻,比如在体育广播中听到的“amaaazing shot”,或视频消息中的拖长的“nooooo”。你还会得到更多声音标签,如口哨声或清嗓子声。此更新适用于在美国、英国、加拿大和澳大利亚运行Android 15及以上版本的设备,仅限英语。
全球范围内改进语音识别
自2019年启动Euphonia项目以来,我们的目标是使非标准语音模式的人士更容易使用语音识别。现在,我们正在为全球的开发者和组织提供支持,帮助他们将这项技术适应更多的语言和文化背景。
新的开发者资源
为了培养一个全球性的无障碍工具生态系统,我们通过Euphonia项目的GitHub页面向开发者开放我们的开源存储库。这允许他们开发个性化的音频工具进行研究,或训练他们的模型识别多样化的语音模式。
支持非洲的新项目
今年早些时候,我们与Google.org合作,支持伦敦大学学院建立数字语言包容中心(CDLI)。CDLI专注于为非洲的非英语使用者提升语音识别技术。他们正在创建10种非洲语言的开源数据集,开发新的语音识别模型,并支持该领域的更广泛的组织和开发者社区。
为学生扩展无障碍选项
无障碍工具对有残疾的学生至关重要,从使用面部手势通过面部控制导航Chromebook,到通过阅读模式定制他们的阅读体验。现在,使用Chromebook进行SAT和高级课程考试的学生将可以访问所有Google内置的无障碍功能,包括ChromeVox屏幕阅读器和听写功能,以及大学理事会自己的数字考试工具。
让Chrome更无障碍
随着每天超过20亿的用户,我们不断努力改进Chrome的无障碍功能。实时字幕和为屏幕阅读器用户提供的图像描述都是这项努力的组成部分。
更轻松地访问Chrome上的PDF
以前,扫描的PDF在桌面版Chrome中对屏幕阅读器不友好。现在,通过光学字符识别(OCR),Chrome可以识别这些PDF,允许你高亮、复制、搜索文本,并使用你的屏幕阅读器来阅读它们。
通过页面缩放轻松阅读
Chrome for Android上的页面缩放现在允许你增大文本大小,而不改变网页布局或你的浏览体验,类似于桌面版Chrome的工作方式。你可以设置你的缩放偏好以应用于所有页面或特定页面。
要使用此功能,只需点击Chrome右上角的三点菜单并调整你的缩放设置。












