2024年：AI的增长和创新年份

首页

新闻

2024年：AI的增长和创新年份

2025-04-10

DonaldBrown

101

# ai # research

2024年：AI的增长和创新年份

当我们迈入2025年，回首2024年取得的惊人进步令人兴奋。从推出专为代理时代定制的Gemini 2.0模型，到赋能创意表达，再到设计新型蛋白质结合剂、推进AI驱动的神经科学和量子计算，我们一直在负责任且大胆地推动人工智能的边界。所有这些努力都旨在利用AI为人类的更大福祉服务。

正如我们两年前在文章《为什么我们专注于AI》中提到的，我们的AI发展方式植根于我们成立时的使命：组织全球信息，使其普遍可访问且实用。这一使命驱动我们致力于改善尽可能多人的生活，这一目标始终是我们前进的方向。

在2024年的年度回顾中，我们庆祝Google众多才华横溢的团队取得的卓越成就，他们不懈努力以推进我们的使命。他们的努力为未来一年的更激动人心的发展奠定了基础。

在模型、产品和技术上的不懈创新

2024年是关于实验、快速部署和将最新技术交付给开发者的年份。12月，我们发布了Gemini 2.0实验系列的首批模型，专为代理时代设计。我们以Gemini 2.0 Flash这一多功能主力模型为开端，随后推出了代理研究的尖端原型，包括更新的Project Astra，探索通用AI助手的潜力；Project Mariner，一个能够在Chrome中执行操作的早期原型，作为实验性扩展；以及Jules，一个AI驱动的代码代理。我们迫切希望将Gemini 2.0的功能集成到我们的旗舰产品中，并已在超过10亿人使用的搜索AI概览中开始测试，以探索新型问题。

我们还推出了Deep Research，这是Gemini Advanced中的一项新代理功能，通过创建和执行多步骤计划来回答复杂问题，节省数小时的研究时间。此外，我们引入了Gemini 2.0 Flash Thinking Experimental模型，该模型透明地展示其思考过程。

在今年早些时候，我们通过将Gemini的功能集成到更多Google产品中并推出Gemini 1.5 Pro和Gemini 1.5 Flash取得了重大进展。后者因其紧凑的体积和成本效益而优化了速度和效率，成为开发者中最受欢迎的模型。

我们还增强了AI Studio，使其作为可在桌面、iOS和Android上安装的渐进式Web应用（PWA），为开发者提供了一套强大的资源。公众对NotebookLM新功能（如音频概览）的反应非常好，这些功能可以从上传的源材料生成深入讨论，使学习更具吸引力。

语音输入和输出在Gemini Live、Project Astra、Journey Voices和YouTube的自动配音等产品中持续改进，增强了用户交互。

秉承我们为开源社区贡献的传统，我们发布了基于Gemini相同研究和技术的Gemma最新开放模型的两个新模型。Gemma在问答、推理和编码等领域超越了类似规模的模型。我们还发布了Gemma Scope工具，帮助研究人员了解Gemma 2的内部工作原理。

我们在提高模型事实性和减少幻觉方面取得了进展。12月，我们与Google DeepMind、Google Research和Kaggle合作发布了FACTS Grounding基准，以评估大型语言模型如何基于提供的源材料进行回答并避免幻觉。

FACTS Grounding数据集包含1719个示例，旨在测试基于上下文文档的长篇回答。我们使用FACTS Grounding测试了领先的大型语言模型，并自豪地报告Gemini 2.0 Flash Experimental、Gemini 1.5 Flash和Gemini 1.5 Pro获得了前三名事实性得分，其中Gemini-2.0-flash-exp得分高达83.6%。

我们还通过块并行解码、基于信心的延迟和推测性解码等创新技术提高了机器学习效率，加快了大型语言模型的推理时间。这些改进惠及Google产品并设定了行业标准。

在体育领域，我们推出了TacticAI，一个为足球战术提供洞察的人工智能系统，特别是在角球方面。

我们对研究领导力的承诺依然坚定。2010-2023年的WIPO生成AI引用调查显示，Google（包括Google Research和Google DeepMind）获得的引用是第二多引用机构的逾两倍。

根据2024年1月The Lens数据的WIPO图表，突显了Alphabet在过去十年对生成AI研究的重大贡献。最后，我们与HP合作将Project Starline的“魔法窗口”技术商业化，计划将其集成到Google Meet和Zoom等视频会议服务中，取得了进展。

用生成AI赋能创意愿景

我们相信AI可以开启新的创意领域，使创意表达更易获取，帮助人们实现艺术愿景。2024年，我们对生成媒体工具进行了一系列更新，涵盖图像、音乐和视频。

年初，我们推出了ImageFX和MusicFX，这些生成AI工具可根据文本提示生成图像和长达70秒的音频片段。在I/O大会上，我们预览了MusicFX DJ，旨在让现场音乐创作更易获取。10月，我们与Jacob Collier合作简化了MusicFX DJ，面向新手和有志音乐家。我们还更新了音乐AI工具包Music AI Sandbox，并发展了Dream Track实验，允许美国创作者使用文本到音乐模型生成各种类型的器乐配乐。

在今年晚些时候，我们发布了Veo 2和Imagen 3，这是我们最新的图像和视频模型。Imagen 3是我们最高质量的文本到图像模型，生成具有卓越细节、照明和更少瑕疵的图像。Veo 2展示了更好的现实世界物理和人类运动理解，增强了真实感。 Veo 2标志着高质量视频生成的重要进步。

我们继续探索AI在编辑中的潜力，利用它控制物体的透明度和粗糙度等属性。

这些示例展示了AI使用合成数据生成编辑材料属性的能力。

在音频生成方面，我们改进了视频到音频（V2A）技术，根据屏幕上的动作从文本提示生成动态音景，可与Veo的AI生成视频搭配。

游戏为创意探索和训练具身代理提供了完美场所。2024年，我们推出了Genie 2，一个生成多样化、可玩3D环境的基础世界模型，用于训练和评估具身代理。这是在SIMA推出之后，SIMA可在各种视频游戏场景中遵循自然语言指令。

智能架构：机器人、硬件和计算的进步

随着我们的多模态模型越来越擅长理解世界的物理规律，它们正在推动机器人领域的激动人心进展。我们越来越接近实现更强大且有帮助的机器人目标。

通过ALOHA Unleashed，我们的机器人掌握了系鞋带、挂衬衫、修理其他机器人、插入齿轮和清洁厨房等任务。

在年初，我们推出了AutoRT、SARA-RT和RT-Trajectory，这些是我们机器人变换器工作的扩展，帮助机器人更好地导航环境并更快做出决策。我们还发布了ALOHA Unleashed，教机器人协调双臂，以及DemoStart，利用强化学习通过模拟提高多指机器人手的现实世界性能。

机器人变换器2（RT-2）从网络和机器人数据中学习，能够执行如将草莓放入碗中的任务。在机器人之外，我们的AlphaChip强化学习方法正在革新数据中心和智能手机的芯片布局规划。我们发布了预训练检查点，以促进AlphaChip开源的外部采用。我们还将第六代TPU Trillium提供给Google Cloud客户，展示了AI如何增强芯片设计。 AlphaChip学会优化芯片布局，每设计一个芯片都会有所改进。

我们的研究还解决了量子计算机中的错误纠正问题。11月，我们推出了AlphaQubit，一个基于AI的解码器，能够高精度识别量子计算错误。Google DeepMind和Google Research的合作加速了可靠量子计算机的进展。在测试中，AlphaQubit比张量网络方法减少了6%的错误，比相关匹配方法减少了30%。

12月，Google Quantum AI团队发布了最新的量子芯片Willow。Willow可以在不到五分钟内完成基准计算，而今天的超级计算机需要10亿亿亿年。使用量子纠错，Willow将错误率减半，达到了“低于阈值”的里程碑，并获得年度物理突破奖。

Willow展示了量子计算的尖端性能。

发现新解决方案：科学、生物学和数学的进步

我们继续利用AI加速科学进步，发布工具和论文，展示AI在推动科学和数学方面的力量。以下是一些亮点：

1月，我们推出了AlphaGeometry，一个解决复杂几何问题的人工智能系统。我们更新的AlphaGeometry 2和AlphaProof（基于强化学习的正式数学推理系统）在2024年7月的国际数学奥林匹克竞赛中获得了银牌表现。

AlphaGeometry 2在2024年7月国际数学奥林匹克竞赛的第4题中仅用19秒证明了∠KIL + ∠XPY等于180°。与Isomorphic Labs合作，我们推出了AlphaFold 3，预测生命分子的结构和相互作用，旨在改变我们对生物学和药物发现的理解。AlphaFold 3的先进架构和训练涵盖了从蛋白质到DNA的所有生命分子。我们在蛋白质设计方面也取得了重大进展，推出了AlphaProteo，一个创建高强度蛋白质结合剂的AI系统，可能带来新药物和生物传感器。AlphaProteo可为各种目标蛋白设计新型蛋白质结合剂。

与哈佛大学Lichtman实验室合作，我们生成了人类大脑一片的纳米级映射，这是首创，并向研究人员开放。这延续了我们在连接组学方面十年的努力，现已扩展到人类大脑映射。

该大脑映射项目揭示了皮层最深层的镜像细胞群。

11月末，我们与皇家学会共同举办了AI for Science论坛，讨论了蛋白质结构预测、人类大脑映射以及使用AI进行预测和野火探测等关键话题。我们还在论坛上与四位诺贝尔奖得主举办了问答会，可在Google DeepMind播客上收听。

2024年也是一个里程碑年，Demis Hassabis、John Jumper和David Baker因AlphaFold 2的工作获得诺贝尔化学奖，因其在蛋白质设计方面的革命性贡献而受到表彰。Geoffrey Hinton与John Hopfield因在人工神经网络机器学习的基础工作获得诺贝尔物理学奖。

Google还获得了其他荣誉，包括NeurIPS 2024时间检验论文奖和Beale—Orchard-Hays奖，用于原对偶线性规划（PDLP），现为Google OR Tools的一部分，助力于具有现实应用的大规模线性规划。

为人类福祉服务的AI

今年，我们在产品上取得了重大进展，并发表了研究，展示了AI如何在医疗、灾难准备和教育等领域直接且立即惠及人们。

在医疗领域，AI有望使高质量医疗服务更加普及，特别是在心血管疾病的早期检测方面。我们的研究表明，结合基本元数据的简单指尖设备可以预测心脏健康风险。我们还在AI驱动的结核病诊断方面取得进展，展示了AI如何有效筛选高结核病和HIV感染率的人群。

Med-Gemini在MedQA基准测试中取得了新的最佳成绩，超越我们之前的最佳Med-PaLM 2，领先4.6%。我们的Gemini模型是专业人员的多功能工具，我们正在开发针对特定领域的微调模型。例如，Med-Gemini结合去标识化医疗数据和Gemini的功能，在MedQA USMLE风格问题基准测试中达到了91.1%的准确率。

我们还在探索机器学习如何解决放射学、皮肤病学和病理学等领域的影像专长短缺问题。我们发布了用于诊断任务和生物标志物发现的Derm Foundation和Path Foundation，与斯坦福医学合作推出了皮肤状况图像网络（SCIN）数据集，并公布了用于医学影像研究的CT Foundation。

在教育领域，我们推出了LearnLM，一个为学习优化的模型家族，增强了搜索、YouTube和Gemini的体验。LearnLM超越了其他领先的AI模型，我们在AI Studio中向开发者开放了它。我们的对话学习伙伴LearnAbout和音频讨论工具Illuminate进一步丰富了学习体验。

在灾难预测和准备方面，我们推出了GenCast，改进了天气和极端事件预测，以及NeuralGCM，能够模拟数千天的气候条件。GraphCast获得了2024年MacRobert奖，提供详细的天气预测。

GraphCast的10天预测展示了特定湿度、表面温度和风速。

我们改进了洪水预测模型，可提前7天预测洪水，覆盖范围扩大到100个国家，惠及7亿人。

我们的洪水预测模型现覆盖超过100个国家，在150个国家使用虚拟水位计，其中物理水位计不可用。 AI还助力于野火检测和缓解。我们的野火边界地图现已在22个国家可用，我们创建了FireSat，一个可在20分钟内检测小型野火的卫星星座。

我们扩展了Google Translate，新增110种语言，为超过6.14亿讲者打破信息和机会的壁垒。

Google Translate新增的语言代表了世界8%的人口。

助力制定负责任AI的标准

我们继续在AI安全领域进行行业领先的研究，开发新工具和技术，并将其集成到我们的最新模型中。我们致力于合作应对风险。

我们对滥用的研究发现，深度伪造和越狱是最常见的问题。5月，我们推出了Frontier Safety Framework，以识别高级AI模型的新兴能力，并推出了AI责任生命周期框架。10月，我们扩展了Responsible GenAI Toolkit，使其适用于任何大型语言模型，帮助开发者负责任地构建AI。

我们发布了一篇关于高级AI助手伦理的论文，探讨了AI助手的技术和道德景观及其带来的机会和风险。

我们扩展了SynthID的功能，在Gemini应用和Web体验中为AI生成文本添加水印，在Veo中为视频添加水印。为增强在线透明度，我们加入了内容出处和真实性联盟（C2PA），并致力于开发更安全的内容凭证标准新版本。

SynthID调整预测标记的概率分数，以确保AI生成内容的质量、准确性和创造力。

在大型语言模型之外，我们分享了AlphaFold 3的生物安全方法，与行业伙伴合作推出安全AI联盟（CoSAI），并参与了AI首尔峰会，为国际AI治理做出贡献。

在开发AI代理等新技术时，我们将继续探索安全、隐私和安全问题。在AI原则的指导下，我们采取审慎、渐进的方式，与可信测试者和外部专家进行广泛研究、安全培训和风险评估。

展望2025年

2024年是AI取得惊人进步和激动人心的一年。我们对2025年的前景更加兴奋。

在继续推动产品、科学、健康和创意领域的AI研究边界时，我们必须深思熟虑地考虑如何以及何时部署这些技术。通过优先考虑负责任的AI实践和促进合作，我们将继续在构建AI惠及人类的未来中发挥关键作用。

"Dot AI伴侣应用程序宣布关闭，停止个性化服务 Dot 是一款人工智能伴侣应用程序，旨在充当个人朋友和知己，根据其开发者周五发布的公告，Dot 将停止运营。Dot背后的初创公司New Computer在其网站上表示，该服务将持续到10月5日，以便用户有时间导出个人数据。今年早些时候，联合创始人山姆-惠特莫尔（Sam Whitmore）和前苹果设计专家杰森-袁（Jason Yuan）合作推出了这款应用程序。Dot 进入了日益受到关注的情感人工智能

Anthropic 解决了人工智能生成盗版图书的法律案件 Anthropic公司与美国作家达成了一项重要的版权纠纷解决方案，同意拟议的集体诉讼和解，避免了可能代价高昂的审判。本周二在法庭文件中提交的这份协议源于对这家人工智能公司使用盗版文学作品训练克劳德模型的指控。尽管此案源于作家安德烈娅-巴茨（Andrea Bartz）、查尔斯-格雷伯（Charles Graeber）和柯克-华莱士-约翰逊（Kirk Wallace Johnson）的指控，但和解细节

Figma 向所有用户发布人工智能驱动的应用程序生成工具 Figma Make 是今年早些时候推出的创新型提示到应用开发平台，现已正式退出测试版，并向所有用户推出。这一开创性的工具加入了人工智能编码助手的行列，如谷歌的 Gemini Code Assist 和微软的 GitHub Copilot，使创作者能够将自然语言描述转化为功能原型和应用程序，而无需传统的编程专业知识。Figma Make 最初在测试阶段只对高级 "全席 "用户开放，现在对所有账户类

0/200

提交

AlbertSanchez

2025-08-23 13:01:15

Wow, 2024 was a wild ride for AI! Gemini 2.0 sounds like a game-changer for agents. Curious how it stacks up against other models—anybody tested it yet? 🧠

FrankSmith

2025-04-23 09:42:56

¡2024 fue un año increíble para la IA! Desde Gemini 2.0 hasta la computación cuántica, es impresionante. Parece que estamos viviendo en una película de ciencia ficción. ¡No puedo esperar a ver qué nos trae 2025! 🚀

RalphGarcia

2025-04-20 01:10:39

2024年のAIの進歩は本当に驚きでしたね！ジェミニ2.0から量子コンピューティングまで、まるでSF映画みたいです。2025年が楽しみです。🚀

CarlLewis

2025-04-18 19:58:13

2024 was insane with AI! From Gemini 2.0 to quantum computing, it felt like living in a sci-fi movie. The creativity boost was real, but sometimes I felt overwhelmed by the rapid changes. Still, it's exciting to see where AI will take us next! 🚀

RogerRoberts

2025-04-15 06:22:16

¡2024 fue una locura con la IA! Desde Gemini 2.0 hasta la computación cuántica, parecía estar viviendo en una película de ciencia ficción. El impulso de creatividad fue real, pero a veces me sentí abrumado por los cambios rápidos. Aún así, ¡es emocionante ver a dónde nos llevará la IA a continuación! 🚀

RobertMartin

2025-04-13 18:55:17

2024年のAIの進歩は本当に驚きだった！ジェミニ2.0から量子コンピューティングまで、まるでSF映画にいるようだった。創造性の向上は確かにあったけど、急速な変化に圧倒されることもあった。それでも、AIが次にどこへ導いてくれるのか楽しみだよ！🚀

头条新闻

2025顶级AI视频生成器：Pika Labs与其他对比 Gemini 2.5 Pro现在比Claude，GPT-4O更便宜，更便宜 AI配音：真实声音创作终极指南 Cambium的AI将垃圾木头变成木材 AI Builder和Power Automate革新文档摘要 Openai增强了AI语音助手以进行更好的聊天如何确保您的数据值得信赖AI集成 NotebookLM在全球范围内扩展，添加幻灯片并增强了事实检查对美国数据中心的调整可以解锁76 GW的新电源容量 Google利用AI暂停了超过3900万的广告帐户，以涉嫌欺诈

精选