2024: Năm của AI tăng trưởng và đổi mới đáng chú ý

Khi chúng ta bước vào năm 2025, thật ly kỳ khi phản ánh về những bước tiến đáng kinh ngạc mà chúng ta đã thực hiện vào năm 2024. Từ việc ra mắt các mô hình Gemini 2.0 phù hợp với kỷ nguyên tác nhân để trao quyền cho biểu hiện sáng tạo, và từ việc thiết kế các chất kết dính protein mới đến việc thúc đẩy khoa học thần kinh và điện toán lượng tử. Tất cả những nỗ lực này nhằm mục đích khai thác AI vì lợi ích lớn hơn của nhân loại.
Như chúng tôi đã đề cập trong bài tiểu luận của chúng tôi * Tại sao chúng tôi tập trung vào ai * hai năm trước, cách tiếp cận của chúng tôi để phát triển AI bắt nguồn từ nhiệm vụ sáng lập của chúng tôi để tổ chức thông tin thế giới và làm cho nó dễ tiếp cận và hữu ích. Nhiệm vụ này thúc đẩy cam kết của chúng tôi để tăng cường cuộc sống của càng nhiều người càng tốt, một mục tiêu vẫn là ngôi sao phía bắc của chúng tôi.
Trong đánh giá năm 2024 của chúng tôi, chúng tôi kỷ niệm những thành tựu đáng chú ý của nhiều đội tài năng tại Google, những người đã làm việc không mệt mỏi để thúc đẩy nhiệm vụ của chúng tôi. Những nỗ lực của họ đã tạo tiền đề cho những phát triển thú vị hơn nữa trong năm tới.
Sự đổi mới không ngừng trong các mô hình, sản phẩm và công nghệ
2024 là tất cả về thử nghiệm, triển khai nhanh chóng và đưa các công nghệ mới nhất của chúng tôi vào tay các nhà phát triển. Vào tháng 12, chúng tôi đã tiết lộ các mô hình đầu tiên của loạt thử nghiệm Gemini 2.0 của chúng tôi, được thiết kế dành riêng cho kỷ nguyên tác nhân. Chúng tôi đã khởi động mọi thứ bằng FLASH FLASH 2.0, công việc đa năng của chúng tôi, sau đó là các nguyên mẫu tiên tiến từ nghiên cứu tác nhân của chúng tôi. Chúng bao gồm một dự án cập nhật Astra, khám phá tiềm năng của một trợ lý AI phổ quát; Project Mariner, một nguyên mẫu sớm có khả năng thực hiện các hành động trong Chrome như một phần mở rộng thử nghiệm; và Jules, một tác nhân mã chạy bằng AI. Chúng tôi mong muốn tích hợp các khả năng của Gemini 2.0 vào các sản phẩm hàng đầu của chúng tôi và chúng tôi đã bắt đầu thử nghiệm tổng quan AI trong tìm kiếm, được sử dụng bởi hơn một tỷ người để khám phá các loại câu hỏi mới.
Chúng tôi cũng đã triển khai Deep Research, một tính năng tác nhân mới trong Gemini Advanced giúp tiết kiệm hàng giờ nghiên cứu bằng cách tạo và thực hiện các kế hoạch nhiều bước để trả lời các câu hỏi phức tạp. Ngoài ra, chúng tôi đã giới thiệu Thử nghiệm tư duy flash Song Tử 2.0, một mô hình hiển thị minh bạch quá trình suy nghĩ của nó. Đầu năm, chúng tôi đã có những bước tiến đáng kể bằng cách tích hợp các khả năng của Gemini vào nhiều sản phẩm của Google và ra mắt FLASH FLASH 15 Pro và Gemini 1.5. Sau này, được tối ưu hóa cho tốc độ và hiệu quả, đã trở thành mô hình phổ biến nhất của chúng tôi trong số các nhà phát triển nhờ quy mô nhỏ gọn và hiệu quả chi phí.
Chúng tôi cũng tăng cường AI Studio, cung cấp nó dưới dạng ứng dụng web tiến bộ (PWA) có thể cài đặt trên máy tính để bàn, iOS và Android, cung cấp cho các nhà phát triển một bộ tài nguyên mạnh mẽ. Phản hồi của công chúng đối với các tính năng mới trong máy tính xách tay, chẳng hạn như tổng quan âm thanh, rất tuyệt vời. Những tính năng này có thể tạo ra các cuộc thảo luận lặn sâu từ tài liệu nguồn được tải lên, làm cho việc học tập trung hơn.
Đầu vào và đầu ra của bài phát biểu tiếp tục được tinh chỉnh trong các sản phẩm như Song Tử Live, Project Astra, Journey Voices và YouTube Dubbing của YouTube, tăng cường tương tác người dùng.
Để phù hợp với truyền thống đóng góp cho cộng đồng mở, chúng tôi đã phát hành hai mô hình mới từ Gemma, mô hình mở hiện đại của chúng tôi, được xây dựng trên cùng một nghiên cứu và công nghệ như Gemini. Gemma vượt trội so với các mô hình có kích thước tương tự trong các lĩnh vực như trả lời, lý luận và mã hóa. Chúng tôi cũng đã phát hành Gemma Phạm vi, một công cụ giúp các nhà nghiên cứu hiểu các hoạt động bên trong của Gemma 2.
Chúng tôi đã có những bước tiến trong việc cải thiện tính thực tế của các mô hình của chúng tôi và giảm ảo giác. Vào tháng 12, chúng tôi đã công bố Facts Grounding, một điểm chuẩn được phát triển với sự hợp tác của Google Deepmind, Google Research và Kaggle, để đánh giá cách các mô hình ngôn ngữ lớn của họ đưa ra phản ứng của họ trong tài liệu nguồn được cung cấp và tránh ảo giác.
Bộ dữ liệu tiếp đất, với 1.719 ví dụ, được thiết kế để kiểm tra các phản hồi dài hạn được đặt căn cứ trong các tài liệu ngữ cảnh. Chúng tôi đã thử nghiệm các LLM hàng đầu bằng cách sử dụng tiếp đất sự thật và chúng tôi tự hào báo cáo rằng Gemini 2.0 Flash Portial, Gemini 1.5 Flash và Gemini 1.5 Pro đã đạt được ba điểm thực tế hàng đầu, với Mở rộng Gemini-flash-flash-flash đạt 83,6%ấn tượng. Chúng tôi cũng cải thiện hiệu quả ML thông qua các kỹ thuật sáng tạo như giải mã song song theo khối, độ trễ dựa trên niềm tin và giải mã đầu cơ, tăng tốc độ thời gian suy luận của LLM. Những cải tiến này có lợi cho các sản phẩm của Google và thiết lập các tiêu chuẩn ngành.
Trong thể thao, chúng tôi đã ra mắt Tacticai, một hệ thống AI cho các chiến thuật bóng đá cung cấp những hiểu biết về chiến thuật, đặc biệt là trên các cú đá góc.
Cam kết của chúng tôi đối với lãnh đạo nghiên cứu vẫn mạnh mẽ. Một cuộc khảo sát WIPO 2010-2023 về các trích dẫn AI thế hệ cho thấy Google, bao gồm Google Research và Google Deepmind, đã nhận được nhiều hơn gấp đôi các trích dẫn của tổ chức được trích dẫn nhiều thứ hai.
Biểu đồ WIPO này, dựa trên dữ liệu tháng 1 năm 2024 từ ống kính, nêu bật những đóng góp đáng kể của bảng chữ cái cho nghiên cứu AI tổng quát trong thập kỷ qua. Cuối cùng, chúng tôi đã đạt được tiến bộ với Project Starline, công nghệ "Cửa sổ ma thuật" của chúng tôi, hợp tác với HP để thương mại hóa nó, nhằm mục đích tích hợp nó vào các dịch vụ hội nghị truyền hình như Google Meet và Zoom. Trao quyền cho tầm nhìn sáng tạo với AI thế hệ
Chúng tôi tin rằng AI có thể mở khóa các lĩnh vực sáng tạo mới, làm cho biểu hiện sáng tạo dễ tiếp cận hơn và giúp mọi người nhận ra tầm nhìn nghệ thuật của họ. Vào năm 2024, chúng tôi đã giới thiệu một loạt các bản cập nhật cho các công cụ truyền thông tổng quát của chúng tôi, bao gồm hình ảnh, âm nhạc và video.
Vào đầu năm, chúng tôi đã ra mắt ImageFX và MusicFX, các công cụ AI tạo ra hình ảnh và các clip âm thanh tối ưu từ 70 giây từ các lời nhắc văn bản. Tại I/O, chúng tôi đã xem trước MusicFX DJ, được thiết kế để làm cho sáng tạo nhạc sống dễ tiếp cận hơn. Vào tháng 10, chúng tôi đã làm việc với Jacob Collier để đơn giản hóa DJ MusicFX cho các nhạc sĩ mới và đầy tham vọng. Chúng tôi cũng đã cập nhật bộ công cụ AI âm nhạc, hộp cát AI âm nhạc và phát triển thí nghiệm theo dõi giấc mơ của chúng tôi, cho phép các nhà sáng tạo của chúng tôi tạo ra các bản nhạc cụ trên các thể loại khác nhau bằng các mô hình văn bản-trên âm nhạc.
Cuối năm nay, chúng tôi đã phát hành VEO 2 và Imagen 3, mô hình hình ảnh và video mới nhất của chúng tôi. Imagen 3, mô hình văn bản thành hình ảnh chất lượng cao nhất của chúng tôi, tạo ra hình ảnh với chi tiết vượt trội, ánh sáng và ít tạo tác hơn. VEO 2 đã thể hiện sự hiểu biết tốt hơn về vật lý trong thế giới thực và chuyển động của con người, tăng cường chủ nghĩa hiện thực. VEO 2 đánh dấu một tiến bộ đáng kể trong việc tạo video chất lượng cao. Chúng tôi tiếp tục khám phá tiềm năng của AI trong việc chỉnh sửa, sử dụng nó để kiểm soát các thuộc tính như tính minh bạch và độ nhám của các đối tượng.
Những ví dụ này cho thấy khả năng chỉnh sửa các thuộc tính vật liệu của AI bằng cách sử dụng tạo dữ liệu tổng hợp. Trong tạo âm thanh, chúng tôi đã cải thiện công nghệ video-to-audio (V2A), tạo ra âm thanh động từ các lời nhắc văn bản dựa trên hành động trên màn hình, có thể được ghép nối với video do AI tạo từ VEO.
Trò chơi cung cấp một sân chơi hoàn hảo cho các đại lý khám phá và đào tạo sáng tạo. Vào năm 2024, chúng tôi đã giới thiệu Genie 2, một mô hình thế giới nền tảng tạo ra môi trường 3D đa dạng, có thể chơi được để đào tạo và đánh giá các tác nhân được thể hiện. Điều này theo sau sự ra mắt của Sima, có thể làm theo các hướng dẫn ngôn ngữ tự nhiên trong các cài đặt trò chơi video khác nhau.
Kiến trúc của trí thông minh: Những tiến bộ trong robot, phần cứng và điện toán
Khi các mô hình đa phương thức của chúng tôi trở nên lão luyện hơn trong việc tìm hiểu vật lý của thế giới, chúng sẽ cho phép những tiến bộ thú vị trong robot. Chúng tôi đang tiến gần hơn đến mục tiêu robot có khả năng và hữu ích hơn.
Với Aloha Unleashed, robot của chúng tôi đã làm chủ các nhiệm vụ của chúng tôi như buộc dây giày, áo sơ mi treo, sửa chữa các robot khác, chèn bánh răng và làm sạch nhà bếp. Khi bắt đầu năm, chúng tôi đã giới thiệu Autort, Sara-RT và RT-Trajectory, các phần mở rộng của máy biến áp robot của chúng tôi hoạt động để giúp robot điều hướng tốt hơn môi trường của chúng và đưa ra quyết định nhanh hơn. Chúng tôi cũng đã phát hành Aloha Unleashed, dạy robot để phối hợp hai cánh tay và Demostart, sử dụng học tập củng cố để cải thiện hiệu suất trong thế giới thực trên bàn tay robot đa ngón tay bằng cách sử dụng các mô phỏng.
Robot Transformer 2 (RT-2) học hỏi từ cả dữ liệu Web và Robotics, cho phép nó thực hiện các tác vụ như đặt một quả dâu tây vào một cái bát. Ngoài robot, phương pháp học củng cố alphachip của chúng tôi đang cách mạng hóa quy trình sàn chip cho các trung tâm dữ liệu và điện thoại thông minh. Chúng tôi đã phát hành một điểm kiểm tra được đào tạo trước để tạo điều kiện cho việc áp dụng bên ngoài phát hành nguồn mở của Alphachip. Chúng tôi cũng đã tạo ra Trillium, TPU thế hệ thứ sáu của chúng tôi, có sẵn cho khách hàng Google Cloud, giới thiệu cách AI có thể nâng cao thiết kế chip. Alphachip học cách tối ưu hóa bố cục chip, cải thiện với mỗi thiết kế mà nó tạo ra. Nghiên cứu của chúng tôi cũng đã giải quyết việc điều chỉnh lỗi trong máy tính lượng tử. Vào tháng 11, chúng tôi đã ra mắt Alphaquat, một trình giải mã dựa trên AI để xác định các lỗi điện toán lượng tử với độ chính xác cao. Sự hợp tác này giữa Google DeepMind và Google Research đã tăng tốc tiến trình đối với các máy tính lượng tử đáng tin cậy. Trong các thử nghiệm, Alphaquat giảm 6% lỗi so với các phương pháp mạng tenxơ và 30% so với khớp tương quan.
Vào tháng 12, nhóm Google Quantum AI đã tiết lộ Willow, chip lượng tử mới nhất của chúng tôi. Willow có thể thực hiện tính toán điểm chuẩn trong vòng chưa đầy năm phút sẽ mất các siêu máy tính nhanh nhất hiện nay trong 10 năm. Sử dụng hiệu chỉnh lỗi lượng tử, Willow giảm một nửa tỷ lệ lỗi, đạt được một cột mốc được gọi là "dưới ngưỡng" và kiếm được giải thưởng đột phá vật lý của năm.
Willow thể hiện hiệu suất hiện đại trong điện toán lượng tử. Khám phá các giải pháp mới: Tiến bộ trong khoa học, sinh học và toán học
Chúng tôi tiếp tục tăng tốc tiến bộ khoa học với AI, phát hành các công cụ và bài báo thể hiện sức mạnh của AI trong việc thúc đẩy khoa học và toán học. Dưới đây là một số điểm nổi bật:
Vào tháng 1, chúng tôi đã giới thiệu Alphageometry, một hệ thống AI để giải quyết các vấn đề hình học phức tạp. Alphageometry 2 và AlphaprooF cập nhật của chúng tôi, một hệ thống dựa trên học tập củng cố cho lý luận toán học chính thức, đã đạt được hiệu suất huy chương bạc tại Olympic toán học quốc tế tháng 7 năm 2024.
Alphageometry 2 đã giải quyết vấn đề 4 của Olympic toán học quốc tế tháng 7 năm 2024 chỉ trong 19 giây, chứng minh rằng ∠kil + ∠xpy bằng 180 °. Phối hợp với các phòng thí nghiệm đẳng cấu, chúng tôi đã giới thiệu Alphafold 3, dự đoán cấu trúc và tương tác của các phân tử của cuộc sống, nhằm mục đích biến đổi sự hiểu biết của chúng tôi về sinh học và khám phá thuốc. Kiến trúc và đào tạo tiên tiến của Alphafold 3 bao gồm tất cả các phân tử của cuộc sống, từ protein đến DNA. Chúng tôi cũng đã có những bước tiến đáng kể trong thiết kế protein với Alphaproteo, một hệ thống AI để tạo ra các chất kết dính protein có độ bền cao, có thể dẫn đến các loại thuốc và cảm biến sinh học mới. Alphaproteo có thể thiết kế các chất kết dính protein mới cho các protein mục tiêu khác nhau. Phối hợp với Lichtman Lab của Harvard, chúng tôi đã tạo ra một bản đồ quy mô nano của một phần của bộ não con người, đầu tiên của loại hình này, và làm cho nó có sẵn cho các nhà nghiên cứu. Điều này theo sau nỗ lực kéo dài hàng thập kỷ của chúng tôi trong Connectomics, hiện đang mở rộng đến lập bản đồ não người.
Dự án lập bản đồ não này cho thấy các cụm tế bào hình ảnh gương trong lớp sâu nhất của vỏ não. Vào cuối tháng 11, chúng tôi đã đồng tổ chức Diễn đàn Khoa học AI cho Hiệp hội Hoàng gia, thảo luận về các chủ đề chính như dự đoán cấu trúc protein, lập bản đồ não người và sử dụng AI để dự báo và phát hiện cháy rừng. Chúng tôi cũng đã tổ chức một câu hỏi và trả lời với bốn người đoạt giải Nobel tại diễn đàn, có sẵn trên podcast của Google Deepmind.
Năm 2024 cũng là một năm mang tính bước ngoặt khi Demis Hassabis, John Jumper và David Baker đã nhận được giải thưởng Nobel về hóa học cho công việc của họ trên Alphafold 2, được công nhận là cách mạng hóa thiết kế protein. Geoffrey Hinton, cùng với John Hopfield, đã nhận được giải thưởng Nobel về vật lý cho công việc nền tảng trong học máy với mạng lưới thần kinh nhân tạo.
Google cũng đã nhận được các giải thưởng bổ sung, bao gồm Thử nghiệm Neurips 2024 về Giải thưởng Giấy Thời gian và Giải thưởng Beale, ORCHARD-HAYS cho chương trình tuyến tính nguyên thủy (PDLP), hiện là một phần của Google hoặc các công cụ, hỗ trợ lập trình tuyến tính quy mô lớn với các ứng dụng trong thế giới thực.
AI vì lợi ích của nhân loại
Năm nay, chúng tôi đã thực hiện những tiến bộ sản phẩm đáng kể và nghiên cứu được công bố chứng minh làm thế nào AI có thể trực tiếp và ngay lập tức mang lại lợi ích cho mọi người trong các lĩnh vực như chăm sóc sức khỏe, sẵn sàng thảm họa và giáo dục.
Trong chăm sóc sức khỏe, AI hứa hẹn sẽ dân chủ hóa chăm sóc chất lượng, đặc biệt là trong việc phát hiện sớm bệnh tim mạch. Nghiên cứu của chúng tôi cho thấy rằng một thiết bị ngón tay đơn giản, kết hợp với siêu dữ liệu cơ bản, có thể dự đoán rủi ro sức khỏe tim mạch. Chúng tôi cũng nâng cao chẩn đoán hỗ trợ AI cho bệnh lao, cho thấy cách AI có thể sàng lọc các quần thể với tỷ lệ bệnh lao cao và HIV hiệu quả.
Med-Gemini đã đạt được điểm số tiên tiến mới trên điểm chuẩn MEDQA, vượt qua tốt nhất trước đây của chúng tôi, Med-Palm 2, 4,6%. Mô hình Gemini của chúng tôi là một công cụ đa năng cho các chuyên gia và chúng tôi đang phát triển các mô hình tinh chỉnh cho các miền cụ thể. Med-Gemini, ví dụ, kết hợp đào tạo về dữ liệu y tế được xác định với khả năng của Song Tử, đạt được độ chính xác 91,1% trên điểm chuẩn câu hỏi theo phong cách MEDQA USMLE. Chúng tôi cũng đang khám phá cách học máy có thể giải quyết tình trạng thiếu hụt chuyên môn hình ảnh trong các lĩnh vực như X quang, da liễu và bệnh lý. Chúng tôi đã phát hành DERM Foundation và Path Foundation cho các nhiệm vụ chẩn đoán và khám phá dấu ấn sinh học, hợp tác với bộ dữ liệu Stanford Medicine trên mạng lưới điều kiện da (SCIN) và tiết lộ CT Foundation cho nghiên cứu hình ảnh y tế.
Trong giáo dục, chúng tôi đã giới thiệu LearnLM, một gia đình mô hình tinh chỉnh để học, nâng cao trải nghiệm trong tìm kiếm, YouTube và Gemini. Learnlm vượt trội so với các mô hình AI hàng đầu khác và chúng tôi đã cung cấp cho các nhà phát triển trong AI Studio. Người bạn đồng hành học trò chuyện của chúng tôi, Learnabout và công cụ thảo luận âm thanh, chiếu sáng, làm phong phú thêm kinh nghiệm học tập.
Trong dự báo và chuẩn bị thiên tai, chúng tôi đã giới thiệu gencast, cải thiện dự báo thời tiết và sự kiện cực đoan, và thần kinh, có khả năng mô phỏng hàng ngàn ngày trong điều kiện khí quyển. Graphcast, đã giành giải thưởng Macrobert 2024, cung cấp dự đoán thời tiết chi tiết.
Dự đoán của Graphcast trong hơn 10 ngày cho thấy độ ẩm cụ thể, nhiệt độ bề mặt và tốc độ gió. Chúng tôi đã cải thiện mô hình dự báo lũ lụt của chúng tôi để dự đoán lũ lụt trước bảy ngày, mở rộng phạm vi bảo hiểm cho 100 quốc gia và 700 triệu người.
Mô hình dự báo lũ lụt của chúng tôi hiện bao gồm hơn 100 quốc gia, với đồng hồ đo ảo ở 150 quốc gia nơi đồng hồ đo vật lý không có sẵn. AI cũng hỗ trợ phát hiện và giảm thiểu cháy rừng. Các bản đồ ranh giới cháy rừng của chúng tôi hiện có sẵn ở 22 quốc gia và chúng tôi đã tạo ra Firesat, một chòm sao vệ tinh có thể phát hiện các vụ cháy rừng nhỏ trong vòng 20 phút. Chúng tôi đã mở rộng Google Dịch để bao gồm 110 ngôn ngữ mới, giúp phá vỡ các rào cản đối với thông tin và cơ hội cho hơn 614 triệu người nói.
Những ngôn ngữ mới này trong Google dịch đại diện cho 8% dân số thế giới. Giúp thiết lập tiêu chuẩn trong AI có trách nhiệm
Chúng tôi tiếp tục nghiên cứu hàng đầu trong ngành về an toàn AI, phát triển các công cụ và kỹ thuật mới và tích hợp chúng vào các mô hình mới nhất của chúng tôi. Chúng tôi cam kết hợp tác để giải quyết rủi ro.
Nghiên cứu của chúng tôi về lạm dụng cho thấy rằng giả mạo và bẻ khóa là những vấn đề phổ biến nhất. Vào tháng 5, chúng tôi đã giới thiệu Khung an toàn Frontier để xác định các khả năng mới nổi trong các mô hình AI tiên tiến của chúng tôi và đưa ra khung vòng đời trách nhiệm AI của chúng tôi. Vào tháng 10, chúng tôi đã mở rộng bộ công cụ Genai có trách nhiệm của mình để làm việc với bất kỳ LLM nào, giúp các nhà phát triển xây dựng AI một cách có trách nhiệm.
Chúng tôi đã phát hành một bài báo về đạo đức của các trợ lý AI tiên tiến, kiểm tra bối cảnh kỹ thuật và đạo đức của các trợ lý AI và các cơ hội và rủi ro mà họ gây ra.
Chúng tôi đã mở rộng khả năng của Synthid sang văn bản do Watermark tạo ra trong ứng dụng Song Tử và Trải nghiệm web và Video trong VEO. Để tăng cường tính minh bạch trực tuyến, chúng tôi đã tham gia Liên minh xuất xứ nội dung và tính xác thực (C2PA) và làm việc trên một phiên bản mới, an toàn hơn của tiêu chuẩn thông tin xác thực nội dung.
Synthid điều chỉnh điểm số xác suất của các mã thông báo dự đoán để đảm bảo chất lượng, độ chính xác và sáng tạo trong nội dung do AI tạo. Ngoài LLM, chúng tôi đã chia sẻ phương pháp an toàn sinh học của chúng tôi cho Alphafold 3, làm việc với các đối tác trong ngành để ra mắt Liên minh cho AI (COSAI) an toàn và tham gia Hội nghị thượng đỉnh AI Seoul để đóng góp cho quản trị AI quốc tế.
Khi chúng tôi phát triển các công nghệ mới như Đại lý AI, chúng tôi sẽ tiếp tục khám phá các câu hỏi về an toàn, bảo mật và quyền riêng tư. Được hướng dẫn bởi các nguyên tắc AI của chúng tôi, chúng tôi đang thực hiện một cách tiếp cận có chủ ý, dần dần, tiến hành nghiên cứu sâu rộng, đào tạo an toàn và đánh giá rủi ro với những người thử nghiệm đáng tin cậy và các chuyên gia bên ngoài.
Nhìn về phía trước đến năm 2025
Năm 2024 là một năm tiến bộ và phấn khích đáng kinh ngạc trong AI. Chúng tôi thậm chí còn hồi hộp hơn về những gì sắp diễn ra vào năm 2025.
Khi chúng tôi tiếp tục vượt qua ranh giới của nghiên cứu AI trong các sản phẩm, khoa học, sức khỏe và sáng tạo, chúng tôi phải xem xét chu đáo cách thức và thời điểm triển khai các công nghệ này. Bằng cách ưu tiên thực hành AI có trách nhiệm và thúc đẩy sự hợp tác, chúng tôi sẽ tiếp tục đóng một vai trò quan trọng trong việc xây dựng một tương lai nơi AI mang lại lợi ích cho nhân loại.
Bài viết liên quan
Nouvelle étude révèle combien de données les LLM mémorisent réellement
Combien les modèles d'IA mémorisent-ils réellement ? Une nouvelle recherche révèle des insights surprenantsNous savons tous que les grands modèles de langage (LLM) comme ChatGPT, Claude et Gemini sont
Potentiel de l'IA pour résoudre le puzzle de la productivité au Royaume-Uni
L'IA pourrait stimuler l'économie britannique de 400 milliards de livres – mais seulement si les travailleurs l'adoptentLe Royaume-Uni est à l'aube d'une opportunité économique massive—400 milliards d
9 Meilleurs Outils de Recrutement IA (Avril 2025)
Les 10 meilleurs outils de recrutement IA transformant l'embauche en 2024L'intelligence artificielle révolutionne le recrutement, et pour cause. Les entreprises submergées par les CV et les plannings
Nhận xét (25)
0/200
JustinMartin
00:00:00 GMT Ngày 12 tháng 4 năm 2025
2024 was a wild ride with AI! From Gemini 2.0 to quantum computing, it's like we're living in a sci-fi movie. Loved seeing all the creative stuff AI can do, but sometimes it felt a bit too much, you know? Can't wait to see what 2025 brings, but maybe slow down a bit, AI?
0
BillyEvans
00:00:00 GMT Ngày 12 tháng 4 năm 2025
¡2024 fue increíble con la IA! Desde Gemini 2.0 hasta la computación cuántica, parece que vivimos en una película de ciencia ficción. Me encantó ver todo lo creativo que puede hacer la IA, pero a veces se sintió un poco abrumador, ¿sabes? Espero con ansias lo que 2025 traiga, pero tal vez, ¿puede la IA ralentizar un poco?
0
WalterWhite
00:00:00 GMT Ngày 10 tháng 4 năm 2025
2024年はAIがすごかったね!ジェミニ2.0から量子コンピューティングまで、まるでSF映画に住んでいるみたい。AIができるクリエイティブなことが大好きだけど、時々少し多すぎる感じがするんだよね。2025年が楽しみだけど、AI、ちょっとペースを落とそうか?
0
WillieRodriguez
00:00:00 GMT Ngày 11 tháng 4 năm 2025
2024 war ein wilder Ritt mit KI! Von Gemini 2.0 bis zur Quantencomputing, es fühlt sich an, als lebten wir in einem Sci-Fi-Film. Ich liebe das kreative Zeug, was KI kann, aber manchmal war es ein bisschen zu viel, weißt du? Ich freue mich auf 2025, aber vielleicht sollte die KI ein bisschen langsamer machen?
0
KeithJones
00:00:00 GMT Ngày 12 tháng 4 năm 2025
Năm 2024 thật tuyệt vời với trí tuệ nhân tạo! Từ Gemini 2.0 đến máy tính lượng tử, cảm giác như chúng ta đang sống trong phim khoa học viễn tưởng. Mình thích những điều sáng tạo mà AI có thể làm, nhưng đôi khi nó hơi quá sức, bạn biết đấy? Mong chờ năm 2025, nhưng có lẽ AI nên chậm lại một chút?
0
StephenRamirez
00:00:00 GMT Ngày 10 tháng 4 năm 2025
2024 was wild! AI's growth was insane, from Gemini 2.0 to protein binders. It's like every week there was something new and mind-blowing. Can't wait to see what 2025 brings, but 2024 set the bar high!
0
Khi chúng ta bước vào năm 2025, thật ly kỳ khi phản ánh về những bước tiến đáng kinh ngạc mà chúng ta đã thực hiện vào năm 2024. Từ việc ra mắt các mô hình Gemini 2.0 phù hợp với kỷ nguyên tác nhân để trao quyền cho biểu hiện sáng tạo, và từ việc thiết kế các chất kết dính protein mới đến việc thúc đẩy khoa học thần kinh và điện toán lượng tử. Tất cả những nỗ lực này nhằm mục đích khai thác AI vì lợi ích lớn hơn của nhân loại.
Như chúng tôi đã đề cập trong bài tiểu luận của chúng tôi * Tại sao chúng tôi tập trung vào ai * hai năm trước, cách tiếp cận của chúng tôi để phát triển AI bắt nguồn từ nhiệm vụ sáng lập của chúng tôi để tổ chức thông tin thế giới và làm cho nó dễ tiếp cận và hữu ích. Nhiệm vụ này thúc đẩy cam kết của chúng tôi để tăng cường cuộc sống của càng nhiều người càng tốt, một mục tiêu vẫn là ngôi sao phía bắc của chúng tôi.
Trong đánh giá năm 2024 của chúng tôi, chúng tôi kỷ niệm những thành tựu đáng chú ý của nhiều đội tài năng tại Google, những người đã làm việc không mệt mỏi để thúc đẩy nhiệm vụ của chúng tôi. Những nỗ lực của họ đã tạo tiền đề cho những phát triển thú vị hơn nữa trong năm tới.
Sự đổi mới không ngừng trong các mô hình, sản phẩm và công nghệ
2024 là tất cả về thử nghiệm, triển khai nhanh chóng và đưa các công nghệ mới nhất của chúng tôi vào tay các nhà phát triển. Vào tháng 12, chúng tôi đã tiết lộ các mô hình đầu tiên của loạt thử nghiệm Gemini 2.0 của chúng tôi, được thiết kế dành riêng cho kỷ nguyên tác nhân. Chúng tôi đã khởi động mọi thứ bằng FLASH FLASH 2.0, công việc đa năng của chúng tôi, sau đó là các nguyên mẫu tiên tiến từ nghiên cứu tác nhân của chúng tôi. Chúng bao gồm một dự án cập nhật Astra, khám phá tiềm năng của một trợ lý AI phổ quát; Project Mariner, một nguyên mẫu sớm có khả năng thực hiện các hành động trong Chrome như một phần mở rộng thử nghiệm; và Jules, một tác nhân mã chạy bằng AI. Chúng tôi mong muốn tích hợp các khả năng của Gemini 2.0 vào các sản phẩm hàng đầu của chúng tôi và chúng tôi đã bắt đầu thử nghiệm tổng quan AI trong tìm kiếm, được sử dụng bởi hơn một tỷ người để khám phá các loại câu hỏi mới.
Đầu năm, chúng tôi đã có những bước tiến đáng kể bằng cách tích hợp các khả năng của Gemini vào nhiều sản phẩm của Google và ra mắt FLASH FLASH 15 Pro và Gemini 1.5. Sau này, được tối ưu hóa cho tốc độ và hiệu quả, đã trở thành mô hình phổ biến nhất của chúng tôi trong số các nhà phát triển nhờ quy mô nhỏ gọn và hiệu quả chi phí.
Chúng tôi cũng tăng cường AI Studio, cung cấp nó dưới dạng ứng dụng web tiến bộ (PWA) có thể cài đặt trên máy tính để bàn, iOS và Android, cung cấp cho các nhà phát triển một bộ tài nguyên mạnh mẽ. Phản hồi của công chúng đối với các tính năng mới trong máy tính xách tay, chẳng hạn như tổng quan âm thanh, rất tuyệt vời. Những tính năng này có thể tạo ra các cuộc thảo luận lặn sâu từ tài liệu nguồn được tải lên, làm cho việc học tập trung hơn.
Đầu vào và đầu ra của bài phát biểu tiếp tục được tinh chỉnh trong các sản phẩm như Song Tử Live, Project Astra, Journey Voices và YouTube Dubbing của YouTube, tăng cường tương tác người dùng.
Để phù hợp với truyền thống đóng góp cho cộng đồng mở, chúng tôi đã phát hành hai mô hình mới từ Gemma, mô hình mở hiện đại của chúng tôi, được xây dựng trên cùng một nghiên cứu và công nghệ như Gemini. Gemma vượt trội so với các mô hình có kích thước tương tự trong các lĩnh vực như trả lời, lý luận và mã hóa. Chúng tôi cũng đã phát hành Gemma Phạm vi, một công cụ giúp các nhà nghiên cứu hiểu các hoạt động bên trong của Gemma 2.
Chúng tôi đã có những bước tiến trong việc cải thiện tính thực tế của các mô hình của chúng tôi và giảm ảo giác. Vào tháng 12, chúng tôi đã công bố Facts Grounding, một điểm chuẩn được phát triển với sự hợp tác của Google Deepmind, Google Research và Kaggle, để đánh giá cách các mô hình ngôn ngữ lớn của họ đưa ra phản ứng của họ trong tài liệu nguồn được cung cấp và tránh ảo giác.
Chúng tôi cũng cải thiện hiệu quả ML thông qua các kỹ thuật sáng tạo như giải mã song song theo khối, độ trễ dựa trên niềm tin và giải mã đầu cơ, tăng tốc độ thời gian suy luận của LLM. Những cải tiến này có lợi cho các sản phẩm của Google và thiết lập các tiêu chuẩn ngành.
Trong thể thao, chúng tôi đã ra mắt Tacticai, một hệ thống AI cho các chiến thuật bóng đá cung cấp những hiểu biết về chiến thuật, đặc biệt là trên các cú đá góc.
Cam kết của chúng tôi đối với lãnh đạo nghiên cứu vẫn mạnh mẽ. Một cuộc khảo sát WIPO 2010-2023 về các trích dẫn AI thế hệ cho thấy Google, bao gồm Google Research và Google Deepmind, đã nhận được nhiều hơn gấp đôi các trích dẫn của tổ chức được trích dẫn nhiều thứ hai.
Trao quyền cho tầm nhìn sáng tạo với AI thế hệ
Chúng tôi tin rằng AI có thể mở khóa các lĩnh vực sáng tạo mới, làm cho biểu hiện sáng tạo dễ tiếp cận hơn và giúp mọi người nhận ra tầm nhìn nghệ thuật của họ. Vào năm 2024, chúng tôi đã giới thiệu một loạt các bản cập nhật cho các công cụ truyền thông tổng quát của chúng tôi, bao gồm hình ảnh, âm nhạc và video.
Vào đầu năm, chúng tôi đã ra mắt ImageFX và MusicFX, các công cụ AI tạo ra hình ảnh và các clip âm thanh tối ưu từ 70 giây từ các lời nhắc văn bản. Tại I/O, chúng tôi đã xem trước MusicFX DJ, được thiết kế để làm cho sáng tạo nhạc sống dễ tiếp cận hơn. Vào tháng 10, chúng tôi đã làm việc với Jacob Collier để đơn giản hóa DJ MusicFX cho các nhạc sĩ mới và đầy tham vọng. Chúng tôi cũng đã cập nhật bộ công cụ AI âm nhạc, hộp cát AI âm nhạc và phát triển thí nghiệm theo dõi giấc mơ của chúng tôi, cho phép các nhà sáng tạo của chúng tôi tạo ra các bản nhạc cụ trên các thể loại khác nhau bằng các mô hình văn bản-trên âm nhạc.
Chúng tôi tiếp tục khám phá tiềm năng của AI trong việc chỉnh sửa, sử dụng nó để kiểm soát các thuộc tính như tính minh bạch và độ nhám của các đối tượng.
Trong tạo âm thanh, chúng tôi đã cải thiện công nghệ video-to-audio (V2A), tạo ra âm thanh động từ các lời nhắc văn bản dựa trên hành động trên màn hình, có thể được ghép nối với video do AI tạo từ VEO.
Trò chơi cung cấp một sân chơi hoàn hảo cho các đại lý khám phá và đào tạo sáng tạo. Vào năm 2024, chúng tôi đã giới thiệu Genie 2, một mô hình thế giới nền tảng tạo ra môi trường 3D đa dạng, có thể chơi được để đào tạo và đánh giá các tác nhân được thể hiện. Điều này theo sau sự ra mắt của Sima, có thể làm theo các hướng dẫn ngôn ngữ tự nhiên trong các cài đặt trò chơi video khác nhau.
Kiến trúc của trí thông minh: Những tiến bộ trong robot, phần cứng và điện toán
Khi các mô hình đa phương thức của chúng tôi trở nên lão luyện hơn trong việc tìm hiểu vật lý của thế giới, chúng sẽ cho phép những tiến bộ thú vị trong robot. Chúng tôi đang tiến gần hơn đến mục tiêu robot có khả năng và hữu ích hơn.
Khi bắt đầu năm, chúng tôi đã giới thiệu Autort, Sara-RT và RT-Trajectory, các phần mở rộng của máy biến áp robot của chúng tôi hoạt động để giúp robot điều hướng tốt hơn môi trường của chúng và đưa ra quyết định nhanh hơn. Chúng tôi cũng đã phát hành Aloha Unleashed, dạy robot để phối hợp hai cánh tay và Demostart, sử dụng học tập củng cố để cải thiện hiệu suất trong thế giới thực trên bàn tay robot đa ngón tay bằng cách sử dụng các mô phỏng.
Nghiên cứu của chúng tôi cũng đã giải quyết việc điều chỉnh lỗi trong máy tính lượng tử. Vào tháng 11, chúng tôi đã ra mắt Alphaquat, một trình giải mã dựa trên AI để xác định các lỗi điện toán lượng tử với độ chính xác cao. Sự hợp tác này giữa Google DeepMind và Google Research đã tăng tốc tiến trình đối với các máy tính lượng tử đáng tin cậy. Trong các thử nghiệm, Alphaquat giảm 6% lỗi so với các phương pháp mạng tenxơ và 30% so với khớp tương quan.
Vào tháng 12, nhóm Google Quantum AI đã tiết lộ Willow, chip lượng tử mới nhất của chúng tôi. Willow có thể thực hiện tính toán điểm chuẩn trong vòng chưa đầy năm phút sẽ mất các siêu máy tính nhanh nhất hiện nay trong 10 năm. Sử dụng hiệu chỉnh lỗi lượng tử, Willow giảm một nửa tỷ lệ lỗi, đạt được một cột mốc được gọi là "dưới ngưỡng" và kiếm được giải thưởng đột phá vật lý của năm.
Khám phá các giải pháp mới: Tiến bộ trong khoa học, sinh học và toán học
Chúng tôi tiếp tục tăng tốc tiến bộ khoa học với AI, phát hành các công cụ và bài báo thể hiện sức mạnh của AI trong việc thúc đẩy khoa học và toán học. Dưới đây là một số điểm nổi bật:
Vào tháng 1, chúng tôi đã giới thiệu Alphageometry, một hệ thống AI để giải quyết các vấn đề hình học phức tạp. Alphageometry 2 và AlphaprooF cập nhật của chúng tôi, một hệ thống dựa trên học tập củng cố cho lý luận toán học chính thức, đã đạt được hiệu suất huy chương bạc tại Olympic toán học quốc tế tháng 7 năm 2024.
Phối hợp với Lichtman Lab của Harvard, chúng tôi đã tạo ra một bản đồ quy mô nano của một phần của bộ não con người, đầu tiên của loại hình này, và làm cho nó có sẵn cho các nhà nghiên cứu. Điều này theo sau nỗ lực kéo dài hàng thập kỷ của chúng tôi trong Connectomics, hiện đang mở rộng đến lập bản đồ não người.
Vào cuối tháng 11, chúng tôi đã đồng tổ chức Diễn đàn Khoa học AI cho Hiệp hội Hoàng gia, thảo luận về các chủ đề chính như dự đoán cấu trúc protein, lập bản đồ não người và sử dụng AI để dự báo và phát hiện cháy rừng. Chúng tôi cũng đã tổ chức một câu hỏi và trả lời với bốn người đoạt giải Nobel tại diễn đàn, có sẵn trên podcast của Google Deepmind.
Năm 2024 cũng là một năm mang tính bước ngoặt khi Demis Hassabis, John Jumper và David Baker đã nhận được giải thưởng Nobel về hóa học cho công việc của họ trên Alphafold 2, được công nhận là cách mạng hóa thiết kế protein. Geoffrey Hinton, cùng với John Hopfield, đã nhận được giải thưởng Nobel về vật lý cho công việc nền tảng trong học máy với mạng lưới thần kinh nhân tạo.
Google cũng đã nhận được các giải thưởng bổ sung, bao gồm Thử nghiệm Neurips 2024 về Giải thưởng Giấy Thời gian và Giải thưởng Beale, ORCHARD-HAYS cho chương trình tuyến tính nguyên thủy (PDLP), hiện là một phần của Google hoặc các công cụ, hỗ trợ lập trình tuyến tính quy mô lớn với các ứng dụng trong thế giới thực.
AI vì lợi ích của nhân loại
Năm nay, chúng tôi đã thực hiện những tiến bộ sản phẩm đáng kể và nghiên cứu được công bố chứng minh làm thế nào AI có thể trực tiếp và ngay lập tức mang lại lợi ích cho mọi người trong các lĩnh vực như chăm sóc sức khỏe, sẵn sàng thảm họa và giáo dục.
Trong chăm sóc sức khỏe, AI hứa hẹn sẽ dân chủ hóa chăm sóc chất lượng, đặc biệt là trong việc phát hiện sớm bệnh tim mạch. Nghiên cứu của chúng tôi cho thấy rằng một thiết bị ngón tay đơn giản, kết hợp với siêu dữ liệu cơ bản, có thể dự đoán rủi ro sức khỏe tim mạch. Chúng tôi cũng nâng cao chẩn đoán hỗ trợ AI cho bệnh lao, cho thấy cách AI có thể sàng lọc các quần thể với tỷ lệ bệnh lao cao và HIV hiệu quả.
Chúng tôi cũng đang khám phá cách học máy có thể giải quyết tình trạng thiếu hụt chuyên môn hình ảnh trong các lĩnh vực như X quang, da liễu và bệnh lý. Chúng tôi đã phát hành DERM Foundation và Path Foundation cho các nhiệm vụ chẩn đoán và khám phá dấu ấn sinh học, hợp tác với bộ dữ liệu Stanford Medicine trên mạng lưới điều kiện da (SCIN) và tiết lộ CT Foundation cho nghiên cứu hình ảnh y tế.
Trong giáo dục, chúng tôi đã giới thiệu LearnLM, một gia đình mô hình tinh chỉnh để học, nâng cao trải nghiệm trong tìm kiếm, YouTube và Gemini. Learnlm vượt trội so với các mô hình AI hàng đầu khác và chúng tôi đã cung cấp cho các nhà phát triển trong AI Studio. Người bạn đồng hành học trò chuyện của chúng tôi, Learnabout và công cụ thảo luận âm thanh, chiếu sáng, làm phong phú thêm kinh nghiệm học tập.
Trong dự báo và chuẩn bị thiên tai, chúng tôi đã giới thiệu gencast, cải thiện dự báo thời tiết và sự kiện cực đoan, và thần kinh, có khả năng mô phỏng hàng ngàn ngày trong điều kiện khí quyển. Graphcast, đã giành giải thưởng Macrobert 2024, cung cấp dự đoán thời tiết chi tiết.
Chúng tôi đã cải thiện mô hình dự báo lũ lụt của chúng tôi để dự đoán lũ lụt trước bảy ngày, mở rộng phạm vi bảo hiểm cho 100 quốc gia và 700 triệu người.
Chúng tôi đã mở rộng Google Dịch để bao gồm 110 ngôn ngữ mới, giúp phá vỡ các rào cản đối với thông tin và cơ hội cho hơn 614 triệu người nói.
Giúp thiết lập tiêu chuẩn trong AI có trách nhiệm
Chúng tôi tiếp tục nghiên cứu hàng đầu trong ngành về an toàn AI, phát triển các công cụ và kỹ thuật mới và tích hợp chúng vào các mô hình mới nhất của chúng tôi. Chúng tôi cam kết hợp tác để giải quyết rủi ro.
Nghiên cứu của chúng tôi về lạm dụng cho thấy rằng giả mạo và bẻ khóa là những vấn đề phổ biến nhất. Vào tháng 5, chúng tôi đã giới thiệu Khung an toàn Frontier để xác định các khả năng mới nổi trong các mô hình AI tiên tiến của chúng tôi và đưa ra khung vòng đời trách nhiệm AI của chúng tôi. Vào tháng 10, chúng tôi đã mở rộng bộ công cụ Genai có trách nhiệm của mình để làm việc với bất kỳ LLM nào, giúp các nhà phát triển xây dựng AI một cách có trách nhiệm.
Chúng tôi đã phát hành một bài báo về đạo đức của các trợ lý AI tiên tiến, kiểm tra bối cảnh kỹ thuật và đạo đức của các trợ lý AI và các cơ hội và rủi ro mà họ gây ra.
Chúng tôi đã mở rộng khả năng của Synthid sang văn bản do Watermark tạo ra trong ứng dụng Song Tử và Trải nghiệm web và Video trong VEO. Để tăng cường tính minh bạch trực tuyến, chúng tôi đã tham gia Liên minh xuất xứ nội dung và tính xác thực (C2PA) và làm việc trên một phiên bản mới, an toàn hơn của tiêu chuẩn thông tin xác thực nội dung.
Ngoài LLM, chúng tôi đã chia sẻ phương pháp an toàn sinh học của chúng tôi cho Alphafold 3, làm việc với các đối tác trong ngành để ra mắt Liên minh cho AI (COSAI) an toàn và tham gia Hội nghị thượng đỉnh AI Seoul để đóng góp cho quản trị AI quốc tế.
Khi chúng tôi phát triển các công nghệ mới như Đại lý AI, chúng tôi sẽ tiếp tục khám phá các câu hỏi về an toàn, bảo mật và quyền riêng tư. Được hướng dẫn bởi các nguyên tắc AI của chúng tôi, chúng tôi đang thực hiện một cách tiếp cận có chủ ý, dần dần, tiến hành nghiên cứu sâu rộng, đào tạo an toàn và đánh giá rủi ro với những người thử nghiệm đáng tin cậy và các chuyên gia bên ngoài.
Nhìn về phía trước đến năm 2025
Năm 2024 là một năm tiến bộ và phấn khích đáng kinh ngạc trong AI. Chúng tôi thậm chí còn hồi hộp hơn về những gì sắp diễn ra vào năm 2025.
Khi chúng tôi tiếp tục vượt qua ranh giới của nghiên cứu AI trong các sản phẩm, khoa học, sức khỏe và sáng tạo, chúng tôi phải xem xét chu đáo cách thức và thời điểm triển khai các công nghệ này. Bằng cách ưu tiên thực hành AI có trách nhiệm và thúc đẩy sự hợp tác, chúng tôi sẽ tiếp tục đóng một vai trò quan trọng trong việc xây dựng một tương lai nơi AI mang lại lợi ích cho nhân loại.




2024 was a wild ride with AI! From Gemini 2.0 to quantum computing, it's like we're living in a sci-fi movie. Loved seeing all the creative stuff AI can do, but sometimes it felt a bit too much, you know? Can't wait to see what 2025 brings, but maybe slow down a bit, AI?




¡2024 fue increíble con la IA! Desde Gemini 2.0 hasta la computación cuántica, parece que vivimos en una película de ciencia ficción. Me encantó ver todo lo creativo que puede hacer la IA, pero a veces se sintió un poco abrumador, ¿sabes? Espero con ansias lo que 2025 traiga, pero tal vez, ¿puede la IA ralentizar un poco?




2024年はAIがすごかったね!ジェミニ2.0から量子コンピューティングまで、まるでSF映画に住んでいるみたい。AIができるクリエイティブなことが大好きだけど、時々少し多すぎる感じがするんだよね。2025年が楽しみだけど、AI、ちょっとペースを落とそうか?




2024 war ein wilder Ritt mit KI! Von Gemini 2.0 bis zur Quantencomputing, es fühlt sich an, als lebten wir in einem Sci-Fi-Film. Ich liebe das kreative Zeug, was KI kann, aber manchmal war es ein bisschen zu viel, weißt du? Ich freue mich auf 2025, aber vielleicht sollte die KI ein bisschen langsamer machen?




Năm 2024 thật tuyệt vời với trí tuệ nhân tạo! Từ Gemini 2.0 đến máy tính lượng tử, cảm giác như chúng ta đang sống trong phim khoa học viễn tưởng. Mình thích những điều sáng tạo mà AI có thể làm, nhưng đôi khi nó hơi quá sức, bạn biết đấy? Mong chờ năm 2025, nhưng có lẽ AI nên chậm lại một chút?




2024 was wild! AI's growth was insane, from Gemini 2.0 to protein binders. It's like every week there was something new and mind-blowing. Can't wait to see what 2025 brings, but 2024 set the bar high!












