2024: l'année de la croissance et de l'innovation remarquables de l'IA

Alors que nous entrons en 2025, il est excitant de réfléchir aux progrès incroyables que nous avons réalisés en 2024. Depuis le lancement des modèles Gemini 2.0 adaptés à l'ère agentique à l'autonomisation de l'expression créative, et de la conception de nouveaux liants protéiques à l'avancement des neurosciences compatibles AI et en bordeaux quantiques, nous avons repoussé les limites de l'intelligence artificielle de l'intelligence responsable et en grave. Tous ces efforts visent à exploiter l'IA pour le plus grand bien de l'humanité.
Comme nous l'avons mentionné dans notre essai * Pourquoi nous nous concentrons sur l'IA * il y a deux ans, notre approche du développement de l'IA est enracinée dans notre mission fondatrice pour organiser les informations du monde et la rendre universellement accessible et utile. Cette mission stimule notre engagement à améliorer la vie de autant de personnes que possible, un objectif qui reste notre North Star.
Au cours de notre année en 2024, nous célébrons les réalisations remarquables des nombreuses équipes talentueuses de Google qui ont travaillé sans relâche pour faire progresser notre mission. Leurs efforts ont préparé le terrain pour des développements encore plus excitants au cours de l'année à venir.
Innovation incessante dans les modèles, les produits et les technologies
2024 était une question d'expérimentation, de déploiement rapide et de mettre nos dernières technologies entre les mains des développeurs. En décembre, nous avons dévoilé les premiers modèles de notre série expérimentale Gemini 2.0, conçue spécifiquement pour l'ère agentique. Nous avons lancé les choses avec Gemini 2.0 Flash, notre cheval de bataille polyvalent, suivi de prototypes de pointe de notre recherche agentique. Il s'agit notamment d'un projet mis à jour Astra, explorant le potentiel d'un assistant d'IA universel; Project Mariner, un premier prototype capable d'effectuer des actions dans Chrome comme extension expérimentale; et Jules, un agent de code alimenté par AI. Nous sommes impatients d'intégrer les capacités de Gemini 2.0 dans nos produits phares, et nous avons déjà commencé à tester dans les aperçus de l'IA dans la recherche, utilisé par plus d'un milliard de personnes pour explorer de nouveaux types de questions.
Nous avons également déployé Deep Research, une nouvelle fonctionnalité agentique de Gemini Advanced qui permet d'économiser des heures de recherche en créant et en exécutant des plans en plusieurs étapes pour répondre à des questions complexes. De plus, nous avons introduit Gemini 2.0 Flash Thinking Experimental, un modèle qui affiche de manière transparente son processus de réflexion. Plus tôt dans l'année, nous avons fait des progrès importants en intégrant les capacités de Gemini en plus de produits Google et en lançant Gemini 1.5 Pro et Gemini 1.5 Flash. Ce dernier, optimisé pour la vitesse et l'efficacité, est devenu notre modèle le plus populaire parmi les développeurs grâce à sa taille compacte et sa rentabilité.
Nous avons également amélioré AI Studio, ce qui en rend disponible en tant qu'application Web progressive (PWA) installable sur Desktop, iOS et Android, offrant aux développeurs un ensemble robuste de ressources. La réponse du public aux nouvelles fonctionnalités de Notebooklm, telles que des aperçus audio, a été fantastique. Ces fonctionnalités peuvent générer des discussions de plongée en profondeur à partir du matériel source téléchargé, ce qui rend l'apprentissage plus engageant.
L'entrée et la sortie de la parole continuent d'être affinées dans des produits comme Gemini Live, Project Astra, Journey Voices et le doublage automatique de YouTube, l'amélioration de l'interaction utilisateur.
Conformément à notre tradition de contribution à la communauté ouverte, nous avons publié deux nouveaux modèles de Gemma, notre modèle ouvert de pointe, construit sur les mêmes recherches et technologies que les Gémeaux. Gemma a surperformé des modèles de taille similaire dans des domaines tels que la réponse aux questions, le raisonnement et le codage. Nous avons également publié Gemma Scope, un outil pour aider les chercheurs à comprendre le fonctionnement intérieur de Gemma 2.
Nous avons fait des progrès pour améliorer la factualité de nos modèles et réduire les hallucinations. En décembre, nous avons publié Facts Fatching, une référence développée en collaboration avec Google Deepmind, Google Research et Kaggle, pour évaluer dans quelle mesure les modèles de langage sont bien fondés dans leurs réponses dans le matériel source fourni et éviter les hallucinations.
L'ensemble de données de mise à la terre des faits, avec 1 719 exemples, est conçu pour tester des réponses longues fondées sur des documents de contexte. Nous avons testé les LLM de premier plan en utilisant des faits à la mise à la terre, et nous sommes fiers d'annoncer que Gemini 2.0 Flash Experimental, Gemini 1.5 Flash et Gemini 1.5 Pro ont atteint les trois meilleurs scores de factualité, avec des Gémini-2,0-Flash-Exp marquant un impressionnant 83,6%. Nous avons également amélioré l'efficacité de la ML grâce à des techniques innovantes telles que le décodage parallèle en bloc, le report basé sur la confiance et le décodage spéculatif, qui accélèrent les temps d'inférence des LLM. Ces améliorations bénéficient aux produits Google et fixent les normes de l'industrie.
Dans le sport, nous avons lancé Tacticai, un système d'IA pour les tactiques de football qui fournit des informations tactiques, en particulier sur les coups de pied d'angle.
Notre engagement envers le leadership de la recherche reste fort. Une enquête WIPO 2010-2023 sur les citations génératrices de l'IA a montré que Google, y compris Google Research et Google Deepmind, a reçu plus du double des citations de l'institution la plus citée.
Ce graphique WIPO, basé sur les données de janvier 2024 de l'objectif, met en évidence les contributions importantes d'Alphabet à la recherche générative de l'IA au cours de la dernière décennie. Enfin, nous avons progressé avec Project Starline, notre technologie "Magic Window", en partenariat avec HP pour le commercialiser, visant à l'intégrer dans des services de vidéoconférence comme Google Meet et Zoom. Autonomiser la vision créative avec une IA générative
Nous pensons que l'IA peut débloquer de nouveaux domaines de la créativité, rendant l'expression créative plus accessible et aidant les gens à réaliser leurs visions artistiques. En 2024, nous avons introduit une série de mises à jour de nos outils médiatiques génératifs, couvrant les images, la musique et la vidéo.
Au début de l'année, nous avons lancé ImageFX et MusicFX, des outils d'IA génératifs qui créent des images et des clips audio à 70 secondes à partir d'invites de texte. Chez E / S, nous avons prévisualisé MusicFX DJ, conçu pour rendre la création de musique live plus accessible. En octobre, nous avons travaillé avec Jacob Collier pour simplifier MusicFX DJ pour les musiciens nouveaux et en herbe. Nous avons également mis à jour notre boîte à outils Music AI, notre bac à sable Music Ai et évolué notre expérience de piste de rêve, nous permettant aux créateurs de générer des bandes sonores instrumentales dans divers genres à l'aide de modèles de texte à musique.
Plus tard dans l'année, nous avons sorti Veo 2 et Imagen 3, nos derniers modèles d'image et de vidéo. Imagen 3, notre modèle de texte à image de la plus haute qualité, génère des images avec des détails supérieurs, un éclairage et moins d'artefacts. Veo 2 a démontré une meilleure compréhension de la physique du monde réel et du mouvement humain, améliorant le réalisme. Veo 2 marque une progression importante de la génération de vidéos de haute qualité. Nous avons continué à explorer le potentiel de l'IA dans l'édition, en l'utilisant pour contrôler les attributs tels que la transparence et la rugosité des objets.
Ces exemples présentent la capacité de l'IA à modifier les propriétés des matériaux en utilisant la génération de données synthétiques. Dans la génération audio, nous avons amélioré la technologie vidéo-audio (V2A), générant des paysages sonores dynamiques à partir d'invites de texte basées sur l'action à l'écran, qui peut être associée à une vidéo générée par l'AI de VEO.
Les jeux offrent un terrain de jeu parfait pour l'exploration créative et l'entraînement des agents incarnés. En 2024, nous avons introduit Genie 2, un modèle mondial de fondation qui génère des environnements 3D jouables divers pour la formation et l'évaluation des agents incarnés. Cela a suivi le lancement de SIMA, qui peut suivre les instructions en langage naturel dans divers paramètres de jeux vidéo.
L'architecture de l'intelligence: progrès en robotique, matériel et informatique
Alors que nos modèles multimodaux deviennent plus aptes à comprendre la physique du monde, ils permettent des progrès passionnants en robotique. Nous nous rapprochons de notre objectif de robots plus compétents et utiles.
Avec Aloha Unleashed, nos tâches maîtrisées par les robots comme attacher des lacets, suspendre des chemises, réparer d'autres robots, insérer des engrenages et nettoyer les cuisines. Au début de l'année, nous avons introduit les extensions Autor, Sara-RT et RT-Trajectory, nos transformateurs robotiques fonctionnent pour aider les robots à mieux naviguer dans leur environnement et à prendre des décisions plus rapides. Nous avons également publié Aloha Unleashed, enseignant aux robots de coordonner deux bras, et DeMostart, qui utilise l'apprentissage du renforcement pour améliorer les performances du monde réel sur une main robotique à migothérapie à l'aide de simulations.
Robotic Transformer 2 (RT-2) apprend à la fois des données sur le Web et la robotique, lui permettant d'effectuer des tâches comme placer une fraise dans un bol. Au-delà de la robotique, notre méthode d'apprentissage en renforcement alphachip révolutionne le plan de plancher des puces pour les centres de données et les smartphones. Nous avons publié un point de contrôle pré-formé pour faciliter l'adoption externe de la libération open source d'Alphachip. Nous avons également mis Trillium, notre TPU de sixième génération, disponible pour les clients de Google Cloud, montrant comment l'IA peut améliorer la conception des puces. Alphachip apprend à optimiser les dispositions de puces, s'améliorant avec chaque conception qu'il crée. Nos recherches ont également abordé la correction des erreurs dans les ordinateurs quantiques. En novembre, nous avons lancé Alphaqubit, un décodeur basé sur l'IA qui identifie les erreurs informatiques quantiques avec une grande précision. Cette collaboration entre Google Deepmind et Google Research a accéléré les progrès vers des ordinateurs quantiques fiables. Dans les tests, Alphaqubit a réduit les erreurs de 6% par rapport aux méthodes du réseau tenseur et de 30% par rapport à la correspondance corrélée.
En décembre, l'équipe Google Quantum AI a dévoilé Willow, notre dernière puce quantique. Willow peut effectuer un calcul de référence en moins de cinq minutes qui prendrait les supercalculateurs les plus rapides d'aujourd'hui 10 septillion. En utilisant la correction d'erreur quantique, le saule a réduit de moitié le taux d'erreur, atteignant un jalon appelé "seuil inférieur" et gagnant la bourse de percée de la physique de l'année.
Willow présente les performances de pointe dans l'informatique quantique. Découvrir de nouvelles solutions: progrès dans les sciences, la biologie et les mathématiques
Nous avons continué à accélérer les progrès scientifiques avec l'IA, en libérant des outils et des articles qui démontrent le pouvoir de l'IA dans l'avancement des sciences et des mathématiques. Voici quelques faits saillants:
En janvier, nous avons introduit l'alphageométrie, un système d'IA pour résoudre des problèmes de géométrie complexes. Notre alphageométrie 2 mise à jour et Alphaproof, un système basé sur l'apprentissage par renforcement pour le raisonnement formel des mathématiques, ont atteint la performance des médaillés d'argent lors de l'Olympiade mathématique internationale de juillet 2024.
Alphageométrie 2 a résolu le problème 4 de l'Olympiade mathématique internationale de juillet 2024 en seulement 19 secondes, prouvant que ∠Kil + ∠xpy équivaut à 180 °. En collaboration avec les laboratoires isomorphes, nous avons introduit Alphafold 3, qui prédit la structure et les interactions des molécules de la vie, visant à transformer notre compréhension de la biologie et de la découverte de médicaments. L'architecture et la formation avancées d'Alphafold 3 couvrent toutes les molécules de la vie, des protéines à l'ADN. Nous avons également fait des progrès importants dans la conception des protéines avec Alphaproteo, un système d'IA pour créer des liants protéiques à haute résistance, ce qui pourrait conduire à de nouveaux médicaments et biocapteurs. Alphaproteo peut concevoir de nouveaux liants protéiques pour diverses protéines cibles. En collaboration avec le Lichtman Lab de Harvard, nous avons produit une cartographie nano-échelle d'un morceau du cerveau humain, un premier du genre, et l'avons mis à disposition pour les chercheurs. Cela suit notre effort d'une décennie dans la connexion, s'étendant maintenant à la cartographie du cerveau humain.
Ce projet de cartographie du cerveau révèle des grappes de cellules d'image miroir dans la couche la plus profonde du cortex. Fin novembre, nous avons co-organisé l'IA pour le Forum scientifique avec la Royal Society, discutant de sujets clés comme la prédiction de la structure des protéines, la cartographie du cerveau humain et l'utilisation de l'IA pour la prévision et la détection des incendies de forêt. Nous avons également hébergé un Q&R avec quatre lauréats Nobel sur le forum, disponibles sur le podcast Google DeepMind.
2024 a également été une année historique alors que Demis Hassabis, John Jumper et David Baker ont reçu le prix Nobel de chimie pour leur travail sur Alphafold 2, reconnu pour une conception de protéines révolutionnante. Geoffrey Hinton, ainsi que John Hopfield, ont reçu le prix Nobel de physique pour un travail fondamental dans l'apprentissage automatique avec des réseaux de neurones artificiels.
Google a également reçu des distinctions supplémentaires, notamment les prix des prix de Time Paper, Test of Time, Test de Time et le prix Beale - Orchard-Hays pour la programmation linéaire primal dual (PDLP), faisant désormais partie de Google ou des outils, en aidant à une programmation linéaire à grande échelle avec des applications du monde réel.
AI pour le bénéfice de l'humanité
Cette année, nous avons fait des avancées sur les produits importantes et publié des recherches démontrant comment l'IA peut être directement et immédiatement bénéficiaire aux personnes dans des domaines comme les soins de santé, la préparation aux catastrophes et l'éducation.
Dans les soins de santé, l'IA promet de démocratiser les soins de qualité, en particulier dans la détection précoce des maladies cardiovasculaires. Nos recherches ont montré qu'un simple appareil du doigt, combiné à des métadonnées de base, peut prédire les risques de santé cardiaque. Nous avons également avancé des diagnostics compatibles AI pour la tuberculose, montrant comment l'IA peut filtrer efficacement les populations avec des taux de tuberculose et de VIH élevés.
Med-Gemini a obtenu un nouveau score de pointe sur la référence MEDQA, dépassant notre précédent meilleur, Med-Palm 2, de 4,6%. Notre modèle Gemini est un outil polyvalent pour les professionnels, et nous développons des modèles affinés pour des domaines spécifiques. Med-Gemini, par exemple, combine une formation sur les données médicales de désintégration avec les capacités de Gemini, atteignant une précision de 91,1% sur le référence de questions de style Medqa USMLE. Nous explorons également comment l'apprentissage automatique peut répondre aux pénuries dans l'expertise d'imagerie dans des domaines comme la radiologie, la dermatologie et la pathologie. Nous avons publié Derm Foundation and Path Foundation for Diagnostic Tasks and Biomarker Discovery, collaboré avec Stanford Medicine on the Skin Condition Network (SCIN) Dataset et dévoilé CT Foundation for Medical Imaging Research.
Dans l'éducation, nous avons introduit Learnlm, une famille de modèles affinés pour l'apprentissage, l'amélioration des expériences de recherche, YouTube et Gemini. Learnlm a surpassé les autres modèles d'IA principaux, et nous l'avons mis à la disposition des développeurs de l'IA Studio. Notre compagnon d'apprentissage conversationnel, l'apprentissage et l'outil de discussion audio, illuminent, enrichissent davantage les expériences d'apprentissage.
Dans les prévisions et la préparation aux catastrophes, nous avons introduit Gencast, améliorant les conditions météorologiques et les prévisions d'événements extrêmes, et NEURALGCM, capable de simuler des milliers de jours de conditions atmosphériques. Graphcast, qui a remporté le prix Macrobert 2024, fournit des prédictions météorologiques détaillées.
Les prédictions de Graphcast sur 10 jours présentent une humidité spécifique, une température de surface et une vitesse du vent. Nous avons amélioré notre modèle de prévision des inondations pour prédire les inondations sept jours à l'avance, élargissant la couverture dans 100 pays et 700 millions de personnes.
Notre modèle de prévision des inondations couvre désormais plus de 100 pays, avec des jauges virtuelles dans 150 pays où les jauges physiques ne sont pas disponibles. L'IA contribue également à la détection et à l'atténuation des incendies de forêt. Nos cartes de limites des incendies de forêt sont désormais disponibles dans 22 pays, et nous avons créé Firesat, une constellation par satellite qui peut détecter de petites incendies de forêt dans les 20 minutes. Nous avons élargi Google Translate pour inclure 110 nouvelles langues, aidant à décomposer les obstacles à l'information et aux opportunités pour plus de 614 millions de conférenciers.
Ces nouvelles langues dans Google Translate représentent 8% de la population mondiale. Aider à établir la norme dans l'IA responsable
Nous avons poursuivi nos recherches de pointe dans la sécurité de l'IA, en développant de nouveaux outils et techniques et en les intégrant dans nos derniers modèles. Nous nous engageons à collaborer pour faire face aux risques.
Nos recherches sur une mauvaise utilisation ont révélé que les contrefaçons et les jailbreaks profonds sont les problèmes les plus courants. En mai, nous avons introduit le cadre de sécurité frontière pour identifier les capacités émergentes dans nos modèles AI avancés et lancé notre cadre de cycle de vie de la responsabilité de l'IA. En octobre, nous avons élargi notre boîte à outils Genai responsable pour travailler avec n'importe quel LLM, aidant les développeurs à construire de manière responsable.
Nous avons publié un article sur l'éthique des assistants avancés de l'IA, examinant le paysage technique et moral des assistants de l'IA et les opportunités et les risques qu'ils posent.
Nous avons élargi les capacités de SynthID à filigraner le texte généré par l'IA dans l'application Gemini et l'expérience et la vidéo Web dans VEO. Pour améliorer la transparence en ligne, nous avons rejoint la Coalition for Content Provenance and Authenticité (C2PA) et travaillé sur une nouvelle version plus sécurisée de la norme de contenu des informations d'identification.
Synthed ajuste les scores de probabilité de jetons prévus pour garantir la qualité, la précision et la créativité dans le contenu généré par l'IA. Au-delà de la LLMS, nous avons partagé notre approche de biosécurité pour Alphafold 3, travaillé avec des partenaires de l'industrie pour lancer la coalition pour Secure IA (COSAI) et participé au sommet de l'IA Séoul pour contribuer à la gouvernance internationale de l'IA.
Alors que nous développons de nouvelles technologies comme les agents de l'IA, nous continuerons à explorer les questions de sécurité, de sécurité et de confidentialité. Guidés par nos principes de l'IA, nous prenons une approche délibérée et progressive, effectuant une recherche approfondie, une formation en sécurité et des évaluations des risques avec des testeurs de confiance et des experts externes.
Dans la recherche de 2025
2024 a été une année de progrès et d'excitation incroyables dans l'IA. Nous sommes encore plus ravis de ce qui arrive en 2025.
Alors que nous continuons à repousser les limites de la recherche sur l'IA sur les produits, la science, la santé et la créativité, nous devons réfléchir de manière réfléchie comment et quand déployer ces technologies. En priorisant les pratiques responsables de l'IA et en favorisant la collaboration, nous continuerons à jouer un rôle crucial dans la construction d'un avenir où l'IA profite de l'humanité.
Article connexe
Nouvelle étude révèle combien de données les LLM mémorisent réellement
Combien les modèles d'IA mémorisent-ils réellement ? Une nouvelle recherche révèle des insights surprenantsNous savons tous que les grands modèles de langage (LLM) comme ChatGPT, Claude et Gemini sont
Potentiel de l'IA pour résoudre le puzzle de la productivité au Royaume-Uni
L'IA pourrait stimuler l'économie britannique de 400 milliards de livres – mais seulement si les travailleurs l'adoptentLe Royaume-Uni est à l'aube d'une opportunité économique massive—400 milliards d
9 Meilleurs Outils de Recrutement IA (Avril 2025)
Les 10 meilleurs outils de recrutement IA transformant l'embauche en 2024L'intelligence artificielle révolutionne le recrutement, et pour cause. Les entreprises submergées par les CV et les plannings
commentaires (25)
0/200
JustinMartin
12 avril 2025 00:00:00 UTC
2024 was a wild ride with AI! From Gemini 2.0 to quantum computing, it's like we're living in a sci-fi movie. Loved seeing all the creative stuff AI can do, but sometimes it felt a bit too much, you know? Can't wait to see what 2025 brings, but maybe slow down a bit, AI?
0
BillyEvans
12 avril 2025 00:00:00 UTC
¡2024 fue increíble con la IA! Desde Gemini 2.0 hasta la computación cuántica, parece que vivimos en una película de ciencia ficción. Me encantó ver todo lo creativo que puede hacer la IA, pero a veces se sintió un poco abrumador, ¿sabes? Espero con ansias lo que 2025 traiga, pero tal vez, ¿puede la IA ralentizar un poco?
0
WalterWhite
10 avril 2025 00:00:00 UTC
2024年はAIがすごかったね!ジェミニ2.0から量子コンピューティングまで、まるでSF映画に住んでいるみたい。AIができるクリエイティブなことが大好きだけど、時々少し多すぎる感じがするんだよね。2025年が楽しみだけど、AI、ちょっとペースを落とそうか?
0
WillieRodriguez
11 avril 2025 00:00:00 UTC
2024 war ein wilder Ritt mit KI! Von Gemini 2.0 bis zur Quantencomputing, es fühlt sich an, als lebten wir in einem Sci-Fi-Film. Ich liebe das kreative Zeug, was KI kann, aber manchmal war es ein bisschen zu viel, weißt du? Ich freue mich auf 2025, aber vielleicht sollte die KI ein bisschen langsamer machen?
0
KeithJones
12 avril 2025 00:00:00 UTC
Năm 2024 thật tuyệt vời với trí tuệ nhân tạo! Từ Gemini 2.0 đến máy tính lượng tử, cảm giác như chúng ta đang sống trong phim khoa học viễn tưởng. Mình thích những điều sáng tạo mà AI có thể làm, nhưng đôi khi nó hơi quá sức, bạn biết đấy? Mong chờ năm 2025, nhưng có lẽ AI nên chậm lại một chút?
0
StephenRamirez
10 avril 2025 00:00:00 UTC
2024 was wild! AI's growth was insane, from Gemini 2.0 to protein binders. It's like every week there was something new and mind-blowing. Can't wait to see what 2025 brings, but 2024 set the bar high!
0
Alors que nous entrons en 2025, il est excitant de réfléchir aux progrès incroyables que nous avons réalisés en 2024. Depuis le lancement des modèles Gemini 2.0 adaptés à l'ère agentique à l'autonomisation de l'expression créative, et de la conception de nouveaux liants protéiques à l'avancement des neurosciences compatibles AI et en bordeaux quantiques, nous avons repoussé les limites de l'intelligence artificielle de l'intelligence responsable et en grave. Tous ces efforts visent à exploiter l'IA pour le plus grand bien de l'humanité.
Comme nous l'avons mentionné dans notre essai * Pourquoi nous nous concentrons sur l'IA * il y a deux ans, notre approche du développement de l'IA est enracinée dans notre mission fondatrice pour organiser les informations du monde et la rendre universellement accessible et utile. Cette mission stimule notre engagement à améliorer la vie de autant de personnes que possible, un objectif qui reste notre North Star.
Au cours de notre année en 2024, nous célébrons les réalisations remarquables des nombreuses équipes talentueuses de Google qui ont travaillé sans relâche pour faire progresser notre mission. Leurs efforts ont préparé le terrain pour des développements encore plus excitants au cours de l'année à venir.
Innovation incessante dans les modèles, les produits et les technologies
2024 était une question d'expérimentation, de déploiement rapide et de mettre nos dernières technologies entre les mains des développeurs. En décembre, nous avons dévoilé les premiers modèles de notre série expérimentale Gemini 2.0, conçue spécifiquement pour l'ère agentique. Nous avons lancé les choses avec Gemini 2.0 Flash, notre cheval de bataille polyvalent, suivi de prototypes de pointe de notre recherche agentique. Il s'agit notamment d'un projet mis à jour Astra, explorant le potentiel d'un assistant d'IA universel; Project Mariner, un premier prototype capable d'effectuer des actions dans Chrome comme extension expérimentale; et Jules, un agent de code alimenté par AI. Nous sommes impatients d'intégrer les capacités de Gemini 2.0 dans nos produits phares, et nous avons déjà commencé à tester dans les aperçus de l'IA dans la recherche, utilisé par plus d'un milliard de personnes pour explorer de nouveaux types de questions.
Plus tôt dans l'année, nous avons fait des progrès importants en intégrant les capacités de Gemini en plus de produits Google et en lançant Gemini 1.5 Pro et Gemini 1.5 Flash. Ce dernier, optimisé pour la vitesse et l'efficacité, est devenu notre modèle le plus populaire parmi les développeurs grâce à sa taille compacte et sa rentabilité.
Nous avons également amélioré AI Studio, ce qui en rend disponible en tant qu'application Web progressive (PWA) installable sur Desktop, iOS et Android, offrant aux développeurs un ensemble robuste de ressources. La réponse du public aux nouvelles fonctionnalités de Notebooklm, telles que des aperçus audio, a été fantastique. Ces fonctionnalités peuvent générer des discussions de plongée en profondeur à partir du matériel source téléchargé, ce qui rend l'apprentissage plus engageant.
L'entrée et la sortie de la parole continuent d'être affinées dans des produits comme Gemini Live, Project Astra, Journey Voices et le doublage automatique de YouTube, l'amélioration de l'interaction utilisateur.
Conformément à notre tradition de contribution à la communauté ouverte, nous avons publié deux nouveaux modèles de Gemma, notre modèle ouvert de pointe, construit sur les mêmes recherches et technologies que les Gémeaux. Gemma a surperformé des modèles de taille similaire dans des domaines tels que la réponse aux questions, le raisonnement et le codage. Nous avons également publié Gemma Scope, un outil pour aider les chercheurs à comprendre le fonctionnement intérieur de Gemma 2.
Nous avons fait des progrès pour améliorer la factualité de nos modèles et réduire les hallucinations. En décembre, nous avons publié Facts Fatching, une référence développée en collaboration avec Google Deepmind, Google Research et Kaggle, pour évaluer dans quelle mesure les modèles de langage sont bien fondés dans leurs réponses dans le matériel source fourni et éviter les hallucinations.
Nous avons également amélioré l'efficacité de la ML grâce à des techniques innovantes telles que le décodage parallèle en bloc, le report basé sur la confiance et le décodage spéculatif, qui accélèrent les temps d'inférence des LLM. Ces améliorations bénéficient aux produits Google et fixent les normes de l'industrie.
Dans le sport, nous avons lancé Tacticai, un système d'IA pour les tactiques de football qui fournit des informations tactiques, en particulier sur les coups de pied d'angle.
Notre engagement envers le leadership de la recherche reste fort. Une enquête WIPO 2010-2023 sur les citations génératrices de l'IA a montré que Google, y compris Google Research et Google Deepmind, a reçu plus du double des citations de l'institution la plus citée.
Autonomiser la vision créative avec une IA générative
Nous pensons que l'IA peut débloquer de nouveaux domaines de la créativité, rendant l'expression créative plus accessible et aidant les gens à réaliser leurs visions artistiques. En 2024, nous avons introduit une série de mises à jour de nos outils médiatiques génératifs, couvrant les images, la musique et la vidéo.
Au début de l'année, nous avons lancé ImageFX et MusicFX, des outils d'IA génératifs qui créent des images et des clips audio à 70 secondes à partir d'invites de texte. Chez E / S, nous avons prévisualisé MusicFX DJ, conçu pour rendre la création de musique live plus accessible. En octobre, nous avons travaillé avec Jacob Collier pour simplifier MusicFX DJ pour les musiciens nouveaux et en herbe. Nous avons également mis à jour notre boîte à outils Music AI, notre bac à sable Music Ai et évolué notre expérience de piste de rêve, nous permettant aux créateurs de générer des bandes sonores instrumentales dans divers genres à l'aide de modèles de texte à musique.
Nous avons continué à explorer le potentiel de l'IA dans l'édition, en l'utilisant pour contrôler les attributs tels que la transparence et la rugosité des objets.
Dans la génération audio, nous avons amélioré la technologie vidéo-audio (V2A), générant des paysages sonores dynamiques à partir d'invites de texte basées sur l'action à l'écran, qui peut être associée à une vidéo générée par l'AI de VEO.
Les jeux offrent un terrain de jeu parfait pour l'exploration créative et l'entraînement des agents incarnés. En 2024, nous avons introduit Genie 2, un modèle mondial de fondation qui génère des environnements 3D jouables divers pour la formation et l'évaluation des agents incarnés. Cela a suivi le lancement de SIMA, qui peut suivre les instructions en langage naturel dans divers paramètres de jeux vidéo.
L'architecture de l'intelligence: progrès en robotique, matériel et informatique
Alors que nos modèles multimodaux deviennent plus aptes à comprendre la physique du monde, ils permettent des progrès passionnants en robotique. Nous nous rapprochons de notre objectif de robots plus compétents et utiles.
Au début de l'année, nous avons introduit les extensions Autor, Sara-RT et RT-Trajectory, nos transformateurs robotiques fonctionnent pour aider les robots à mieux naviguer dans leur environnement et à prendre des décisions plus rapides. Nous avons également publié Aloha Unleashed, enseignant aux robots de coordonner deux bras, et DeMostart, qui utilise l'apprentissage du renforcement pour améliorer les performances du monde réel sur une main robotique à migothérapie à l'aide de simulations.
Nos recherches ont également abordé la correction des erreurs dans les ordinateurs quantiques. En novembre, nous avons lancé Alphaqubit, un décodeur basé sur l'IA qui identifie les erreurs informatiques quantiques avec une grande précision. Cette collaboration entre Google Deepmind et Google Research a accéléré les progrès vers des ordinateurs quantiques fiables. Dans les tests, Alphaqubit a réduit les erreurs de 6% par rapport aux méthodes du réseau tenseur et de 30% par rapport à la correspondance corrélée.
En décembre, l'équipe Google Quantum AI a dévoilé Willow, notre dernière puce quantique. Willow peut effectuer un calcul de référence en moins de cinq minutes qui prendrait les supercalculateurs les plus rapides d'aujourd'hui 10 septillion. En utilisant la correction d'erreur quantique, le saule a réduit de moitié le taux d'erreur, atteignant un jalon appelé "seuil inférieur" et gagnant la bourse de percée de la physique de l'année.
Découvrir de nouvelles solutions: progrès dans les sciences, la biologie et les mathématiques
Nous avons continué à accélérer les progrès scientifiques avec l'IA, en libérant des outils et des articles qui démontrent le pouvoir de l'IA dans l'avancement des sciences et des mathématiques. Voici quelques faits saillants:
En janvier, nous avons introduit l'alphageométrie, un système d'IA pour résoudre des problèmes de géométrie complexes. Notre alphageométrie 2 mise à jour et Alphaproof, un système basé sur l'apprentissage par renforcement pour le raisonnement formel des mathématiques, ont atteint la performance des médaillés d'argent lors de l'Olympiade mathématique internationale de juillet 2024.
En collaboration avec le Lichtman Lab de Harvard, nous avons produit une cartographie nano-échelle d'un morceau du cerveau humain, un premier du genre, et l'avons mis à disposition pour les chercheurs. Cela suit notre effort d'une décennie dans la connexion, s'étendant maintenant à la cartographie du cerveau humain.
Fin novembre, nous avons co-organisé l'IA pour le Forum scientifique avec la Royal Society, discutant de sujets clés comme la prédiction de la structure des protéines, la cartographie du cerveau humain et l'utilisation de l'IA pour la prévision et la détection des incendies de forêt. Nous avons également hébergé un Q&R avec quatre lauréats Nobel sur le forum, disponibles sur le podcast Google DeepMind.
2024 a également été une année historique alors que Demis Hassabis, John Jumper et David Baker ont reçu le prix Nobel de chimie pour leur travail sur Alphafold 2, reconnu pour une conception de protéines révolutionnante. Geoffrey Hinton, ainsi que John Hopfield, ont reçu le prix Nobel de physique pour un travail fondamental dans l'apprentissage automatique avec des réseaux de neurones artificiels.
Google a également reçu des distinctions supplémentaires, notamment les prix des prix de Time Paper, Test of Time, Test de Time et le prix Beale - Orchard-Hays pour la programmation linéaire primal dual (PDLP), faisant désormais partie de Google ou des outils, en aidant à une programmation linéaire à grande échelle avec des applications du monde réel.
AI pour le bénéfice de l'humanité
Cette année, nous avons fait des avancées sur les produits importantes et publié des recherches démontrant comment l'IA peut être directement et immédiatement bénéficiaire aux personnes dans des domaines comme les soins de santé, la préparation aux catastrophes et l'éducation.
Dans les soins de santé, l'IA promet de démocratiser les soins de qualité, en particulier dans la détection précoce des maladies cardiovasculaires. Nos recherches ont montré qu'un simple appareil du doigt, combiné à des métadonnées de base, peut prédire les risques de santé cardiaque. Nous avons également avancé des diagnostics compatibles AI pour la tuberculose, montrant comment l'IA peut filtrer efficacement les populations avec des taux de tuberculose et de VIH élevés.
Nous explorons également comment l'apprentissage automatique peut répondre aux pénuries dans l'expertise d'imagerie dans des domaines comme la radiologie, la dermatologie et la pathologie. Nous avons publié Derm Foundation and Path Foundation for Diagnostic Tasks and Biomarker Discovery, collaboré avec Stanford Medicine on the Skin Condition Network (SCIN) Dataset et dévoilé CT Foundation for Medical Imaging Research.
Dans l'éducation, nous avons introduit Learnlm, une famille de modèles affinés pour l'apprentissage, l'amélioration des expériences de recherche, YouTube et Gemini. Learnlm a surpassé les autres modèles d'IA principaux, et nous l'avons mis à la disposition des développeurs de l'IA Studio. Notre compagnon d'apprentissage conversationnel, l'apprentissage et l'outil de discussion audio, illuminent, enrichissent davantage les expériences d'apprentissage.
Dans les prévisions et la préparation aux catastrophes, nous avons introduit Gencast, améliorant les conditions météorologiques et les prévisions d'événements extrêmes, et NEURALGCM, capable de simuler des milliers de jours de conditions atmosphériques. Graphcast, qui a remporté le prix Macrobert 2024, fournit des prédictions météorologiques détaillées.
Nous avons amélioré notre modèle de prévision des inondations pour prédire les inondations sept jours à l'avance, élargissant la couverture dans 100 pays et 700 millions de personnes.
Nous avons élargi Google Translate pour inclure 110 nouvelles langues, aidant à décomposer les obstacles à l'information et aux opportunités pour plus de 614 millions de conférenciers.
Aider à établir la norme dans l'IA responsable
Nous avons poursuivi nos recherches de pointe dans la sécurité de l'IA, en développant de nouveaux outils et techniques et en les intégrant dans nos derniers modèles. Nous nous engageons à collaborer pour faire face aux risques.
Nos recherches sur une mauvaise utilisation ont révélé que les contrefaçons et les jailbreaks profonds sont les problèmes les plus courants. En mai, nous avons introduit le cadre de sécurité frontière pour identifier les capacités émergentes dans nos modèles AI avancés et lancé notre cadre de cycle de vie de la responsabilité de l'IA. En octobre, nous avons élargi notre boîte à outils Genai responsable pour travailler avec n'importe quel LLM, aidant les développeurs à construire de manière responsable.
Nous avons publié un article sur l'éthique des assistants avancés de l'IA, examinant le paysage technique et moral des assistants de l'IA et les opportunités et les risques qu'ils posent.
Nous avons élargi les capacités de SynthID à filigraner le texte généré par l'IA dans l'application Gemini et l'expérience et la vidéo Web dans VEO. Pour améliorer la transparence en ligne, nous avons rejoint la Coalition for Content Provenance and Authenticité (C2PA) et travaillé sur une nouvelle version plus sécurisée de la norme de contenu des informations d'identification.
Au-delà de la LLMS, nous avons partagé notre approche de biosécurité pour Alphafold 3, travaillé avec des partenaires de l'industrie pour lancer la coalition pour Secure IA (COSAI) et participé au sommet de l'IA Séoul pour contribuer à la gouvernance internationale de l'IA.
Alors que nous développons de nouvelles technologies comme les agents de l'IA, nous continuerons à explorer les questions de sécurité, de sécurité et de confidentialité. Guidés par nos principes de l'IA, nous prenons une approche délibérée et progressive, effectuant une recherche approfondie, une formation en sécurité et des évaluations des risques avec des testeurs de confiance et des experts externes.
Dans la recherche de 2025
2024 a été une année de progrès et d'excitation incroyables dans l'IA. Nous sommes encore plus ravis de ce qui arrive en 2025.
Alors que nous continuons à repousser les limites de la recherche sur l'IA sur les produits, la science, la santé et la créativité, nous devons réfléchir de manière réfléchie comment et quand déployer ces technologies. En priorisant les pratiques responsables de l'IA et en favorisant la collaboration, nous continuerons à jouer un rôle crucial dans la construction d'un avenir où l'IA profite de l'humanité.




2024 was a wild ride with AI! From Gemini 2.0 to quantum computing, it's like we're living in a sci-fi movie. Loved seeing all the creative stuff AI can do, but sometimes it felt a bit too much, you know? Can't wait to see what 2025 brings, but maybe slow down a bit, AI?




¡2024 fue increíble con la IA! Desde Gemini 2.0 hasta la computación cuántica, parece que vivimos en una película de ciencia ficción. Me encantó ver todo lo creativo que puede hacer la IA, pero a veces se sintió un poco abrumador, ¿sabes? Espero con ansias lo que 2025 traiga, pero tal vez, ¿puede la IA ralentizar un poco?




2024年はAIがすごかったね!ジェミニ2.0から量子コンピューティングまで、まるでSF映画に住んでいるみたい。AIができるクリエイティブなことが大好きだけど、時々少し多すぎる感じがするんだよね。2025年が楽しみだけど、AI、ちょっとペースを落とそうか?




2024 war ein wilder Ritt mit KI! Von Gemini 2.0 bis zur Quantencomputing, es fühlt sich an, als lebten wir in einem Sci-Fi-Film. Ich liebe das kreative Zeug, was KI kann, aber manchmal war es ein bisschen zu viel, weißt du? Ich freue mich auf 2025, aber vielleicht sollte die KI ein bisschen langsamer machen?




Năm 2024 thật tuyệt vời với trí tuệ nhân tạo! Từ Gemini 2.0 đến máy tính lượng tử, cảm giác như chúng ta đang sống trong phim khoa học viễn tưởng. Mình thích những điều sáng tạo mà AI có thể làm, nhưng đôi khi nó hơi quá sức, bạn biết đấy? Mong chờ năm 2025, nhưng có lẽ AI nên chậm lại một chút?




2024 was wild! AI's growth was insane, from Gemini 2.0 to protein binders. It's like every week there was something new and mind-blowing. Can't wait to see what 2025 brings, but 2024 set the bar high!












