GEMMA 3 de Google atteint 98% de la précision de Deepseek avec un seul GPU
L'économie de l'intelligence artificielle est devenue un sujet majeur récemment, notamment avec la start-up DeepSeek AI qui démontre des économies d'échelle impressionnantes dans l'utilisation des puces GPU. Mais Google ne compte pas se laisser distancer. Mercredi, le géant de la technologie a dévoilé son dernier modèle de langage à grande échelle open-source, Gemma 3, qui atteint presque la précision du modèle R1 de DeepSeek, tout en utilisant beaucoup moins de puissance de calcul.
Google a mesuré ces performances à l'aide des scores "Elo", un système couramment utilisé dans les échecs et les sports pour classer les compétiteurs. Gemma 3 a obtenu un score de 1338, juste en dessous des 1363 de R1, ce qui signifie que R1 surpasse techniquement Gemma 3. Cependant, Google estime qu'il faudrait 32 puces GPU H100 de Nvidia pour atteindre le score de R1, alors que Gemma 3 obtient ses résultats avec une seule puce H100. Google vante cet équilibre entre puissance de calcul et score Elo comme le "point idéal".
Dans un article de blog, Google décrit Gemma 3 comme "le modèle le plus performant que vous pouvez exécuter sur un seul GPU ou TPU", en référence à sa propre puce AI personnalisée, l'"unité de traitement tensoriel". L'entreprise affirme que Gemma 3 "offre des performances de pointe pour sa taille", surpassant des modèles comme Llama-405B, DeepSeek-V3 et o3-mini dans les évaluations de préférence humaine sur le classement de LMArena. Cette performance facilite la création d'expériences utilisateur engageantes sur un hôte GPU ou TPU unique.
Google
Le modèle de Google surpasse également le Llama 3 de Meta en score Elo, que Google estime nécessiter 16 GPU. Il est à noter que ces chiffres pour les modèles concurrents sont des estimations de Google ; DeepSeek AI a seulement révélé utiliser 1 814 GPU H800 de Nvidia, moins puissants, pour R1.
Des informations plus approfondies sont disponibles dans un article de blog pour développeurs sur HuggingFace, où le référentiel de Gemma 3 est accessible. Conçu pour une utilisation sur appareil plutôt que dans des centres de données, Gemma 3 a un nombre de paramètres nettement plus faible comparé à R1 et autres modèles open-source. Avec des comptes de paramètres allant de 1 milliard à 27 milliards, Gemma 3 est assez modeste selon les normes actuelles, tandis que R1 affiche un impressionnant 671 milliards de paramètres, bien qu'il puisse en utiliser sélectivement seulement 37 milliards.
La clé de l'efficacité de Gemma 3 est une technique AI largement utilisée appelée distillation, où les poids d'un modèle entraîné plus grand sont transférés à un modèle plus petit, améliorant ses capacités. De plus, le modèle distillé passe par trois mesures de contrôle qualité : l'apprentissage par renforcement à partir des retours humains (RLHF), l'apprentissage par renforcement à partir des retours machine (RLMF) et l'apprentissage par renforcement à partir des retours d'exécution (RLEF). Ces mesures aident à affiner les sorties du modèle, les rendant plus utiles et améliorant ses capacités en mathématiques et en codage.
Le blog des développeurs de Google détaille ces approches, et un autre article discute des techniques d'optimisation pour le modèle de 1 milliard de paramètres, destiné aux appareils mobiles. Celles-ci incluent la quantification, la mise à jour des dispositions de cache de clés-valeurs, l'amélioration des temps de chargement des variables et le partage de poids GPU.
Google compare Gemma 3 non seulement sur les scores Elo, mais aussi avec son prédécesseur, Gemma 2, et ses modèles propriétaires Gemini sur divers benchmarks comme LiveCodeBench. Bien que Gemma 3 soit généralement moins précis que Gemini 1.5 et Gemini 2.0, Google note qu'il "montre des performances compétitives par rapport aux modèles Gemini fermés", malgré un nombre de paramètres moindre.
Google
Une amélioration significative de Gemma 3 par rapport à Gemma 2 est sa "fenêtre de contexte" plus longue, passant de 8 000 à 128 000 jetons. Cela permet au modèle de traiter des textes plus volumineux comme des articles entiers ou des livres. Gemma 3 est également multimodal, capable de gérer à la fois des entrées textuelles et visuelles, contrairement à son prédécesseur. De plus, il prend en charge plus de 140 langues, une nette amélioration par rapport aux capacités uniquement en anglais de Gemma 2.
Outre ces caractéristiques principales, Gemma 3 présente plusieurs autres aspects intéressants. Un problème avec les grands modèles de langage est le risque qu'ils mémorisent des parties de leurs données d'entraînement, ce qui pourrait entraîner des violations de la vie privée. Les chercheurs de Google ont testé Gemma 3 à cet égard et ont constaté qu'il mémorise les textes longs à un taux inférieur à celui de ses prédécesseurs, suggérant une meilleure protection de la vie privée.
Pour ceux intéressés par les détails techniques, le document technique de Gemma 3 fournit une analyse approfondie des capacités et du développement du modèle.
Article connexe
Principal investisseur de Suno : la suppression des publications ne comblera pas les lacunes en matière de poursuites pour violation du droit d'auteur
La plateforme de génération musicale par IA très attendue, Suno, est confrontée à une rude bataille en matière de droits d'auteur, et une remarque sans détours de son principal investisseur pourrait b
Claude Opus 4.7 fait son entrée sur le marché en misant davantage sur la fiabilité que sur l'intelligence
Anthropic a maintenu un rythme soutenu cette année, en déployant de nouvelles fonctionnalités presque tous les deux jours. Le très attendu Claude Opus 4.7 vient d'être officiellement lancé, et il est
Haier lance le robot exosquelette sportif doté d'une intelligence artificielle le plus léger au monde, pesant seulement 1,75 kg
Le groupe Haier a présenté le robot exosquelette sportif doté d'une intelligence artificielle le plus léger au monde : le Haier Exoskeleton Robot W3. Ce lancement établit un nouveau record de légèreté
Recommandations de sujets spéciaux liés
commentaires (12)
¡Estas mejoras en eficiencia son una locura! 🔥 Si Google logra casi el mismo rendimiento con solo una GPU, ¿esto cambiará por completo el acceso a la IA para pequeños desarrolladores? Aun así, me pregunto cómo manejarán temas como el consumo energético real en uso masivo... 😅
Google's Gemma 3 sounds like a game-changer! 98% of DeepSeek's accuracy with just one GPU? That's some serious efficiency. Curious how this'll shake up the AI startup scene. 🚀
Google's Gemma 3 sounds like a game-changer! 98% of DeepSeek's accuracy with just one GPU? That's some serious efficiency. Curious how this stacks up in real-world apps! 😎
Google's Gemma 3 sounds like a game-changer! Achieving 98% of DeepSeek's accuracy with just one GPU is wild. Makes me wonder how this’ll shake up the AI race—more power to the little guys? 🤔
L'économie de l'intelligence artificielle est devenue un sujet majeur récemment, notamment avec la start-up DeepSeek AI qui démontre des économies d'échelle impressionnantes dans l'utilisation des puces GPU. Mais Google ne compte pas se laisser distancer. Mercredi, le géant de la technologie a dévoilé son dernier modèle de langage à grande échelle open-source, Gemma 3, qui atteint presque la précision du modèle R1 de DeepSeek, tout en utilisant beaucoup moins de puissance de calcul.
Google a mesuré ces performances à l'aide des scores "Elo", un système couramment utilisé dans les échecs et les sports pour classer les compétiteurs. Gemma 3 a obtenu un score de 1338, juste en dessous des 1363 de R1, ce qui signifie que R1 surpasse techniquement Gemma 3. Cependant, Google estime qu'il faudrait 32 puces GPU H100 de Nvidia pour atteindre le score de R1, alors que Gemma 3 obtient ses résultats avec une seule puce H100. Google vante cet équilibre entre puissance de calcul et score Elo comme le "point idéal".
Dans un article de blog, Google décrit Gemma 3 comme "le modèle le plus performant que vous pouvez exécuter sur un seul GPU ou TPU", en référence à sa propre puce AI personnalisée, l'"unité de traitement tensoriel". L'entreprise affirme que Gemma 3 "offre des performances de pointe pour sa taille", surpassant des modèles comme Llama-405B, DeepSeek-V3 et o3-mini dans les évaluations de préférence humaine sur le classement de LMArena. Cette performance facilite la création d'expériences utilisateur engageantes sur un hôte GPU ou TPU unique.
Google
Le modèle de Google surpasse également le Llama 3 de Meta en score Elo, que Google estime nécessiter 16 GPU. Il est à noter que ces chiffres pour les modèles concurrents sont des estimations de Google ; DeepSeek AI a seulement révélé utiliser 1 814 GPU H800 de Nvidia, moins puissants, pour R1.
Des informations plus approfondies sont disponibles dans un article de blog pour développeurs sur HuggingFace, où le référentiel de Gemma 3 est accessible. Conçu pour une utilisation sur appareil plutôt que dans des centres de données, Gemma 3 a un nombre de paramètres nettement plus faible comparé à R1 et autres modèles open-source. Avec des comptes de paramètres allant de 1 milliard à 27 milliards, Gemma 3 est assez modeste selon les normes actuelles, tandis que R1 affiche un impressionnant 671 milliards de paramètres, bien qu'il puisse en utiliser sélectivement seulement 37 milliards.
La clé de l'efficacité de Gemma 3 est une technique AI largement utilisée appelée distillation, où les poids d'un modèle entraîné plus grand sont transférés à un modèle plus petit, améliorant ses capacités. De plus, le modèle distillé passe par trois mesures de contrôle qualité : l'apprentissage par renforcement à partir des retours humains (RLHF), l'apprentissage par renforcement à partir des retours machine (RLMF) et l'apprentissage par renforcement à partir des retours d'exécution (RLEF). Ces mesures aident à affiner les sorties du modèle, les rendant plus utiles et améliorant ses capacités en mathématiques et en codage.
Le blog des développeurs de Google détaille ces approches, et un autre article discute des techniques d'optimisation pour le modèle de 1 milliard de paramètres, destiné aux appareils mobiles. Celles-ci incluent la quantification, la mise à jour des dispositions de cache de clés-valeurs, l'amélioration des temps de chargement des variables et le partage de poids GPU.
Google compare Gemma 3 non seulement sur les scores Elo, mais aussi avec son prédécesseur, Gemma 2, et ses modèles propriétaires Gemini sur divers benchmarks comme LiveCodeBench. Bien que Gemma 3 soit généralement moins précis que Gemini 1.5 et Gemini 2.0, Google note qu'il "montre des performances compétitives par rapport aux modèles Gemini fermés", malgré un nombre de paramètres moindre.
Google
Une amélioration significative de Gemma 3 par rapport à Gemma 2 est sa "fenêtre de contexte" plus longue, passant de 8 000 à 128 000 jetons. Cela permet au modèle de traiter des textes plus volumineux comme des articles entiers ou des livres. Gemma 3 est également multimodal, capable de gérer à la fois des entrées textuelles et visuelles, contrairement à son prédécesseur. De plus, il prend en charge plus de 140 langues, une nette amélioration par rapport aux capacités uniquement en anglais de Gemma 2.
Outre ces caractéristiques principales, Gemma 3 présente plusieurs autres aspects intéressants. Un problème avec les grands modèles de langage est le risque qu'ils mémorisent des parties de leurs données d'entraînement, ce qui pourrait entraîner des violations de la vie privée. Les chercheurs de Google ont testé Gemma 3 à cet égard et ont constaté qu'il mémorise les textes longs à un taux inférieur à celui de ses prédécesseurs, suggérant une meilleure protection de la vie privée.
Pour ceux intéressés par les détails techniques, le document technique de Gemma 3 fournit une analyse approfondie des capacités et du développement du modèle.
Principal investisseur de Suno : la suppression des publications ne comblera pas les lacunes en matière de poursuites pour violation du droit d'auteur
La plateforme de génération musicale par IA très attendue, Suno, est confrontée à une rude bataille en matière de droits d'auteur, et une remarque sans détours de son principal investisseur pourrait b
Claude Opus 4.7 fait son entrée sur le marché en misant davantage sur la fiabilité que sur l'intelligence
Anthropic a maintenu un rythme soutenu cette année, en déployant de nouvelles fonctionnalités presque tous les deux jours. Le très attendu Claude Opus 4.7 vient d'être officiellement lancé, et il est
Haier lance le robot exosquelette sportif doté d'une intelligence artificielle le plus léger au monde, pesant seulement 1,75 kg
Le groupe Haier a présenté le robot exosquelette sportif doté d'une intelligence artificielle le plus léger au monde : le Haier Exoskeleton Robot W3. Ce lancement établit un nouveau record de légèreté
¡Estas mejoras en eficiencia son una locura! 🔥 Si Google logra casi el mismo rendimiento con solo una GPU, ¿esto cambiará por completo el acceso a la IA para pequeños desarrolladores? Aun así, me pregunto cómo manejarán temas como el consumo energético real en uso masivo... 😅
Google's Gemma 3 sounds like a game-changer! 98% of DeepSeek's accuracy with just one GPU? That's some serious efficiency. Curious how this'll shake up the AI startup scene. 🚀
Google's Gemma 3 sounds like a game-changer! 98% of DeepSeek's accuracy with just one GPU? That's some serious efficiency. Curious how this stacks up in real-world apps! 😎
Google's Gemma 3 sounds like a game-changer! Achieving 98% of DeepSeek's accuracy with just one GPU is wild. Makes me wonder how this’ll shake up the AI race—more power to the little guys? 🤔





Maison






