Gemini dévoile le modèle amélioré, le contexte étendu, les agents de l'IA
En décembre dernier, nous avons lancé notre premier modèle multimodal natif, Gemini 1.0, disponible en trois tailles : Ultra, Pro et Nano. Quelques mois plus tard, nous avons introduit 1.5 Pro, avec des performances améliorées et une fenêtre de contexte révolutionnaire de 1 million de jetons.
Les développeurs et les clients professionnels ont exploité 1.5 Pro de manière impressionnante, appréciant sa longue fenêtre de contexte, son raisonnement multimodal robuste et ses performances globales exceptionnelles.
Les retours des utilisateurs ont souligné le besoin de modèles avec une latence plus faible et un coût réduit, ce qui nous a poussés à continuer d’innover. C’est pourquoi nous sommes ravis de présenter Gemini 1.5 Flash aujourd’hui. Ce modèle, plus léger que 1.5 Pro, est conçu pour être rapide et efficace, parfait pour une montée en échelle.
Les modèles 1.5 Pro et 1.5 Flash sont désormais en aperçu public, avec une fenêtre de contexte de 1 million de jetons, accessibles via Google AI Studio et Vertex AI. Et pour ceux qui en veulent encore plus, 1.5 Pro propose désormais une fenêtre de contexte de 2 millions de jetons, disponible via une liste d’attente pour les développeurs utilisant l’API et les clients Google Cloud.
Nous ne nous arrêtons pas là. Nous déployons également des mises à jour sur l’ensemble de la famille Gemini, dévoilons la prochaine génération de modèles ouverts, Gemma 2, et progressons dans l’avenir des assistants AI avec le Projet Astra.
Longueurs de contexte des principaux modèles de base comparées à la capacité de 2 millions de jetons de Gemini 1.5
Mises à jour de la famille de modèles Gemini
Le nouveau 1.5 Flash, optimisé pour la vitesse et l’efficacité
Présentation de 1.5 Flash, le dernier et le plus rapide membre de la famille Gemini, disponible via notre API. Il est conçu pour des tâches à haut volume et haute fréquence, offrant une évolutivité économique tout en maintenant notre percée en matière de longue fenêtre de contexte.
Bien que plus léger que 1.5 Pro, 1.5 Flash n’est pas en reste. Il excelle dans le raisonnement multimodal sur de vastes ensembles de données, offrant une qualité impressionnante par rapport à sa taille.
Le nouveau modèle Gemini 1.5 Flash est optimisé pour la vitesse et l’efficacité, est hautement capable de raisonnement multimodal et bénéficie de notre percée en matière de longue fenêtre de contexte.
1.5 Flash excelle dans des tâches telles que la synthèse, les applications de chat, et la légende d’images et de vidéos. Il est également habile à extraire des données de longs documents et tableaux. Cette polyvalence provient de son entraînement par 1.5 Pro via la « distillation », où les connaissances et compétences essentielles d’un modèle plus grand sont transmises à un modèle plus petit et efficace.
Pour plus de détails sur 1.5 Flash, consultez notre rapport technique mis à jour sur Gemini 1.5, la page technologique Gemini, et découvrez sa disponibilité et ses tarifs.
Amélioration significative de 1.5 Pro
Au cours des derniers mois, nous avons fait des progrès significatifs dans l’amélioration de 1.5 Pro, notre meilleur performeur dans une large gamme de tâches.
Nous avons étendu sa fenêtre de contexte à 2 millions de jetons et amélioré ses capacités en génération de code, raisonnement logique, planification, conversations à plusieurs tours, et compréhension de l’audio et des images. Ces améliorations sont soutenues par des avancées dans les données et les algorithmes, montrant des progrès marqués sur les benchmarks publics et internes.
1.5 Pro gère désormais des instructions de plus en plus complexes et nuancées, y compris celles qui définissent des comportements au niveau des produits, comme le rôle, le format et le style. Nous avons affiné le contrôle des réponses du modèle pour des cas d’utilisation spécifiques, tels que la personnalisation des personas d’agents de chat ou l’automatisation des flux de travail avec plusieurs appels de fonctions. Les utilisateurs peuvent désormais orienter le comportement du modèle avec des instructions système.
Nous avons également ajouté la compréhension audio à l’API Gemini et à Google AI Studio, permettant à 1.5 Pro de traiter à la fois les images et l’audio des vidéos téléchargées sur Google AI Studio. Nous intégrons 1.5 Pro dans les produits Google comme Gemini Advanced et les applications Workspace.
Pour en savoir plus sur 1.5 Pro, plongez dans notre rapport technique mis à jour sur Gemini 1.5 et la page technologique Gemini.
Gemini Nano comprend les entr Ultimodal Inputs
Gemini Nano monte en puissance, allant au-delà des entrées textuelles pour inclure les images. À partir de Pixel, les applications utilisant Gemini Nano avec multimodalité pourront interpréter le monde de manière plus humaine, à travers le texte, les visuels, le son et le langage parlé.
En savoir plus sur Gemini 1.0 Nano sur Android.
Prochaine génération de modèles ouverts
Aujourd’hui, nous mettons également à jour Gemma, notre famille de modèles ouverts, construits sur la même recherche et technologie que les modèles Gemini.
Nous lançons Gemma 2, nos modèles ouverts de nouvelle génération pour une innovation AI responsable. Gemma 2 présente une nouvelle architecture pour des performances et une efficacité supérieures, et sera disponible en nouvelles tailles.
La famille Gemma s’agrandit avec PaliGemma, notre premier modèle vision-langage inspiré de PaLI-3. Nous avons également amélioré notre boîte à outils d’IA générative responsable avec LLM Comparator pour évaluer la qualité des réponses des modèles.
Pour plus de détails, rendez-vous sur le blog des développeurs.
Progrès dans le développement d’agents AI universels
Chez Google DeepMind, notre mission est de construire une IA de manière responsable pour bénéficier à l’humanité. Nous avons toujours visé à créer des agents AI universels capables d’assister dans la vie quotidienne. C’est pourquoi nous partageons nos progrès sur l’avenir des assistants AI avec le Projet Astra (agent réactif avancé de vision et de parole).
Pour qu’un agent AI soit réellement utile, il doit comprendre et réagir au monde comme un humain, en absorbant et en mémorisant ce qu’il voit et entend pour saisir le contexte et agir en conséquence. Il doit également être proactif, enseignable et personnel, permettant des conversations naturelles et sans latence.
Bien que nous ayons fait de grands progrès dans le traitement des informations multimodales, atteindre des temps de réponse conversationnels est un défi d’ingénierie difficile. Au fil des ans, nous avons affiné la manière dont nos modèles perçoivent, raisonnent et conversent pour rendre les interactions plus naturelles.
En s’appuyant sur Gemini, nous avons développé des prototypes d’agents qui traitent l’information plus rapidement en encodant en continu les trames vidéo, en fusionnant les entrées vidéo et vocales dans une chronologie d’événements, et en mettant ces données en cache pour un rappel rapide.
En utilisant nos modèles de parole de premier plan, nous avons également amélioré la sonorité de ces agents, leur offrant une gamme plus large d’intonations. Ils comprennent mieux le contexte dans lequel ils se trouvent et répondent rapidement dans la conversation.
Avec cette technologie, il est facile d’imaginer un avenir où chacun a un assistant AI expert à ses côtés, accessible via un téléphone ou des lunettes. Certaines de ces capacités arriveront dans les produits Google comme l’application Gemini et l’expérience web plus tard cette année.
Exploration continue
Nous avons parcouru un long chemin avec notre famille de modèles Gemini, et nous nous engageons à repousser les limites encore plus loin. Grâce à une innovation incessante, nous explorons de nouvelles frontières tout en débloquant de nouveaux cas d’utilisation passionnants pour Gemini.
Pour en savoir plus sur Gemini et ses capacités, consultez nos ressources.




Recevez plus d’histoires de Google dans votre boîte de réception. Recevez plus d’histoires de Google dans votre boîte de réception.
Adresse e-mail Vos informations seront utilisées conformément à la politique de confidentialité de Google.
Inscription terminée. Encore une étape.
Vérifiez votre boîte de réception pour confirmer votre inscription.
Vous êtes déjà inscrit à notre newsletter.
Vous pouvez également vous inscrire avec une autre adresse e-mail.
Article connexe
Salesforce Dévoile des Coéquipiers Numériques IA dans Slack pour Rivaliser avec Microsoft Copilot
Le nouvel outil, Agentforce dans Slack, permet aux entreprises de créer et de déployer des agents IA spécifiques à des tâches qui recherchent dans les discussions professionnelles, accèdent aux donnée
Investissement de 40 milliards de dollars d'Oracle dans les puces Nvidia pour renforcer le centre de données IA au Texas
Oracle prévoit d'investir environ 40 milliards de dollars dans des puces Nvidia pour alimenter un nouveau centre de données majeur au Texas, développé par OpenAI, selon le Financial Times. Cette trans
Application Meta AI pour introduire un niveau premium et des publicités
L'application d'IA de Meta pourrait bientôt proposer un abonnement payant, à l'image des offres de concurrents comme OpenAI, Google et Microsoft. Lors d'une conférence sur les résultats du premier tri
commentaires (25)
0/200
LucasWalker
18 avril 2025 23:37:58 UTC+02:00
ジェミニの新しいモデルが100万トークンのコンテキストを持つとは信じられない!🤯 まるで何でも扱える超賢いAIを持っているようです。AIエージェントもゲームチェンジャーです。次に何を出すのか楽しみです!🚀
0
FrankSmith
16 avril 2025 02:37:56 UTC+02:00
젬니니의 새로운 모델 정말 멋지네요! 100만 토큰의 컨텍스트 윈도우는 정말 놀랍습니다. 마치 모든 대화를 기억하는 똑똑한 친구가 있는 것 같아요! 조금 더 빨랐으면 좋겠지만, 뭐 다 가질 수는 없죠? 🤓
0
JamesMiller
15 avril 2025 19:53:33 UTC+02:00
O novo modelo do Gemini é bem legal! A janela de contexto de 1 milhão de tokens é louca, é como ter um amigo superinteligente que lembra de tudo o que você já disse! Só queria que fosse um pouco mais rápido, mas, ei, não dá pra ter tudo, né? 🤓
0
MarkRoberts
15 avril 2025 03:25:31 UTC+02:00
El nuevo modelo Gemini es impresionante, especialmente la ventana de contexto larga. Es genial para desarrolladores, pero puede ser un poco abrumador para principiantes. Los agentes de IA son geniales, pero desearía que hubiera más documentación sobre cómo usarlos de manera efectiva.
0
BillyGarcia
14 avril 2025 21:20:08 UTC+02:00
O novo modelo do Gemini com um contexto de um milhão de tokens é loucura! 🤯 É como ter uma IA super inteligente que pode lidar com qualquer coisa. Os agentes de IA também são um divisor de águas. Mal posso esperar para ver o que eles vão lançar a seguir! 🚀
0
RogerRoberts
14 avril 2025 19:06:25 UTC+02:00
¡El nuevo modelo de Gemini es bastante genial! La ventana de contexto de 1 millón de tokens es una locura, es como tener un amigo súper inteligente que recuerda todo lo que has dicho alguna vez. Ojalá fuera un poco más rápido, pero bueno, no se puede tener todo, ¿verdad? 🤓
0
En décembre dernier, nous avons lancé notre premier modèle multimodal natif, Gemini 1.0, disponible en trois tailles : Ultra, Pro et Nano. Quelques mois plus tard, nous avons introduit 1.5 Pro, avec des performances améliorées et une fenêtre de contexte révolutionnaire de 1 million de jetons.
Les développeurs et les clients professionnels ont exploité 1.5 Pro de manière impressionnante, appréciant sa longue fenêtre de contexte, son raisonnement multimodal robuste et ses performances globales exceptionnelles.
Les retours des utilisateurs ont souligné le besoin de modèles avec une latence plus faible et un coût réduit, ce qui nous a poussés à continuer d’innover. C’est pourquoi nous sommes ravis de présenter Gemini 1.5 Flash aujourd’hui. Ce modèle, plus léger que 1.5 Pro, est conçu pour être rapide et efficace, parfait pour une montée en échelle.
Les modèles 1.5 Pro et 1.5 Flash sont désormais en aperçu public, avec une fenêtre de contexte de 1 million de jetons, accessibles via Google AI Studio et Vertex AI. Et pour ceux qui en veulent encore plus, 1.5 Pro propose désormais une fenêtre de contexte de 2 millions de jetons, disponible via une liste d’attente pour les développeurs utilisant l’API et les clients Google Cloud.
Nous ne nous arrêtons pas là. Nous déployons également des mises à jour sur l’ensemble de la famille Gemini, dévoilons la prochaine génération de modèles ouverts, Gemma 2, et progressons dans l’avenir des assistants AI avec le Projet Astra.
Mises à jour de la famille de modèles Gemini
Le nouveau 1.5 Flash, optimisé pour la vitesse et l’efficacité
Présentation de 1.5 Flash, le dernier et le plus rapide membre de la famille Gemini, disponible via notre API. Il est conçu pour des tâches à haut volume et haute fréquence, offrant une évolutivité économique tout en maintenant notre percée en matière de longue fenêtre de contexte.
Bien que plus léger que 1.5 Pro, 1.5 Flash n’est pas en reste. Il excelle dans le raisonnement multimodal sur de vastes ensembles de données, offrant une qualité impressionnante par rapport à sa taille.
1.5 Flash excelle dans des tâches telles que la synthèse, les applications de chat, et la légende d’images et de vidéos. Il est également habile à extraire des données de longs documents et tableaux. Cette polyvalence provient de son entraînement par 1.5 Pro via la « distillation », où les connaissances et compétences essentielles d’un modèle plus grand sont transmises à un modèle plus petit et efficace.
Pour plus de détails sur 1.5 Flash, consultez notre rapport technique mis à jour sur Gemini 1.5, la page technologique Gemini, et découvrez sa disponibilité et ses tarifs.
Amélioration significative de 1.5 Pro
Au cours des derniers mois, nous avons fait des progrès significatifs dans l’amélioration de 1.5 Pro, notre meilleur performeur dans une large gamme de tâches.
Nous avons étendu sa fenêtre de contexte à 2 millions de jetons et amélioré ses capacités en génération de code, raisonnement logique, planification, conversations à plusieurs tours, et compréhension de l’audio et des images. Ces améliorations sont soutenues par des avancées dans les données et les algorithmes, montrant des progrès marqués sur les benchmarks publics et internes.
1.5 Pro gère désormais des instructions de plus en plus complexes et nuancées, y compris celles qui définissent des comportements au niveau des produits, comme le rôle, le format et le style. Nous avons affiné le contrôle des réponses du modèle pour des cas d’utilisation spécifiques, tels que la personnalisation des personas d’agents de chat ou l’automatisation des flux de travail avec plusieurs appels de fonctions. Les utilisateurs peuvent désormais orienter le comportement du modèle avec des instructions système.
Nous avons également ajouté la compréhension audio à l’API Gemini et à Google AI Studio, permettant à 1.5 Pro de traiter à la fois les images et l’audio des vidéos téléchargées sur Google AI Studio. Nous intégrons 1.5 Pro dans les produits Google comme Gemini Advanced et les applications Workspace.
Pour en savoir plus sur 1.5 Pro, plongez dans notre rapport technique mis à jour sur Gemini 1.5 et la page technologique Gemini.
Gemini Nano comprend les entr Ultimodal Inputs
Gemini Nano monte en puissance, allant au-delà des entrées textuelles pour inclure les images. À partir de Pixel, les applications utilisant Gemini Nano avec multimodalité pourront interpréter le monde de manière plus humaine, à travers le texte, les visuels, le son et le langage parlé.
En savoir plus sur Gemini 1.0 Nano sur Android.
Prochaine génération de modèles ouverts
Aujourd’hui, nous mettons également à jour Gemma, notre famille de modèles ouverts, construits sur la même recherche et technologie que les modèles Gemini.
Nous lançons Gemma 2, nos modèles ouverts de nouvelle génération pour une innovation AI responsable. Gemma 2 présente une nouvelle architecture pour des performances et une efficacité supérieures, et sera disponible en nouvelles tailles.
La famille Gemma s’agrandit avec PaliGemma, notre premier modèle vision-langage inspiré de PaLI-3. Nous avons également amélioré notre boîte à outils d’IA générative responsable avec LLM Comparator pour évaluer la qualité des réponses des modèles.
Pour plus de détails, rendez-vous sur le blog des développeurs.
Progrès dans le développement d’agents AI universels
Chez Google DeepMind, notre mission est de construire une IA de manière responsable pour bénéficier à l’humanité. Nous avons toujours visé à créer des agents AI universels capables d’assister dans la vie quotidienne. C’est pourquoi nous partageons nos progrès sur l’avenir des assistants AI avec le Projet Astra (agent réactif avancé de vision et de parole).
Pour qu’un agent AI soit réellement utile, il doit comprendre et réagir au monde comme un humain, en absorbant et en mémorisant ce qu’il voit et entend pour saisir le contexte et agir en conséquence. Il doit également être proactif, enseignable et personnel, permettant des conversations naturelles et sans latence.
Bien que nous ayons fait de grands progrès dans le traitement des informations multimodales, atteindre des temps de réponse conversationnels est un défi d’ingénierie difficile. Au fil des ans, nous avons affiné la manière dont nos modèles perçoivent, raisonnent et conversent pour rendre les interactions plus naturelles.
En s’appuyant sur Gemini, nous avons développé des prototypes d’agents qui traitent l’information plus rapidement en encodant en continu les trames vidéo, en fusionnant les entrées vidéo et vocales dans une chronologie d’événements, et en mettant ces données en cache pour un rappel rapide.
En utilisant nos modèles de parole de premier plan, nous avons également amélioré la sonorité de ces agents, leur offrant une gamme plus large d’intonations. Ils comprennent mieux le contexte dans lequel ils se trouvent et répondent rapidement dans la conversation.
Avec cette technologie, il est facile d’imaginer un avenir où chacun a un assistant AI expert à ses côtés, accessible via un téléphone ou des lunettes. Certaines de ces capacités arriveront dans les produits Google comme l’application Gemini et l’expérience web plus tard cette année.
Exploration continue
Nous avons parcouru un long chemin avec notre famille de modèles Gemini, et nous nous engageons à repousser les limites encore plus loin. Grâce à une innovation incessante, nous explorons de nouvelles frontières tout en débloquant de nouveaux cas d’utilisation passionnants pour Gemini.
Pour en savoir plus sur Gemini et ses capacités, consultez nos ressources.




Recevez plus d’histoires de Google dans votre boîte de réception. Recevez plus d’histoires de Google dans votre boîte de réception.
Inscription terminée. Encore une étape.
Vérifiez votre boîte de réception pour confirmer votre inscription.
Vous êtes déjà inscrit à notre newsletter.
Vous pouvez également vous inscrire avec une autre adresse e-mail.



ジェミニの新しいモデルが100万トークンのコンテキストを持つとは信じられない!🤯 まるで何でも扱える超賢いAIを持っているようです。AIエージェントもゲームチェンジャーです。次に何を出すのか楽しみです!🚀




젬니니의 새로운 모델 정말 멋지네요! 100만 토큰의 컨텍스트 윈도우는 정말 놀랍습니다. 마치 모든 대화를 기억하는 똑똑한 친구가 있는 것 같아요! 조금 더 빨랐으면 좋겠지만, 뭐 다 가질 수는 없죠? 🤓




O novo modelo do Gemini é bem legal! A janela de contexto de 1 milhão de tokens é louca, é como ter um amigo superinteligente que lembra de tudo o que você já disse! Só queria que fosse um pouco mais rápido, mas, ei, não dá pra ter tudo, né? 🤓




El nuevo modelo Gemini es impresionante, especialmente la ventana de contexto larga. Es genial para desarrolladores, pero puede ser un poco abrumador para principiantes. Los agentes de IA son geniales, pero desearía que hubiera más documentación sobre cómo usarlos de manera efectiva.




O novo modelo do Gemini com um contexto de um milhão de tokens é loucura! 🤯 É como ter uma IA super inteligente que pode lidar com qualquer coisa. Os agentes de IA também são um divisor de águas. Mal posso esperar para ver o que eles vão lançar a seguir! 🚀




¡El nuevo modelo de Gemini es bastante genial! La ventana de contexto de 1 millón de tokens es una locura, es como tener un amigo súper inteligente que recuerda todo lo que has dicho alguna vez. Ojalá fuera un poco más rápido, pero bueno, no se puede tener todo, ¿verdad? 🤓












