Gemini dévoile le modèle amélioré, le contexte étendu, les agents de l'IA

Maison

Nouvelles

10 avril 2025

DavidThomas

# ai

En décembre dernier, nous avons lancé notre premier modèle multimodal natif, Gemini 1.0, disponible en trois tailles : Ultra, Pro et Nano. Quelques mois plus tard, nous avons introduit 1.5 Pro, avec des performances améliorées et une fenêtre de contexte révolutionnaire de 1 million de jetons.

Les développeurs et les clients professionnels ont exploité 1.5 Pro de manière impressionnante, appréciant sa longue fenêtre de contexte, son raisonnement multimodal robuste et ses performances globales exceptionnelles.

Les retours des utilisateurs ont souligné le besoin de modèles avec une latence plus faible et un coût réduit, ce qui nous a poussés à continuer d’innover. C’est pourquoi nous sommes ravis de présenter Gemini 1.5 Flash aujourd’hui. Ce modèle, plus léger que 1.5 Pro, est conçu pour être rapide et efficace, parfait pour une montée en échelle.

Les modèles 1.5 Pro et 1.5 Flash sont désormais en aperçu public, avec une fenêtre de contexte de 1 million de jetons, accessibles via Google AI Studio et Vertex AI. Et pour ceux qui en veulent encore plus, 1.5 Pro propose désormais une fenêtre de contexte de 2 millions de jetons, disponible via une liste d’attente pour les développeurs utilisant l’API et les clients Google Cloud.

Nous ne nous arrêtons pas là. Nous déployons également des mises à jour sur l’ensemble de la famille Gemini, dévoilons la prochaine génération de modèles ouverts, Gemma 2, et progressons dans l’avenir des assistants AI avec le Projet Astra.

Longueurs de contexte des principaux modèles de base comparées à la capacité de 2 millions de jetons de Gemini 1.5

Mises à jour de la famille de modèles Gemini

Le nouveau 1.5 Flash, optimisé pour la vitesse et l’efficacité

Présentation de 1.5 Flash, le dernier et le plus rapide membre de la famille Gemini, disponible via notre API. Il est conçu pour des tâches à haut volume et haute fréquence, offrant une évolutivité économique tout en maintenant notre percée en matière de longue fenêtre de contexte.

Bien que plus léger que 1.5 Pro, 1.5 Flash n’est pas en reste. Il excelle dans le raisonnement multimodal sur de vastes ensembles de données, offrant une qualité impressionnante par rapport à sa taille.

Le nouveau modèle Gemini 1.5 Flash est optimisé pour la vitesse et l’efficacité, est hautement capable de raisonnement multimodal et bénéficie de notre percée en matière de longue fenêtre de contexte.

1.5 Flash excelle dans des tâches telles que la synthèse, les applications de chat, et la légende d’images et de vidéos. Il est également habile à extraire des données de longs documents et tableaux. Cette polyvalence provient de son entraînement par 1.5 Pro via la « distillation », où les connaissances et compétences essentielles d’un modèle plus grand sont transmises à un modèle plus petit et efficace.

Pour plus de détails sur 1.5 Flash, consultez notre rapport technique mis à jour sur Gemini 1.5, la page technologique Gemini, et découvrez sa disponibilité et ses tarifs.

Amélioration significative de 1.5 Pro

Au cours des derniers mois, nous avons fait des progrès significatifs dans l’amélioration de 1.5 Pro, notre meilleur performeur dans une large gamme de tâches.

Nous avons étendu sa fenêtre de contexte à 2 millions de jetons et amélioré ses capacités en génération de code, raisonnement logique, planification, conversations à plusieurs tours, et compréhension de l’audio et des images. Ces améliorations sont soutenues par des avancées dans les données et les algorithmes, montrant des progrès marqués sur les benchmarks publics et internes.

1.5 Pro gère désormais des instructions de plus en plus complexes et nuancées, y compris celles qui définissent des comportements au niveau des produits, comme le rôle, le format et le style. Nous avons affiné le contrôle des réponses du modèle pour des cas d’utilisation spécifiques, tels que la personnalisation des personas d’agents de chat ou l’automatisation des flux de travail avec plusieurs appels de fonctions. Les utilisateurs peuvent désormais orienter le comportement du modèle avec des instructions système.

Nous avons également ajouté la compréhension audio à l’API Gemini et à Google AI Studio, permettant à 1.5 Pro de traiter à la fois les images et l’audio des vidéos téléchargées sur Google AI Studio. Nous intégrons 1.5 Pro dans les produits Google comme Gemini Advanced et les applications Workspace.

Pour en savoir plus sur 1.5 Pro, plongez dans notre rapport technique mis à jour sur Gemini 1.5 et la page technologique Gemini.

Gemini Nano comprend les entr Ultimodal Inputs

Gemini Nano monte en puissance, allant au-delà des entrées textuelles pour inclure les images. À partir de Pixel, les applications utilisant Gemini Nano avec multimodalité pourront interpréter le monde de manière plus humaine, à travers le texte, les visuels, le son et le langage parlé.

En savoir plus sur Gemini 1.0 Nano sur Android.

Prochaine génération de modèles ouverts

Aujourd’hui, nous mettons également à jour Gemma, notre famille de modèles ouverts, construits sur la même recherche et technologie que les modèles Gemini.

Nous lançons Gemma 2, nos modèles ouverts de nouvelle génération pour une innovation AI responsable. Gemma 2 présente une nouvelle architecture pour des performances et une efficacité supérieures, et sera disponible en nouvelles tailles.

La famille Gemma s’agrandit avec PaliGemma, notre premier modèle vision-langage inspiré de PaLI-3. Nous avons également amélioré notre boîte à outils d’IA générative responsable avec LLM Comparator pour évaluer la qualité des réponses des modèles.

Pour plus de détails, rendez-vous sur le blog des développeurs.

Progrès dans le développement d’agents AI universels

Chez Google DeepMind, notre mission est de construire une IA de manière responsable pour bénéficier à l’humanité. Nous avons toujours visé à créer des agents AI universels capables d’assister dans la vie quotidienne. C’est pourquoi nous partageons nos progrès sur l’avenir des assistants AI avec le Projet Astra (agent réactif avancé de vision et de parole).

Pour qu’un agent AI soit réellement utile, il doit comprendre et réagir au monde comme un humain, en absorbant et en mémorisant ce qu’il voit et entend pour saisir le contexte et agir en conséquence. Il doit également être proactif, enseignable et personnel, permettant des conversations naturelles et sans latence.

Bien que nous ayons fait de grands progrès dans le traitement des informations multimodales, atteindre des temps de réponse conversationnels est un défi d’ingénierie difficile. Au fil des ans, nous avons affiné la manière dont nos modèles perçoivent, raisonnent et conversent pour rendre les interactions plus naturelles.

En s’appuyant sur Gemini, nous avons développé des prototypes d’agents qui traitent l’information plus rapidement en encodant en continu les trames vidéo, en fusionnant les entrées vidéo et vocales dans une chronologie d’événements, et en mettant ces données en cache pour un rappel rapide.

En utilisant nos modèles de parole de premier plan, nous avons également amélioré la sonorité de ces agents, leur offrant une gamme plus large d’intonations. Ils comprennent mieux le contexte dans lequel ils se trouvent et répondent rapidement dans la conversation.

Avec cette technologie, il est facile d’imaginer un avenir où chacun a un assistant AI expert à ses côtés, accessible via un téléphone ou des lunettes. Certaines de ces capacités arriveront dans les produits Google comme l’application Gemini et l’expérience web plus tard cette année.

Exploration continue

Nous avons parcouru un long chemin avec notre famille de modèles Gemini, et nous nous engageons à repousser les limites encore plus loin. Grâce à une innovation incessante, nous explorons de nouvelles frontières tout en débloquant de nouveaux cas d’utilisation passionnants pour Gemini.

Pour en savoir plus sur Gemini et ses capacités, consultez nos ressources.

Recevez plus d’histoires de Google dans votre boîte de réception. Recevez plus d’histoires de Google dans votre boîte de réception.

Adresse e-mail Vos informations seront utilisées conformément à la politique de confidentialité de Google.

Inscription terminée. Encore une étape.

Vérifiez votre boîte de réception pour confirmer votre inscription.

Vous êtes déjà inscrit à notre newsletter.

Vous pouvez également vous inscrire avec une autre adresse e-mail.

Article connexe

"Dot AI Companion Appounces Closure, Discontinues Personalized Service" (L'application Dot AI Companion annonce sa fermeture et interrompt son service personnalisé) Dot, une application d'IA conçue pour servir d'ami personnel et de confident, va cesser ses activités, selon une annonce faite vendredi par ses développeurs. New Computer, la startup à l'origine de Do

Anthropic résout une affaire de piratage de livres générés par l'IA Anthropic a trouvé une solution à un important litige en matière de droits d'auteur avec des auteurs américains, en acceptant une proposition de règlement de recours collectif qui évite un procès pote

Figma met à la disposition de tous les utilisateurs un outil de création d'applications basé sur l'IA Figma Make, la plateforme de développement innovante de type prompt-to-app dévoilée au début de l'année, est officiellement sortie de la phase bêta et a été déployée pour tous les utilisateurs. Cet ou

commentaires (25)

0/200

Soumettre

LucasWalker

18 avril 2025 23:37:58 UTC+02:00

ジェミニの新しいモデルが100万トークンのコンテキストを持つとは信じられない！🤯 まるで何でも扱える超賢いAIを持っているようです。AIエージェントもゲームチェンジャーです。次に何を出すのか楽しみです！🚀

FrankSmith

16 avril 2025 02:37:56 UTC+02:00

젬니니의 새로운 모델 정말 멋지네요! 100만 토큰의 컨텍스트 윈도우는 정말 놀랍습니다. 마치 모든 대화를 기억하는 똑똑한 친구가 있는 것 같아요! 조금 더 빨랐으면 좋겠지만, 뭐 다 가질 수는 없죠? 🤓

JamesMiller

15 avril 2025 19:53:33 UTC+02:00

O novo modelo do Gemini é bem legal! A janela de contexto de 1 milhão de tokens é louca, é como ter um amigo superinteligente que lembra de tudo o que você já disse! Só queria que fosse um pouco mais rápido, mas, ei, não dá pra ter tudo, né? 🤓

MarkRoberts

15 avril 2025 03:25:31 UTC+02:00

El nuevo modelo Gemini es impresionante, especialmente la ventana de contexto larga. Es genial para desarrolladores, pero puede ser un poco abrumador para principiantes. Los agentes de IA son geniales, pero desearía que hubiera más documentación sobre cómo usarlos de manera efectiva.

BillyGarcia

14 avril 2025 21:20:08 UTC+02:00

O novo modelo do Gemini com um contexto de um milhão de tokens é loucura! 🤯 É como ter uma IA super inteligente que pode lidar com qualquer coisa. Os agentes de IA também são um divisor de águas. Mal posso esperar para ver o que eles vão lançar a seguir! 🚀

RogerRoberts

14 avril 2025 19:06:25 UTC+02:00

¡El nuevo modelo de Gemini es bastante genial! La ventana de contexto de 1 millón de tokens es una locura, es como tener un amigo súper inteligente que recuerda todo lo que has dicho alguna vez. Ojalá fuera un poco más rápido, pero bueno, no se puede tener todo, ¿verdad? 🤓

Top nouvelles

Meilleurs Générateurs de Vidéos IA en 2025 : Pika Labs vs Alternatives Gemini 2.5 Pro maintenant illimité et moins cher que Claude, GPT-4O Doublage par IA : Guide ultime pour la création de voix réalistes L'IA du cambium transforme le bois de déchet en bois OpenAI améliore l'assistant vocal AI pour de meilleurs chats AI Builder et Power Automate Révolutionnent la Synthèse de Documents Comment vous assurer que vos données sont dignes de confiance pour l'intégration de l'IA Notebooklm se développe à l'échelle mondiale, ajoute des diapositives et une vérification des faits améliorée Les ajustements aux centres de données américains pourraient débloquer 76 GW de nouvelle capacité d'énergie Google utilise l'IA pour suspendre plus de 39 millions de comptes d'annonces pour une fraude présumée

Plus

En vedette