Gemini enthüllt erweitertes Modell, erweiterter Kontext, AI -Agenten

Heim

Nachricht

10. April 2025

DavidThomas

149

# ai

Im Dezember haben wir unser erstes nativ multimodales Modell, Gemini 1.0, in drei Größen eingeführt: Ultra, Pro und Nano. Einige Monate später stellten wir 1.5 Pro vor, das mit verbesserter Leistung und einem bahnbrechenden langen Kontextfenster von 1 Million Token aufwartet.

Entwickler und Unternehmenskunden nutzen 1.5 Pro auf beeindruckende Weise und schätzen das lange Kontextfenster, die robuste multimodale Argumentation und die insgesamt hervorragende Leistung.

Das Feedback der Nutzer wies auf die Notwendigkeit von Modellen mit geringerer Latenz und Kosten hin, was uns dazu anspornte, weiterhin Grenzen zu verschieben. Deshalb freuen wir uns, heute Gemini 1.5 Flash vorzustellen. Dieses Modell ist leichter als 1.5 Pro, für Schnelligkeit und Effizienz ausgelegt und perfekt für die Skalierung geeignet.

Sowohl 1.5 Pro als auch 1.5 Flash sind jetzt in der öffentlichen Vorschau verfügbar, mit einem Kontextfenster von 1 Million Token, zugänglich über Google AI Studio und Vertex AI. Und für diejenigen, die noch mehr benötigen, bietet 1.5 Pro jetzt ein Kontextfenster von 2 Millionen Token, verfügbar über eine Warteliste für Entwickler, die die API nutzen, und Google Cloud-Kunden.

Wir hören hier nicht auf. Wir führen auch Aktualisierungen für die gesamte Gemini-Familie ein, stellen unsere nächste Generation offener Modelle, Gemma 2, vor und machen Fortschritte in der Zukunft von KI-Assistenten mit Project Astra.

Kontextlängen führender Basismodelle im Vergleich zur 2-Millionen-Token-Fähigkeit von Gemini 1.5

Gemini-Modellfamilie-Updates

Das neue 1.5 Flash, optimiert für Geschwindigkeit und Effizienz

Wir stellen 1.5 Flash vor, das neueste und schnellste Mitglied der Gemini-Familie, bereitgestellt über unsere API. Es ist auf hochvolumige, hochfrequente Aufgaben zugeschnitten und bietet kostengünstige Skalierbarkeit, während es unseren Durchbruch beim langen Kontextfenster beibehält.

Obwohl leichter als 1.5 Pro, ist 1.5 Flash keineswegs schwach. Es glänzt bei multimodalem Denken über große Datensätze hinweg und liefert beeindruckende Qualität im Verhältnis zu seiner Größe.

Das neue Gemini 1.5 Flash-Modell ist für Geschwindigkeit und Effizienz optimiert, hochfähig im multimodalen Denken und verfügt über unser bahnbrechendes langes Kontextfenster.

1.5 Flash glänzt bei Aufgaben wie Zusammenfassungen, Chat-Anwendungen und der Beschriftung von Bildern und Videos. Es ist auch geschickt darin, Daten aus langen Dokumenten und Tabellen zu extrahieren. Diese Vielseitigkeit stammt aus der Schulung durch 1.5 Pro durch „Destillation“, bei der das Kernwissen und die Fähigkeiten eines größeren Modells an ein effizienteres, kleineres Modell weitergegeben werden.

Für weitere Details zu 1.5 Flash siehe unseren aktualisierten technischen Bericht zu Gemini 1.5, die Gemini-Technologieseite und erfahre mehr über Verfügbarkeit und Preise.

Deutliche Verbesserung von 1.5 Pro

In den letzten Monaten haben wir bedeutende Fortschritte bei der Verbesserung von 1.5 Pro, unserem Spitzenreiter bei einer Vielzahl von Aufgaben, gemacht.

Wir haben sein Kontextfenster auf 2 Millionen Token erweitert und seine Fähigkeiten in der Codegenerierung, logischen Argumentation, Planung, mehrstufigen Konversationen sowie dem Verständnis von Audio und Bildern verbessert. Diese Verbesserungen werden durch Fortschritte in Daten und Algorithmen unterstützt, die deutliche Verbesserungen bei öffentlichen und internen Benchmarks zeigen.

1.5 Pro kann nun zunehmend komplexe und nuancierte Anweisungen verarbeiten, einschließlich solcher, die produktbezogene Verhaltensweisen wie Rolle, Format und Stil definieren. Wir haben die Kontrolle über die Antworten des Modells für spezifische Anwendungsfälle verfeinert, wie etwa die Anpassung von Chat-Agent-Personas oder die Automatisierung von Arbeitsabläufen mit mehreren Funktionsaufrufen. Nutzer können das Verhalten des Modells nun mit Systemanweisungen steuern.

Wir haben auch Audioverständnis in die Gemini-API und Google AI Studio integriert, sodass 1.5 Pro sowohl Bilder als auch Audio aus Videos, die in Google AI Studio hochgeladen wurden, verarbeiten kann. Wir integrieren 1.5 Pro in Google-Produkte wie Gemini Advanced und Workspace-Apps.

Für mehr über 1.5 Pro siehe unseren aktualisierten technischen Bericht zu Gemini 1.5 und die Gemini-Technologieseite.

Gemini Nano versteht multimodale Eingaben

Gemini Nano verbessert sein Spiel und geht über reine Texteingaben hinaus, um auch Bilder zu umfassen. Beginnend mit Pixel werden Apps, die Gemini Nano mit Multimodalität nutzen, die Welt auf menschlichere Weise interpretieren können, durch Text, Bilder, Ton und gesprochene Sprache.

Erfahre mehr über Gemini 1.0 Nano auf Android.

Nächste Generation offener Modelle

Heute aktualisieren wir auch Gemma, unsere Familie offener Modelle, die auf derselben Forschung und Technologie wie die Gemini-Modelle basieren.

Wir starten Gemma 2, unsere nächste Generation offener Modelle für verantwortungsvolle KI-Innovation. Gemma 2 verfügt über eine neue Architektur für überlegene Leistung und Effizienz und wird in neuen Größen verfügbar sein.

Die Gemma-Familie wächst mit PaliGemma, unserem ersten Vision-Sprache-Modell, inspiriert von PaLI-3. Wir haben auch unser Responsible Generative AI Toolkit mit LLM Comparator aufgerüstet, um die Qualität der Modellantworten zu bewerten.

Für weitere Details besuche den Entwickler-Blog.

Fortschritte bei der Entwicklung universeller KI-Agenten

Bei Google DeepMind ist unsere Mission, KI verantwortungsvoll zum Wohle der Menschheit zu entwickeln. Wir haben stets darauf abgezielt, universelle KI-Agenten zu schaffen, die im Alltag unterstützen können. Deshalb teilen wir unsere Fortschritte in der Zukunft von KI-Assistenten mit Project Astra (fortgeschrittener sehender und sprechender reaktionsfähiger Agent).

Damit ein KI-Agent wirklich hilfreich ist, muss er die Welt wie ein Mensch verstehen und darauf reagieren, indem er wahrnimmt und sich an das erinnert, was er sieht und hört, um Kontext zu erfassen und entsprechend zu handeln. Er sollte auch proaktiv, lernfähig und persönlich sein und natürliche, verzögerungsfreie Gespräche ermöglichen.

Obwohl wir große Fortschritte bei der Verarbeitung multimodaler Informationen gemacht haben, ist das Erreichen von Gesprächsantwortzeiten eine schwierige technische Herausforderung. Über die Jahre haben wir verfeinert, wie unsere Modelle wahrnehmen, argumentieren und konversieren, um Interaktionen natürlicher wirken zu lassen.

Aufbauend auf Gemini haben wir Prototyp-Agenten entwickelt, die Informationen schneller verarbeiten, indem sie Videobilder kontinuierlich kodieren, Video- und Spracheingaben in eine Zeitleiste von Ereignissen zusammenführen und diese Daten für schnelles Abrufen zwischenspeichern.

Durch die Nutzung unserer erstklassigen Sprachmodelle haben wir auch die Klangqualität dieser Agenten verbessert und ihnen eine breitere Palette an Intonationen verliehen. Sie können den Kontext, in dem sie sich befinden, besser verstehen und schnell in Gesprächen reagieren.

Mit dieser Technologie ist es leicht, sich eine Zukunft vorzustellen, in der jeder einen erfahrenen KI-Assistenten an seiner Seite hat, zugänglich über ein Telefon oder eine Brille. Einige dieser Fähigkeiten werden später in diesem Jahr in Google-Produkte wie die Gemini-App und das Web-Erlebnis integriert.

Fortgesetzte Erforschung

Wir haben mit unserer Gemini-Modellfamilie einen weiten Weg zurückgelegt und sind entschlossen, die Grenzen noch weiter zu verschieben. Durch unermüdliche Innovation erkunden wir neue Grenzen, während wir spannende neue Anwendungsfälle für Gemini freischalten.

Um mehr über Gemini und seine Fähigkeiten zu erfahren, sieh dir unsere Ressourcen an.

Erhalte mehr Geschichten von Google in deinem Posteingang. Erhalte mehr Geschichten von Google in deinem Posteingang.

E-Mail-Adresse Deine Informationen werden gemäß der Datenschutzrichtlinie von Google verwendet.

Abonnieren Abgeschlossen. Nur noch ein Schritt.

Überprüfe deinen Posteingang, um dein Abonnement zu bestätigen.

Du bist bereits für unseren Newsletter angemeldet.

Du kannst dich auch mit einer anderen E-Mail-Adresse anmelden.

Verwandter Artikel

WordPress.com ermöglicht es nun KI-Agenten, Beiträge zu verfassen und zu veröffentlichen – und vieles mehr WordPress.com, die beliebte Webhosting- und Publishing-Plattform, setzt nun auf KI-Agenten – ein Schritt, der das Erscheinungsbild des Internets grundlegend verändern könnte. Das Unternehmen gab am Fr

Kakao Mobility stellt einen Fahrplan für autonomes Fahren der Stufe 4 im Bereich der physischen KI vor Kakao Mobility plant, im Rahmen seiner Strategie für physische KI Technologien für autonomes Fahren der Stufe 4 intern zu entwickeln.Auf der Konferenz „World IT Show 2026“ im COEX in Seoul stellte Ki

Barry Diller: Das Vertrauen in Sam Altman spielt keine Rolle, da die allgemeine künstliche Intelligenz (AGI) immer näher rückt Barry Diller, der milliardenschwere Medienmogul, hält OpenAI-CEO Sam Altman nicht für unglaubwürdig, obwohl jüngste Berichte das Gegenteil nahelegen. Bei seiner Rede auf der „Future of Everything“-Kon

Empfehlungen zu verwandten Spezialthemen

Geschäft

Die besten KI-basierten Spesenabrechnungsprogramme: Quittungen scannen und Geschäftsausgaben automatisch kategorisieren

Die besten KI-basierten Spesenmanager 2026: Erstklassige Tools zum Scannen von Belegen und zur automatischen Kategorisierung von Unternehmensausgaben. Entdecken Sie leistungsstarke, bahnbrechende Lösungen für müheloses Spesenmanagement, präzise Finanzüberwachung und optimierte Compliance. Unser sorgfältig zusammengestellter, wöchentlich aktualisierter Vergleich zwischen kostenlosen und kostenpflichtigen Optionen hilft Ihnen dabei, die perfekte Lösung zu finden. Nutzen Sie Ihren KI-Vorteil mit den Expertenempfehlungen von XIX.AI.

10 Tools

xix.ai

Geschäft

Die besten KI-Tools für die Personalbeschaffung: Lebensläufe prüfen und die Terminplanung für Vorstellungsgespräche automatisieren

Entdecken Sie auf XIX.AI die besten KI-Tools für die Personalbeschaffung des Jahres 2026. Unsere sorgfältig zusammengestellte Liste umfasst leistungsstarke, bahnbrechende Lösungen für die Sichtung von Lebensläufen und die automatisierte Terminplanung für Vorstellungsgespräche. Vergleichen Sie kostenlose und kostenpflichtige Optionen anhand von Praxistests und wöchentlich aktualisierten Rankings. Finden Sie Ihren perfekten Assistenten für die Personalbeschaffung und optimieren Sie noch heute Ihren Rekrutierungsprozess!

10 Tools

xix.ai

Produktivität

KI-Coaches für persönliches Wohlbefinden und Konzentration: Burnout bewältigen und die geistige Energie steigern

Entdecken Sie auf XIX.AI die besten KI-basierten Coaches für persönliches Wohlbefinden und Konzentration des Jahres 2026. Unsere sorgfältig zusammengestellte Rangliste umfasst erstklassige, bahnbrechende Tools zur Bewältigung von Burnout und zur Steigerung der mentalen Energie. Vergleichen Sie kostenlose und kostenpflichtige Optionen anhand von Erfahrungsberichten aus der Praxis. Schlagen Sie noch heute den Weg zu höchster Produktivität und Wohlbefinden ein.

10 Tools

xix.ai

Chatbot

Die besten KI-basierten Romantik-Chatbots: Bauen Sie langfristige Beziehungen mit beständiger Persönlichkeit auf

Entdecken Sie die besten KI-Romantik-Chatbots des Jahres 2026, mit denen Sie echte, langfristige Beziehungen aufbauen können. Unsere sorgfältig zusammengestellte Liste bietet Ihnen überzeugende, konsistente Persönlichkeiten, Vergleiche zwischen kostenlosen und kostenpflichtigen Angeboten sowie Tests aus der Praxis. Finden Sie Ihren perfekten Begleiter und legen Sie noch heute bei XIX.AI los.

10 Tools

xix.ai

Bildung und Lernen

Die besten AI-Datenwissenschafts-Mentoren: Beherrschen Sie SQL, Pandas und Arbeitsabläufe für maschinelles Lernen.

Entdecken Sie die besten AI-Data-Science-Mentoren von 2026, um SQL, Pandas und ML-Arbeitsabläufe zu meistern. Erfahren Sie mehr über unsere hochbewerteten, sorgfältig ausgewählten Angebote bei XIX.AI – für effektive und bahnbrechende Anleitung. Vergleichen Sie kostenlose und bezahlte Optionen mit praktischen Einblicken aus der Praxis. Entfalten Sie Ihr Potenzial in der Data Science noch heute.

10 Tools

xix.ai

Chatbot

Die besten KI-Flirt- und Konversationstrainer: Steigere dein soziales Charisma und dein Selbstvertrauen in Echtzeit

Entdecken Sie auf XIX.AI die besten KI-Flirt- und Konversationstrainer des Jahres 2026. Unsere sorgfältig zusammengestellte, erstklassige Auswahl hilft Ihnen dabei, Ihr soziales Charisma und Ihr Selbstvertrauen in Echtzeit zu stärken. Entdecken Sie unverzichtbare, bahnbrechende Tools mit Vergleichen zwischen kostenlosen und kostenpflichtigen Angeboten sowie wöchentlich aktualisierten Rankings. Schaffen Sie sich noch heute einen sozialen Vorsprung.

10 Tools

xix.ai

Kommentare (26)

0/500

Bitte melden Sie sich zuerst an

GregoryWilson

27. April 2026 22:00:25 MESZ

Geminiの進化がすごいですね！長いコンテキストウィンドウは実用的なAIエージェント開発に革命をもたらしそう。でも、競争激化で倫理的なガイドラインが追いついてるか少し心配。🤔 個人的には、もっと小さなプロジェクトでも使える軽量版が早く出てくると嬉しいな。

LucasWalker

18. April 2025 23:37:58 MESZ

ジェミニの新しいモデルが100万トークンのコンテキストを持つとは信じられない！🤯 まるで何でも扱える超賢いAIを持っているようです。AIエージェントもゲームチェンジャーです。次に何を出すのか楽しみです！🚀

FrankSmith

16. April 2025 02:37:56 MESZ

젬니니의 새로운 모델 정말 멋지네요! 100만 토큰의 컨텍스트 윈도우는 정말 놀랍습니다. 마치 모든 대화를 기억하는 똑똑한 친구가 있는 것 같아요! 조금 더 빨랐으면 좋겠지만, 뭐 다 가질 수는 없죠? 🤓

JamesMiller

15. April 2025 19:53:33 MESZ

O novo modelo do Gemini é bem legal! A janela de contexto de 1 milhão de tokens é louca, é como ter um amigo superinteligente que lembra de tudo o que você já disse! Só queria que fosse um pouco mais rápido, mas, ei, não dá pra ter tudo, né? 🤓

MarkRoberts

15. April 2025 03:25:31 MESZ

El nuevo modelo Gemini es impresionante, especialmente la ventana de contexto larga. Es genial para desarrolladores, pero puede ser un poco abrumador para principiantes. Los agentes de IA son geniales, pero desearía que hubiera más documentación sobre cómo usarlos de manera efectiva.

BillyGarcia

14. April 2025 21:20:08 MESZ

O novo modelo do Gemini com um contexto de um milhão de tokens é loucura! 🤯 É como ter uma IA super inteligente que pode lidar com qualquer coisa. Os agentes de IA também são um divisor de águas. Mal posso esperar para ver o que eles vão lançar a seguir! 🚀

Top -Nachrichten

AI Builder und Power Automate Revolutionieren die Dokumentenzusammenfassung KI -Hosts des Notebooklm -Podcasts, das jetzt für Interviews verfügbar ist China stellt nationale Standards für humanoide Roboter und verkörperte Intelligenz vor Ramp-Daten zeigen, dass die Akzeptanz von KI in Unternehmen sinkt Bing Image Creator Tutorial: Anleitung zur KI-Kunstgenerierung Lernen Sie, AI-Musik mit Ihrer Stimme zu erstellen: ein Schritt-für-Schritt-Suno-Tutorial iMyFone MagicMic: Echtzeit-AI-Stimmerveränderer Bewertung und Tutorial Top AI-Videogeneratoren 2025: Pika Labs im Vergleich zu Alternativen DeepSeek V4 revolutioniert multimodale KI Embodied Intelligence stellt ersten Branchenstandard zur Eindämmung unkontrollierten Wachstums vor

Mehr

Vorgestellt