Option
Heim
Nachricht
Gemini enthüllt erweitertes Modell, erweiterter Kontext, AI -Agenten

Gemini enthüllt erweitertes Modell, erweiterter Kontext, AI -Agenten

10. April 2025
48

Im Dezember haben wir unser erstes nativ multimodales Modell, Gemini 1.0, in drei Größen eingeführt: Ultra, Pro und Nano. Einige Monate später stellten wir 1.5 Pro vor, das mit verbesserter Leistung und einem bahnbrechenden langen Kontextfenster von 1 Million Token aufwartet.

Entwickler und Unternehmenskunden nutzen 1.5 Pro auf beeindruckende Weise und schätzen das lange Kontextfenster, die robuste multimodale Argumentation und die insgesamt hervorragende Leistung.

Das Feedback der Nutzer wies auf die Notwendigkeit von Modellen mit geringerer Latenz und Kosten hin, was uns dazu anspornte, weiterhin Grenzen zu verschieben. Deshalb freuen wir uns, heute Gemini 1.5 Flash vorzustellen. Dieses Modell ist leichter als 1.5 Pro, für Schnelligkeit und Effizienz ausgelegt und perfekt für die Skalierung geeignet.

Sowohl 1.5 Pro als auch 1.5 Flash sind jetzt in der öffentlichen Vorschau verfügbar, mit einem Kontextfenster von 1 Million Token, zugänglich über Google AI Studio und Vertex AI. Und für diejenigen, die noch mehr benötigen, bietet 1.5 Pro jetzt ein Kontextfenster von 2 Millionen Token, verfügbar über eine Warteliste für Entwickler, die die API nutzen, und Google Cloud-Kunden.

Wir hören hier nicht auf. Wir führen auch Aktualisierungen für die gesamte Gemini-Familie ein, stellen unsere nächste Generation offener Modelle, Gemma 2, vor und machen Fortschritte in der Zukunft von KI-Assistenten mit Project Astra.

Kontextlängen führender Basismodelle im Vergleich zur 2-Millionen-Token-Fähigkeit von Gemini 1.5

Gemini-Modellfamilie-Updates

Das neue 1.5 Flash, optimiert für Geschwindigkeit und Effizienz

Wir stellen 1.5 Flash vor, das neueste und schnellste Mitglied der Gemini-Familie, bereitgestellt über unsere API. Es ist auf hochvolumige, hochfrequente Aufgaben zugeschnitten und bietet kostengünstige Skalierbarkeit, während es unseren Durchbruch beim langen Kontextfenster beibehält.

Obwohl leichter als 1.5 Pro, ist 1.5 Flash keineswegs schwach. Es glänzt bei multimodalem Denken über große Datensätze hinweg und liefert beeindruckende Qualität im Verhältnis zu seiner Größe.

Das neue Gemini 1.5 Flash-Modell ist für Geschwindigkeit und Effizienz optimiert, hochfähig im multimodalen Denken und verfügt über unser bahnbrechendes langes Kontextfenster.

1.5 Flash glänzt bei Aufgaben wie Zusammenfassungen, Chat-Anwendungen und der Beschriftung von Bildern und Videos. Es ist auch geschickt darin, Daten aus langen Dokumenten und Tabellen zu extrahieren. Diese Vielseitigkeit stammt aus der Schulung durch 1.5 Pro durch „Destillation“, bei der das Kernwissen und die Fähigkeiten eines größeren Modells an ein effizienteres, kleineres Modell weitergegeben werden.

Für weitere Details zu 1.5 Flash siehe unseren aktualisierten technischen Bericht zu Gemini 1.5, die Gemini-Technologieseite und erfahre mehr über Verfügbarkeit und Preise.

Deutliche Verbesserung von 1.5 Pro

In den letzten Monaten haben wir bedeutende Fortschritte bei der Verbesserung von 1.5 Pro, unserem Spitzenreiter bei einer Vielzahl von Aufgaben, gemacht.

Wir haben sein Kontextfenster auf 2 Millionen Token erweitert und seine Fähigkeiten in der Codegenerierung, logischen Argumentation, Planung, mehrstufigen Konversationen sowie dem Verständnis von Audio und Bildern verbessert. Diese Verbesserungen werden durch Fortschritte in Daten und Algorithmen unterstützt, die deutliche Verbesserungen bei öffentlichen und internen Benchmarks zeigen.

1.5 Pro kann nun zunehmend komplexe und nuancierte Anweisungen verarbeiten, einschließlich solcher, die produktbezogene Verhaltensweisen wie Rolle, Format und Stil definieren. Wir haben die Kontrolle über die Antworten des Modells für spezifische Anwendungsfälle verfeinert, wie etwa die Anpassung von Chat-Agent-Personas oder die Automatisierung von Arbeitsabläufen mit mehreren Funktionsaufrufen. Nutzer können das Verhalten des Modells nun mit Systemanweisungen steuern.

Wir haben auch Audioverständnis in die Gemini-API und Google AI Studio integriert, sodass 1.5 Pro sowohl Bilder als auch Audio aus Videos, die in Google AI Studio hochgeladen wurden, verarbeiten kann. Wir integrieren 1.5 Pro in Google-Produkte wie Gemini Advanced und Workspace-Apps.

Für mehr über 1.5 Pro siehe unseren aktualisierten technischen Bericht zu Gemini 1.5 und die Gemini-Technologieseite.

Gemini Nano versteht multimodale Eingaben

Gemini Nano verbessert sein Spiel und geht über reine Texteingaben hinaus, um auch Bilder zu umfassen. Beginnend mit Pixel werden Apps, die Gemini Nano mit Multimodalität nutzen, die Welt auf menschlichere Weise interpretieren können, durch Text, Bilder, Ton und gesprochene Sprache.

Erfahre mehr über Gemini 1.0 Nano auf Android.

Nächste Generation offener Modelle

Heute aktualisieren wir auch Gemma, unsere Familie offener Modelle, die auf derselben Forschung und Technologie wie die Gemini-Modelle basieren.

Wir starten Gemma 2, unsere nächste Generation offener Modelle für verantwortungsvolle KI-Innovation. Gemma 2 verfügt über eine neue Architektur für überlegene Leistung und Effizienz und wird in neuen Größen verfügbar sein.

Die Gemma-Familie wächst mit PaliGemma, unserem ersten Vision-Sprache-Modell, inspiriert von PaLI-3. Wir haben auch unser Responsible Generative AI Toolkit mit LLM Comparator aufgerüstet, um die Qualität der Modellantworten zu bewerten.

Für weitere Details besuche den Entwickler-Blog.

Fortschritte bei der Entwicklung universeller KI-Agenten

Bei Google DeepMind ist unsere Mission, KI verantwortungsvoll zum Wohle der Menschheit zu entwickeln. Wir haben stets darauf abgezielt, universelle KI-Agenten zu schaffen, die im Alltag unterstützen können. Deshalb teilen wir unsere Fortschritte in der Zukunft von KI-Assistenten mit Project Astra (fortgeschrittener sehender und sprechender reaktionsfähiger Agent).

Damit ein KI-Agent wirklich hilfreich ist, muss er die Welt wie ein Mensch verstehen und darauf reagieren, indem er wahrnimmt und sich an das erinnert, was er sieht und hört, um Kontext zu erfassen und entsprechend zu handeln. Er sollte auch proaktiv, lernfähig und persönlich sein und natürliche, verzögerungsfreie Gespräche ermöglichen.

Obwohl wir große Fortschritte bei der Verarbeitung multimodaler Informationen gemacht haben, ist das Erreichen von Gesprächsantwortzeiten eine schwierige technische Herausforderung. Über die Jahre haben wir verfeinert, wie unsere Modelle wahrnehmen, argumentieren und konversieren, um Interaktionen natürlicher wirken zu lassen.

Aufbauend auf Gemini haben wir Prototyp-Agenten entwickelt, die Informationen schneller verarbeiten, indem sie Videobilder kontinuierlich kodieren, Video- und Spracheingaben in eine Zeitleiste von Ereignissen zusammenführen und diese Daten für schnelles Abrufen zwischenspeichern.

Durch die Nutzung unserer erstklassigen Sprachmodelle haben wir auch die Klangqualität dieser Agenten verbessert und ihnen eine breitere Palette an Intonationen verliehen. Sie können den Kontext, in dem sie sich befinden, besser verstehen und schnell in Gesprächen reagieren.

Mit dieser Technologie ist es leicht, sich eine Zukunft vorzustellen, in der jeder einen erfahrenen KI-Assistenten an seiner Seite hat, zugänglich über ein Telefon oder eine Brille. Einige dieser Fähigkeiten werden später in diesem Jahr in Google-Produkte wie die Gemini-App und das Web-Erlebnis integriert.

Fortgesetzte Erforschung

Wir haben mit unserer Gemini-Modellfamilie einen weiten Weg zurückgelegt und sind entschlossen, die Grenzen noch weiter zu verschieben. Durch unermüdliche Innovation erkunden wir neue Grenzen, während wir spannende neue Anwendungsfälle für Gemini freischalten.

Um mehr über Gemini und seine Fähigkeiten zu erfahren, sieh dir unsere Ressourcen an.

Erhalte mehr Geschichten von Google in deinem Posteingang. Erhalte mehr Geschichten von Google in deinem Posteingang.

E-Mail-Adresse Deine Informationen werden gemäß der Datenschutzrichtlinie von Google verwendet.

Abonnieren Abgeschlossen. Nur noch ein Schritt.

Überprüfe deinen Posteingang, um dein Abonnement zu bestätigen.

Du bist bereits für unseren Newsletter angemeldet.

Du kannst dich auch mit einer anderen E-Mail-Adresse anmelden.

Verwandter Artikel
Salesforce stellt KI-Digitale Teamkollegen in Slack vor, um mit Microsoft Copilot zu konkurrieren Salesforce stellt KI-Digitale Teamkollegen in Slack vor, um mit Microsoft Copilot zu konkurrieren Salesforce hat eine neue KI-Strategie für den Arbeitsplatz gestartet und spezialisierte „digitale Teamkollegen“ in Slack-Konversationen integriert, wie das Unternehmen am Montag bekannt gab.Das neue T
Oracles 40-Mrd.-Nvidia-Chip-Investition stärkt Texas AI-Rechenzentrum Oracles 40-Mrd.-Nvidia-Chip-Investition stärkt Texas AI-Rechenzentrum Oracle plant, etwa 40 Milliarden Dollar in Nvidia-Chips zu investieren, um ein großes neues Rechenzentrum in Texas zu betreiben, das von OpenAI entwickelt wird, wie die Financial Times berichtet. Dies
Meta AI App führt Premium-Stufe und Werbung ein Meta AI App führt Premium-Stufe und Werbung ein Die AI-App von Meta könnte bald ein kostenpflichtiges Abonnement einführen, ähnlich den Angeboten von Konkurrenten wie OpenAI, Google und Microsoft. Während eines Q1 2025 Earnings Calls skizzierte Met
Kommentare (25)
0/200
LucasWalker
LucasWalker 18. April 2025 23:37:58 MESZ

ジェミニの新しいモデルが100万トークンのコンテキストを持つとは信じられない!🤯 まるで何でも扱える超賢いAIを持っているようです。AIエージェントもゲームチェンジャーです。次に何を出すのか楽しみです!🚀

FrankSmith
FrankSmith 16. April 2025 02:37:56 MESZ

젬니니의 새로운 모델 정말 멋지네요! 100만 토큰의 컨텍스트 윈도우는 정말 놀랍습니다. 마치 모든 대화를 기억하는 똑똑한 친구가 있는 것 같아요! 조금 더 빨랐으면 좋겠지만, 뭐 다 가질 수는 없죠? 🤓

JamesMiller
JamesMiller 15. April 2025 19:53:33 MESZ

O novo modelo do Gemini é bem legal! A janela de contexto de 1 milhão de tokens é louca, é como ter um amigo superinteligente que lembra de tudo o que você já disse! Só queria que fosse um pouco mais rápido, mas, ei, não dá pra ter tudo, né? 🤓

MarkRoberts
MarkRoberts 15. April 2025 03:25:31 MESZ

El nuevo modelo Gemini es impresionante, especialmente la ventana de contexto larga. Es genial para desarrolladores, pero puede ser un poco abrumador para principiantes. Los agentes de IA son geniales, pero desearía que hubiera más documentación sobre cómo usarlos de manera efectiva.

BillyGarcia
BillyGarcia 14. April 2025 21:20:08 MESZ

O novo modelo do Gemini com um contexto de um milhão de tokens é loucura! 🤯 É como ter uma IA super inteligente que pode lidar com qualquer coisa. Os agentes de IA também são um divisor de águas. Mal posso esperar para ver o que eles vão lançar a seguir! 🚀

RogerRoberts
RogerRoberts 14. April 2025 19:06:25 MESZ

¡El nuevo modelo de Gemini es bastante genial! La ventana de contexto de 1 millón de tokens es una locura, es como tener un amigo súper inteligente que recuerda todo lo que has dicho alguna vez. Ojalá fuera un poco más rápido, pero bueno, no se puede tener todo, ¿verdad? 🤓

Zurück nach oben
OR