TIPSv2 von Google DeepMind: Eine KI, die Bilder wirklich versteht und nicht nur flüchtig betrachtet

Heim

Nachricht

31. Mai 2026

WillWalker

Das Bildverständnis durch KI weist derzeit eine wesentliche Einschränkung auf.

Auf die Frage „Was ist auf diesem Bild zu sehen?“ kann es eine detaillierte Antwort geben. Die Frage „Wo befindet sich das linke Hinterbein des Pandas?“ führt jedoch zu vagen Antworten. Dies ist kein Fehler eines bestimmten Modells, sondern ein hartnäckiges Problem im gesamten Bereich der großen visuell-sprachlichen Modelle: starkes globales Verständnis, aber schwache lokale Lokalisierung.

Google DeepMind hat in seiner neuesten Veröffentlichung TIPSv2 vorgestellt, das speziell zur Lösung dieses schwierigen Problems entwickelt wurde.

TIPSv2-Methodendiagramm

Das Forschungsteam machte eine kontraintuitive Beobachtung: Bei feinmaschigen Segmentierungsaufgaben schneiden kleinere „Schüler“-Modelle häufig besser ab als größere „Lehrer“-Modelle. Dies geschieht, weil durch die Destillation der Maskierungsmechanismus entfernt wird, wodurch das Modell gezwungen ist, jedes Detail des gesamten Bildes zu lernen, was eine Form der „Vollbereichsüberwachung“ schafft. Motiviert durch diese Erkenntnis führte TIPSv2 drei wesentliche Verbesserungen ein.

Erstens: iBOT++. Bei herkömmlichem Vortraining wird der Verlust nur für maskierte Bereiche berechnet, wodurch sichtbare Bereiche vernachlässigt werden, was zu einer Abweichung der lokalen Semantik führt. iBOT++ verlangt vom Modell eine präzise Überwachung aller sichtbaren Bereiche und wertet die Aufgabe damit effektiv von einem „Puzzlespiel“ zu einem „sorgfältigen Lesen des gesamten Textes“ auf. Diese einzelne Verbesserung steigerte die Zero-Shot-Segmentationsleistung um 14,1 Prozentpunkte.

Zweitens: Head-only EMA. Herkömmliches selbstüberwachtes Training erfordert, zwei nahezu identische große Modelle im Speicher zu halten, was sehr ressourcenintensiv ist. TIPSv2 hat herausgefunden, dass der bild-text-kontrastive Verlust allein ausreicht, um das Backbone-Netzwerk zu stabilisieren, sodass EMA nur auf den finalen Projektionskopf angewendet werden muss, wodurch die Notwendigkeit entfällt, das Backbone zu duplizieren. Dies reduziert die Anzahl der Trainingsparameter um etwa 42 % und beschleunigt den Prozess fast ohne Leistungseinbußen.

Drittens: Textpaarung mit mehreren Granularitätsstufen. Während des Trainings werden kurze Webbeschreibungen, mitteldetailierte Beschreibungen und lange Beschreibungen, die von Gemini generiert wurden, zufällig gemischt und dem Modell zugeführt, wobei zwischen einfachen und schwierigen Aufgaben abgewechselt wird. Dies verhindert, dass sich das Modell bei einfachen Aufgaben ausruht, und stellt gleichzeitig sicher, dass keine Details übersehen werden.

Die Endergebnisse sind überzeugend. TIPSv2 wurde einer Frozen-Evaluation über neun Aufgaben und 20 maßgebliche Datensätze unterzogen. Die Zero-Shot-Semantiksegmentierung erreichte einen neuen Branchen-Benchmark, während die Bild-Text-Suche und -Klassifizierung Vergleichsmodelle mit 56 % mehr Parametern übertraf. Auch rein visuelle Aufgaben gehörten zu den Spitzenreitern.

Der Code und die Modellgewichte für TIPSv2 sind vollständig als Open Source verfügbar. Für Teams, die in den Bereichen medizinische Bildgebung, autonomes Fahren, industrielle Inspektion und anderen Domänen arbeiten, die ein hochpräzises Bildverständnis erfordern, ist diese Lösung einen genauen Blick wert.

Artikel: https://www.alphaxiv.org/abs/2604.12012

Verwandter Artikel

Claude wurde zur Erstellung bösartiger npm-Pakete genutzt: Über 670 kompromittierte Pakete gefährden Open Source Ein kürzlich aufgetretener Cybersicherheitsvorfall zeigt, wie große Sprachmodelle (LLMs) für die Entwicklung von Schadsoftware missbraucht werden. Der Sicherheitsforscher Sibi Moosa entdeckte einen An

Reliance stellt einen 110-Milliarden-Dollar-Investitionsplan für KI vor, während Indien seinen Technologieausbau vorantreibt Mukesh Ambani, der milliardenschwere Vorsitzende des indischen Mischkonzerns Reliance, kündigte am Donnerstag einen Plan im Umfang von 10 Billionen Rupien (rund 110 Milliarden US-Dollar) an, um in den

Zhiyuan WITA beendet „nackte“ Roboterinteraktion mit erster Einreichung eines Konformitätsantrags Der Sektor der verkörperten Intelligenz hat einen bedeutenden Meilenstein erreicht. Laut der jüngsten Mitteilung der Cyberspace-Verwaltungsbehörde von Shanghai hat das von Zhiyuan entwickelte WITA-Gro

Empfehlungen zu verwandten Spezialthemen

Animationserstellung

AI-Anime-Generator für Donghua: Erstellen Sie Charaktere für Web-Romane und Comic-Avatare

Entdecken Sie die besten AI-Anime-Generatoren für Donghua im Jahr 2026. Unsere hochbewertete, sorgfältig ausgewählte Liste bietet leistungsstarke Tools, mit denen Sie atemberaubende Charaktere für Webromane und Comic-Avatare erstellen können. Vergleichen Sie kostenlose und kostenpflichtige Optionen anhand realer Tests. Finden Sie Ihren perfekten kreativen Partner und bringen Sie Ihre Geschichten noch heute bei XIX.AI zum Leben.

10 Tools

xix.ai

Comic-Erstellung

Die besten KI-Tools zur automatischen Kolorierung von Manga: Flache Farben ohne Konsistenzfehler anwenden

Entdecken Sie bei XIX.AI die besten KI-Tools zur automatischen Kolorierung von Manga für das Jahr 2026. Unsere sorgfältig zusammengestellte Liste enthält erstklassige, bahnbrechende Lösungen, die flächige Farben ohne Konsistenzfehler auftragen und so Ihre Produktivität steigern. Entdecken Sie Vergleiche zwischen kostenlosen und kostenpflichtigen Angeboten, Praxistests und wöchentlich aktualisierte Rankings, um das für Sie perfekte Tool zu finden. Nutzen Sie noch heute Ihren KI-Vorteil.

10 Tools

xix.ai

Schreiben

Die besten KI-Profilersteller: Erstellen Sie konsistente Charaktermotivationen und fatale Schwächen

Entdecken Sie die besten KI-Tools zur Charakterentwicklung für 2026, mit denen Sie facettenreiche Figuren erschaffen können. Die von XIX.AI zusammengestellte Liste enthält erstklassige, bahnbrechende Tools, die konsistente Motivationen und fatale Schwächen generieren. Vergleichen Sie kostenlose und kostenpflichtige Optionen anhand von Praxistests. Entfalten Sie jetzt Ihr Potenzial als Geschichtenerzähler.

10 Tools

xix.ai

Geschäft

Die beste Software zur Preisoptimierung mittels KI: Beobachten Sie die Konkurrenz und passen Sie Ihre Shop-Preise automatisch an

Entdecken Sie auf XIX.AI die beste Software zur Preisoptimierung mittels KI für 2026. Unsere sorgfältig zusammengestellte Liste enthält erstklassige, bahnbrechende Tools, die Ihre Mitbewerber beobachten und Ihre Shop-Preise automatisch anpassen, um den maximalen Gewinn zu erzielen. Vergleichen Sie kostenlose und kostenpflichtige Optionen anhand von Praxistests. Sichern Sie sich jetzt Ihren Preisvorteil.

10 Tools

xix.ai

Code

Die besten KI-Code-Prüfer: Automatisierung der Einhaltung von Clean-Code-Standards und Refactoring von Dateien in älteren Repositorys

Entdecken Sie die besten KI-Code-Reviewer des Jahres 2026 auf XIX.AI. Unsere sorgfältig zusammengestellte Liste enthält erstklassige, bahnbrechende Tools zur Automatisierung der Einhaltung von Clean-Code-Standards und zur Refaktorisierung von Dateien in älteren Repositorys. Vergleichen Sie kostenlose und kostenpflichtige Optionen anhand von Praxistests und wöchentlich aktualisierten Rankings. Sichern Sie sich noch heute Ihren KI-Vorsprung.

10 Tools

xix.ai

Text-zu-Sprache

Die besten KI-Sprachausgabe-Apps für Legasthenie: Unterstützung für das Lernen und effizienteres Lesen bei Schülern

Entdecken Sie die besten KI-TTS-Apps des Jahres 2026, die speziell zur Unterstützung bei Legasthenie ausgewählt wurden. In unseren Experten-Rankings vergleichen wir kostenlose und kostenpflichtige Tools und stellen leistungsstarke Funktionen für mehr Leseeffizienz und besseren Lernerfolg vor. Entdecken Sie bahnbrechende Lösungen, die Sie unbedingt ausprobieren sollten, um das Potenzial Ihrer Schüler voll auszuschöpfen. Beginnen Sie Ihre Reise bei XIX.AI.

10 Tools

xix.ai