Heim
TIPSv2 von Google DeepMind: Eine KI, die Bilder wirklich versteht und nicht nur flüchtig betrachtet
Das Bildverständnis durch KI weist derzeit eine wesentliche Einschränkung auf.
Auf die Frage „Was ist auf diesem Bild zu sehen?“ kann es eine detaillierte Antwort geben. Die Frage „Wo befindet sich das linke Hinterbein des Pandas?“ führt jedoch zu vagen Antworten. Dies ist kein Fehler eines bestimmten Modells, sondern ein hartnäckiges Problem im gesamten Bereich der großen visuell-sprachlichen Modelle: starkes globales Verständnis, aber schwache lokale Lokalisierung.
Google DeepMind hat in seiner neuesten Veröffentlichung TIPSv2 vorgestellt, das speziell zur Lösung dieses schwierigen Problems entwickelt wurde.

Das Forschungsteam machte eine kontraintuitive Beobachtung: Bei feinmaschigen Segmentierungsaufgaben schneiden kleinere „Schüler“-Modelle häufig besser ab als größere „Lehrer“-Modelle. Dies geschieht, weil durch die Destillation der Maskierungsmechanismus entfernt wird, wodurch das Modell gezwungen ist, jedes Detail des gesamten Bildes zu lernen, was eine Form der „Vollbereichsüberwachung“ schafft. Motiviert durch diese Erkenntnis führte TIPSv2 drei wesentliche Verbesserungen ein.
Erstens: iBOT++. Bei herkömmlichem Vortraining wird der Verlust nur für maskierte Bereiche berechnet, wodurch sichtbare Bereiche vernachlässigt werden, was zu einer Abweichung der lokalen Semantik führt. iBOT++ verlangt vom Modell eine präzise Überwachung aller sichtbaren Bereiche und wertet die Aufgabe damit effektiv von einem „Puzzlespiel“ zu einem „sorgfältigen Lesen des gesamten Textes“ auf. Diese einzelne Verbesserung steigerte die Zero-Shot-Segmentationsleistung um 14,1 Prozentpunkte.
Zweitens: Head-only EMA. Herkömmliches selbstüberwachtes Training erfordert, zwei nahezu identische große Modelle im Speicher zu halten, was sehr ressourcenintensiv ist. TIPSv2 hat herausgefunden, dass der bild-text-kontrastive Verlust allein ausreicht, um das Backbone-Netzwerk zu stabilisieren, sodass EMA nur auf den finalen Projektionskopf angewendet werden muss, wodurch die Notwendigkeit entfällt, das Backbone zu duplizieren. Dies reduziert die Anzahl der Trainingsparameter um etwa 42 % und beschleunigt den Prozess fast ohne Leistungseinbußen.
Drittens: Textpaarung mit mehreren Granularitätsstufen. Während des Trainings werden kurze Webbeschreibungen, mitteldetailierte Beschreibungen und lange Beschreibungen, die von Gemini generiert wurden, zufällig gemischt und dem Modell zugeführt, wobei zwischen einfachen und schwierigen Aufgaben abgewechselt wird. Dies verhindert, dass sich das Modell bei einfachen Aufgaben ausruht, und stellt gleichzeitig sicher, dass keine Details übersehen werden.
Die Endergebnisse sind überzeugend. TIPSv2 wurde einer Frozen-Evaluation über neun Aufgaben und 20 maßgebliche Datensätze unterzogen. Die Zero-Shot-Semantiksegmentierung erreichte einen neuen Branchen-Benchmark, während die Bild-Text-Suche und -Klassifizierung Vergleichsmodelle mit 56 % mehr Parametern übertraf. Auch rein visuelle Aufgaben gehörten zu den Spitzenreitern.
Der Code und die Modellgewichte für TIPSv2 sind vollständig als Open Source verfügbar. Für Teams, die in den Bereichen medizinische Bildgebung, autonomes Fahren, industrielle Inspektion und anderen Domänen arbeiten, die ein hochpräzises Bildverständnis erfordern, ist diese Lösung einen genauen Blick wert.
Artikel: https://www.alphaxiv.org/abs/2604.12012
Verwandter Artikel
Claude wurde zur Erstellung bösartiger npm-Pakete genutzt: Über 670 kompromittierte Pakete gefährden Open Source
Ein kürzlich aufgetretener Cybersicherheitsvorfall zeigt, wie große Sprachmodelle (LLMs) für die Entwicklung von Schadsoftware missbraucht werden. Der Sicherheitsforscher Sibi Moosa entdeckte einen An
Reliance stellt einen 110-Milliarden-Dollar-Investitionsplan für KI vor, während Indien seinen Technologieausbau vorantreibt
Mukesh Ambani, der milliardenschwere Vorsitzende des indischen Mischkonzerns Reliance, kündigte am Donnerstag einen Plan im Umfang von 10 Billionen Rupien (rund 110 Milliarden US-Dollar) an, um in den
Zhiyuan WITA beendet „nackte“ Roboterinteraktion mit erster Einreichung eines Konformitätsantrags
Der Sektor der verkörperten Intelligenz hat einen bedeutenden Meilenstein erreicht. Laut der jüngsten Mitteilung der Cyberspace-Verwaltungsbehörde von Shanghai hat das von Zhiyuan entwickelte WITA-Gro
Empfehlungen zu verwandten Spezialthemen
Kommentare (0)
Das Bildverständnis durch KI weist derzeit eine wesentliche Einschränkung auf.
Auf die Frage „Was ist auf diesem Bild zu sehen?“ kann es eine detaillierte Antwort geben. Die Frage „Wo befindet sich das linke Hinterbein des Pandas?“ führt jedoch zu vagen Antworten. Dies ist kein Fehler eines bestimmten Modells, sondern ein hartnäckiges Problem im gesamten Bereich der großen visuell-sprachlichen Modelle: starkes globales Verständnis, aber schwache lokale Lokalisierung.
Google DeepMind hat in seiner neuesten Veröffentlichung TIPSv2 vorgestellt, das speziell zur Lösung dieses schwierigen Problems entwickelt wurde.

Das Forschungsteam machte eine kontraintuitive Beobachtung: Bei feinmaschigen Segmentierungsaufgaben schneiden kleinere „Schüler“-Modelle häufig besser ab als größere „Lehrer“-Modelle. Dies geschieht, weil durch die Destillation der Maskierungsmechanismus entfernt wird, wodurch das Modell gezwungen ist, jedes Detail des gesamten Bildes zu lernen, was eine Form der „Vollbereichsüberwachung“ schafft. Motiviert durch diese Erkenntnis führte TIPSv2 drei wesentliche Verbesserungen ein.
Erstens: iBOT++. Bei herkömmlichem Vortraining wird der Verlust nur für maskierte Bereiche berechnet, wodurch sichtbare Bereiche vernachlässigt werden, was zu einer Abweichung der lokalen Semantik führt. iBOT++ verlangt vom Modell eine präzise Überwachung aller sichtbaren Bereiche und wertet die Aufgabe damit effektiv von einem „Puzzlespiel“ zu einem „sorgfältigen Lesen des gesamten Textes“ auf. Diese einzelne Verbesserung steigerte die Zero-Shot-Segmentationsleistung um 14,1 Prozentpunkte.
Zweitens: Head-only EMA. Herkömmliches selbstüberwachtes Training erfordert, zwei nahezu identische große Modelle im Speicher zu halten, was sehr ressourcenintensiv ist. TIPSv2 hat herausgefunden, dass der bild-text-kontrastive Verlust allein ausreicht, um das Backbone-Netzwerk zu stabilisieren, sodass EMA nur auf den finalen Projektionskopf angewendet werden muss, wodurch die Notwendigkeit entfällt, das Backbone zu duplizieren. Dies reduziert die Anzahl der Trainingsparameter um etwa 42 % und beschleunigt den Prozess fast ohne Leistungseinbußen.
Drittens: Textpaarung mit mehreren Granularitätsstufen. Während des Trainings werden kurze Webbeschreibungen, mitteldetailierte Beschreibungen und lange Beschreibungen, die von Gemini generiert wurden, zufällig gemischt und dem Modell zugeführt, wobei zwischen einfachen und schwierigen Aufgaben abgewechselt wird. Dies verhindert, dass sich das Modell bei einfachen Aufgaben ausruht, und stellt gleichzeitig sicher, dass keine Details übersehen werden.
Die Endergebnisse sind überzeugend. TIPSv2 wurde einer Frozen-Evaluation über neun Aufgaben und 20 maßgebliche Datensätze unterzogen. Die Zero-Shot-Semantiksegmentierung erreichte einen neuen Branchen-Benchmark, während die Bild-Text-Suche und -Klassifizierung Vergleichsmodelle mit 56 % mehr Parametern übertraf. Auch rein visuelle Aufgaben gehörten zu den Spitzenreitern.
Der Code und die Modellgewichte für TIPSv2 sind vollständig als Open Source verfügbar. Für Teams, die in den Bereichen medizinische Bildgebung, autonomes Fahren, industrielle Inspektion und anderen Domänen arbeiten, die ein hochpräzises Bildverständnis erfordern, ist diese Lösung einen genauen Blick wert.
Artikel: https://www.alphaxiv.org/abs/2604.12012
Claude wurde zur Erstellung bösartiger npm-Pakete genutzt: Über 670 kompromittierte Pakete gefährden Open Source
Ein kürzlich aufgetretener Cybersicherheitsvorfall zeigt, wie große Sprachmodelle (LLMs) für die Entwicklung von Schadsoftware missbraucht werden. Der Sicherheitsforscher Sibi Moosa entdeckte einen An
Reliance stellt einen 110-Milliarden-Dollar-Investitionsplan für KI vor, während Indien seinen Technologieausbau vorantreibt
Mukesh Ambani, der milliardenschwere Vorsitzende des indischen Mischkonzerns Reliance, kündigte am Donnerstag einen Plan im Umfang von 10 Billionen Rupien (rund 110 Milliarden US-Dollar) an, um in den
Zhiyuan WITA beendet „nackte“ Roboterinteraktion mit erster Einreichung eines Konformitätsantrags
Der Sektor der verkörperten Intelligenz hat einen bedeutenden Meilenstein erreicht. Laut der jüngsten Mitteilung der Cyberspace-Verwaltungsbehörde von Shanghai hat das von Zhiyuan entwickelte WITA-Gro











