Meta FAIR stellt fünf bahnbrechende Fortschritte bei der menschenähnlichen KI vor

Heim

Nachricht

28. Dezember 2025

BillyAdams

130

# ai # agents # meta # robotics

Das Fundamental AI Research (FAIR)-Team von Meta hat fünf neue Projekte vorgestellt, die seine Arbeit im Bereich der fortgeschrittenen maschinellen Intelligenz (AMI) vorantreiben.

Diese neuesten Veröffentlichungen konzentrieren sich auf die Verbesserung der KI-Wahrnehmung – also darauf, wie Maschinen sensorische Eingaben verarbeiten – sowie auf Fortschritte in den Bereichen Sprachmodelle, Robotik und kollaborative KI-Agenten.

Meta erklärte, sein Ziel sei es, Maschinen zu bauen, „die in der Lage sind, sensorische Daten aus unserer Welt zu erfassen, zu verarbeiten und zu interpretieren und diese Informationen zu nutzen, um Entscheidungen mit menschenähnlicher Intelligenz und Geschwindigkeit zu treffen“.

Die fünf neuen Initiativen stellen eine Reihe miteinander verbundener Bemühungen dar, um dieses ehrgeizige Ziel zu erreichen.

Perception Encoder: Schärfung der visuellen Intelligenz der KI

Ein Eckpfeiler der neuen Veröffentlichungen ist der Perception Encoder, ein groß angelegter Bildkodierer, der für außergewöhnliche Leistungen bei verschiedenen Bild- und Videotask entwickelt wurde.

Vision Encoder fungieren als „Augen“ von KI-Systemen und ermöglichen ihnen, visuelle Informationen zu erfassen.

Meta weist auf die wachsende Schwierigkeit hin, Encoder für fortschrittliche KI zu entwickeln, die Vision mit Sprache verbinden, sowohl Bilder als auch Videos kompetent verarbeiten und unter schwierigen Bedingungen, einschließlich gegnerischer Angriffe, zuverlässig bleiben müssen.

Laut Meta sollte der ideale Encoder ein breites Spektrum an Konzepten erkennen und gleichzeitig feine Details wahrnehmen – wie beispielsweise „ein unter dem Meeresboden verstecktes Stachelrochen, einen kleinen Stieglitz im Hintergrund eines Bildes oder ein sich schnell bewegendes Agouti auf einer Nachtsichtkamera für Wildtiere”.

Meta gibt an, dass der Perception Encoder „hervorragende Leistungen bei der Zero-Shot-Bild- und Videoklassifizierung und -wiederauffindung erbringt und alle aktuellen Open-Source- und proprietären Modelle für diese Aufgaben übertrifft“.

Darüber hinaus verbessern seine Wahrnehmungsfähigkeiten Berichten zufolge die Leistung bei Sprachaufgaben.

In Kombination mit einem großen Sprachmodell (LLM) soll der Encoder andere Bild-Encoder in Bereichen wie visueller Fragebeantwortung (VQA), Untertitelung, Dokumentenverständnis und Grounding (Verknüpfung von Text mit bestimmten Teilen eines Bildes) übertreffen. Berichten zufolge verbessert er auch die Leistung bei Aufgaben, mit denen LLMs normalerweise Schwierigkeiten haben, wie z. B. dem Verstehen räumlicher Beziehungen (z. B. „wenn sich ein Objekt hinter einem anderen befindet“) oder der Kamerabewegung relativ zu einem Objekt.

„Da der Perception Encoder nun in neue Anwendungen integriert wird, sind wir gespannt, wie seine fortschrittlichen visuellen Fähigkeiten noch komplexere KI-Systeme unterstützen werden“, kommentierte Meta.

Perception Language Model (PLM): Fortschritte in der offenen Bild-Sprache-Forschung

Zusammen mit dem Encoder arbeitet das Perception Language Model (PLM), ein offenes und reproduzierbares Vision-Language-Modell, das für komplexe visuelle Erkennungsaufgaben entwickelt wurde.

PLM wurde unter Verwendung umfangreicher synthetischer Daten sowie offener Bild-Sprache-Datensätze trainiert, wobei bewusst auf Wissen aus externen proprietären Modellen verzichtet wurde.

In Anbetracht der Mängel bestehender Daten zum Verständnis von Videos stellte das FAIR-Team 2,5 Millionen neue, von Menschen gekennzeichnete Beispiele zusammen, die sich auf detaillierte Video-Fragenbeantwortung und zeitlich-räumliche Untertitelung konzentrieren. Meta behauptet, dies sei der „bislang größte Datensatz seiner Art“.

PLM ist in Versionen mit 1, 3 und 8 Milliarden Parametern verfügbar, um den Anforderungen der akademischen Forschung gerecht zu werden, die vollständige Transparenz erfordert.

Zusammen mit den Modellen veröffentlicht Meta PLM-VideoBench, einen neuen Benchmark, der speziell entwickelt wurde, um Fähigkeiten zu testen, die von bestehenden Benchmarks oft übersehen werden, nämlich „fein abgestimmtes Verständnis von Aktivitäten und räumlich-zeitlich fundiertes Denken”.

Meta hofft, dass die Bereitstellung offener Modelle, eines großen Datensatzes und eines anspruchsvollen Benchmarks die Open-Source-Community stärken wird.

Meta Locate 3D: Roboter mit Situationsbewusstsein ausstatten

Meta Locate 3D schlägt eine Brücke zwischen Sprachbefehlen und physischen Aktionen. Dieses End-to-End-Modell wurde entwickelt, um Robotern zu ermöglichen, Objekte in einem 3D-Raum auf der Grundlage von offenen Abfragen in natürlicher Sprache genau zu finden.

Meta Locate 3D verarbeitet 3D-Punktwolken direkt von RGB-D-Sensoren (wie sie in einigen Robotern oder Tiefenkameras zu finden sind). Bei einer Textanweisung wie „Blumenvase in der Nähe der TV-Konsole“ analysiert das System räumliche Beziehungen und den Kontext, um das richtige Objekt zu identifizieren und es beispielsweise von einer „Vase auf dem Tisch“ zu unterscheiden.

Das System besteht aus drei Hauptkomponenten: einem Vorverarbeitungsschritt, der 2D-Merkmale in 3D-Punktwolken mit Merkmalen umwandelt; dem 3D-JEPA-Encoder (ein vortrainiertes Modell, das eine kontextualisierte 3D-Weltdarstellung erstellt); und dem Locate 3D-Decoder, der die 3D-Darstellung und die Sprachabfrage verwendet, um Begrenzungsrahmen und Masken für die angegebenen Objekte zu generieren.

Neben dem Modell veröffentlicht Meta einen umfangreichen neuen Datensatz für die Objektlokalisierung auf der Grundlage von Referenzausdrücken. Er umfasst 130.000 Sprachanmerkungen in 1.346 Szenen aus den Datensätzen ARKitScenes, ScanNet und ScanNet++ und verdoppelt damit effektiv die vorhandenen annotierten Daten in diesem Bereich.

Meta betrachtet diese Technologie als unverzichtbar für die Entwicklung leistungsfähigerer Robotersysteme, darunter auch das eigene PARTNR-Roboterprojekt, das eine natürlichere Interaktion und Zusammenarbeit zwischen Mensch und Roboter ermöglicht.

Dynamic Byte Latent Transformer: Effiziente und robuste Sprachmodellierung

Nach einer Ende 2024 veröffentlichten Studie veröffentlicht Meta nun die Modellgewichte für seinen Dynamic Byte Latent Transformer mit 8 Milliarden Parametern.

Diese Architektur unterscheidet sich von traditionellen tokenbasierten Sprachmodellen und arbeitet direkt auf Byte-Ebene. Meta behauptet, dass diese Methode eine ähnliche Leistung in großem Maßstab erzielt und gleichzeitig erhebliche Vorteile in Bezug auf Inferenz-Effizienz und Robustheit bietet.

Herkömmliche LLMs teilen Text in „Token” auf, was zu Problemen mit Rechtschreibfehlern, neuen Wörtern oder feindlichen Eingaben führen kann. Modelle auf Byte-Ebene verarbeiten Rohbytes und bieten damit potenziell eine größere Widerstandsfähigkeit.

Meta berichtet, dass der Dynamic Byte Latent Transformer „Tokenizer-basierte Modelle bei verschiedenen Aufgaben übertrifft und einen durchschnittlichen Robustheitsvorteil von +7 Punkten (bei gestörtem HellaSwag) aufweist und bei Aufgaben aus dem CUTE-Token-Verständnis-Benchmark bis zu +55 Punkte erreicht”.

Durch die Veröffentlichung der Gewichte zusammen mit der zuvor geteilten Codebasis ermutigt Meta die Forschungsgemeinschaft, diesen alternativen Ansatz zur Sprachmodellierung zu untersuchen.

Collaborative Reasoner: Weiterentwicklung sozial intelligenter KI-Agenten

Die letzte Veröffentlichung, Collaborative Reasoner, befasst sich mit der komplexen Herausforderung, KI-Agenten zu entwickeln, die effektiv mit Menschen oder anderen KIs zusammenarbeiten können.

Meta stellt fest, dass die Zusammenarbeit mit Menschen oft zu besseren Ergebnissen führt, und möchte KI mit ähnlichen Fähigkeiten für Aufgaben wie die Unterstützung bei Hausaufgaben oder die Vorbereitung auf ein Vorstellungsgespräch ausstatten.

Eine solche Zusammenarbeit erfordert nicht nur Problemlösungsfähigkeiten, sondern auch soziale Kompetenzen wie Kommunikation, Empathie, Feedback geben und das Verstehen der Perspektiven anderer (Theorie des Geistes), die sich in der Regel über mehrere Gesprächsrunden hinweg entfalten.

Aktuelle LLM-Trainings- und Bewertungsmethoden übersehen oft diese sozialen und kollaborativen Dimensionen. Darüber hinaus ist das Sammeln relevanter Gesprächsdaten kostspielig und schwierig.

Collaborative Reasoner bietet einen Rahmen zur Bewertung und Verbesserung dieser Fähigkeiten. Es umfasst zielorientierte Aufgaben, die mehrstufiges Denken erfordern, das durch den Dialog zwischen zwei Agenten erreicht wird. Der Rahmen testet Fähigkeiten wie konstruktive Meinungsverschiedenheiten, Überzeugungskraft und das Erreichen einer für beide Seiten optimalen Lösung.

Die Bewertungen von Meta zeigten, dass aktuelle Modelle oft nicht in der Lage sind, Zusammenarbeit konsequent zur Verbesserung der Ergebnisse zu nutzen. Um dieses Problem anzugehen, schlagen sie eine Selbstverbesserungstechnik vor, bei der ein LLM-Agent mit sich selbst zusammenarbeitet und synthetische Interaktionsdaten verwendet werden.

Die Generierung dieser Daten in großem Maßstab wird durch eine neue leistungsstarke Modell-Serving-Engine namens Matrix ermöglicht. Die Anwendung dieser Methode auf mathematische, wissenschaftliche und soziale Denkaufgaben führte Berichten zufolge zu Verbesserungen von bis zu 29,4 % im Vergleich zur Standardleistung einer einzelnen LLM nach dem „Chain-of-Thought”-Prinzip.

Durch die Open-Source-Veröffentlichung der Datenerzeugungs- und Modellierungspipeline will Meta die Forschung zur Entwicklung wirklich „sozialer Agenten, die mit Menschen und anderen Agenten zusammenarbeiten können” beschleunigen.

Zusammen unterstreichen diese fünf Veröffentlichungen die anhaltenden erheblichen Investitionen von Meta in die grundlegende KI-Forschung, insbesondere in die Schaffung der grundlegenden Komponenten für Maschinen, die die Welt auf menschenähnlichere Weise wahrnehmen, verstehen und mit ihr interagieren können.

Siehe auch: Meta wird KI-Modelle mit EU-Nutzerdaten trainieren

Möchten Sie mehr über KI und Big Data von Branchenführern erfahren? Besuchen Sie die AI & Big Data Expo in Amsterdam, Kalifornien und London. Diese umfassende Veranstaltung findet zusammen mit anderen wichtigen Veranstaltungen statt, darunter die Intelligent Automation Conference, BlockX, Digital Transformation Week und die Cyber Security & Cloud Expo.

Entdecken Sie hier weitere bevorstehende Veranstaltungen und Webinare zum Thema Unternehmenstechnologie, die von TechForge angeboten werden.

Verwandter Artikel

ElevenLabs gibt BlackRock, Jamie Foxx und Eva Longoria als neue Investoren bekannt Das Sprach-KI-Unternehmen ElevenLabs hat weitere Investoren für seine im Februar angekündigte Serie-D-Finanzierungsrunde in Höhe von 500 Millionen US-Dollar bekannt gegeben. Dazu gehören institutionel

WordPress.com ermöglicht es nun KI-Agenten, Beiträge zu verfassen und zu veröffentlichen – und vieles mehr WordPress.com, die beliebte Webhosting- und Publishing-Plattform, setzt nun auf KI-Agenten – ein Schritt, der das Erscheinungsbild des Internets grundlegend verändern könnte. Das Unternehmen gab am Fr

Meta AI beantwortet nun Nachrichten von Käufern auf dem Facebook Marketplace Facebook Marketplace führt neue Meta-KI-Funktionen ein, darunter automatische Antworten auf Käuferanfragen, wie das Unternehmen am Donnerstag bekannt gab. Die Plattform nutzt KI außerdem, um die Erste

Empfehlungen zu verwandten Spezialthemen

Geschäft

Die beste KI-Software zur Vertragsprüfung: Erkennen Sie rechtliche Lücken und Compliance-Risiken sofort

Entdecken Sie auf XIX.AI die beste KI-Software zur Vertragsprüfung für 2026. Unsere sorgfältig zusammengestellte Liste der Top-Anbieter umfasst leistungsstarke Tools, die rechtliche Lücken und Compliance-Risiken sofort aufdecken. Vergleichen Sie kostenlose und kostenpflichtige Optionen anhand von Praxistests und wöchentlich aktualisierten Rankings. Finden Sie Ihre bahnbrechende Lösung für eine sichere und effiziente Vertragsanalyse. Entdecken Sie jetzt den ultimativen Leitfaden.

10 Tools

xix.ai

Animationserstellung

AI-Anime-Generator für Donghua: Erstellen Sie Charaktere für Web-Romane und Comic-Avatare

Entdecken Sie die besten AI-Anime-Generatoren für Donghua im Jahr 2026. Unsere hochbewertete, sorgfältig ausgewählte Liste bietet leistungsstarke Tools, mit denen Sie atemberaubende Charaktere für Webromane und Comic-Avatare erstellen können. Vergleichen Sie kostenlose und kostenpflichtige Optionen anhand realer Tests. Finden Sie Ihren perfekten kreativen Partner und bringen Sie Ihre Geschichten noch heute bei XIX.AI zum Leben.

10 Tools

xix.ai

Comic-Erstellung

Die besten KI-Tools zur automatischen Kolorierung von Manga: Flache Farben ohne Konsistenzfehler anwenden

Entdecken Sie bei XIX.AI die besten KI-Tools zur automatischen Kolorierung von Manga für das Jahr 2026. Unsere sorgfältig zusammengestellte Liste enthält erstklassige, bahnbrechende Lösungen, die flächige Farben ohne Konsistenzfehler auftragen und so Ihre Produktivität steigern. Entdecken Sie Vergleiche zwischen kostenlosen und kostenpflichtigen Angeboten, Praxistests und wöchentlich aktualisierte Rankings, um das für Sie perfekte Tool zu finden. Nutzen Sie noch heute Ihren KI-Vorteil.

10 Tools

xix.ai

Schreiben

Die besten KI-Profilersteller: Erstellen Sie konsistente Charaktermotivationen und fatale Schwächen

Entdecken Sie die besten KI-Tools zur Charakterentwicklung für 2026, mit denen Sie facettenreiche Figuren erschaffen können. Die von XIX.AI zusammengestellte Liste enthält erstklassige, bahnbrechende Tools, die konsistente Motivationen und fatale Schwächen generieren. Vergleichen Sie kostenlose und kostenpflichtige Optionen anhand von Praxistests. Entfalten Sie jetzt Ihr Potenzial als Geschichtenerzähler.

10 Tools

xix.ai

Geschäft

Die beste Software zur Preisoptimierung mittels KI: Beobachten Sie die Konkurrenz und passen Sie Ihre Shop-Preise automatisch an

Entdecken Sie auf XIX.AI die beste Software zur Preisoptimierung mittels KI für 2026. Unsere sorgfältig zusammengestellte Liste enthält erstklassige, bahnbrechende Tools, die Ihre Mitbewerber beobachten und Ihre Shop-Preise automatisch anpassen, um den maximalen Gewinn zu erzielen. Vergleichen Sie kostenlose und kostenpflichtige Optionen anhand von Praxistests. Sichern Sie sich jetzt Ihren Preisvorteil.

10 Tools

xix.ai

Code

Die besten KI-Code-Prüfer: Automatisierung der Einhaltung von Clean-Code-Standards und Refactoring von Dateien in älteren Repositorys

Entdecken Sie die besten KI-Code-Reviewer des Jahres 2026 auf XIX.AI. Unsere sorgfältig zusammengestellte Liste enthält erstklassige, bahnbrechende Tools zur Automatisierung der Einhaltung von Clean-Code-Standards und zur Refaktorisierung von Dateien in älteren Repositorys. Vergleichen Sie kostenlose und kostenpflichtige Optionen anhand von Praxistests und wöchentlich aktualisierten Rankings. Sichern Sie sich noch heute Ihren KI-Vorsprung.

10 Tools

xix.ai

Kommentare (1)

0/500

Bitte melden Sie sich zuerst an

StevenMartin

1. Januar 2026 13:30:56 MEZ

So these advancements focus on perception and reasoning, huh? As someone who deals with automation at work, I find the 'AMI' goal both exciting and a bit unsettling. It feels like we're closing the loop between what a machine 'sees' and what it 'understands', which could revolutionize everything from logistics to creative tools. But honestly, I hope the focus stays on augmenting human ability rather than just chasing benchmarks that sound cool in research papers. The ethics of human-like perception need to be front and center. 🧠

Top -Nachrichten

AI Builder und Power Automate Revolutionieren die Dokumentenzusammenfassung KI -Hosts des Notebooklm -Podcasts, das jetzt für Interviews verfügbar ist China stellt nationale Standards für humanoide Roboter und verkörperte Intelligenz vor Ramp-Daten zeigen, dass die Akzeptanz von KI in Unternehmen sinkt Bing Image Creator Tutorial: Anleitung zur KI-Kunstgenerierung Lernen Sie, AI-Musik mit Ihrer Stimme zu erstellen: ein Schritt-für-Schritt-Suno-Tutorial iMyFone MagicMic: Echtzeit-AI-Stimmerveränderer Bewertung und Tutorial Top AI-Videogeneratoren 2025: Pika Labs im Vergleich zu Alternativen DeepSeek V4 revolutioniert multimodale KI Embodied Intelligence stellt ersten Branchenstandard zur Eindämmung unkontrollierten Wachstums vor

Mehr

Vorgestellt