Heim
Physical Intelligence stellt eine Roboter-Helmkappe vor, die neue Aufgaben erlernen kann
Physical Intelligence, ein zwei Jahre altes Robotik-Startup mit Sitz in San Francisco, das sich zu einem der am meisten beachteten KI-Unternehmen der Bay Area entwickelt hat, veröffentlichte am Donnerstag neue Forschungsergebnisse. Die Ergebnisse zeigen, dass sein neuestes Modell Roboter dazu anleiten kann, Aufgaben auszuführen, für die sie nie speziell trainiert wurden – eine Fähigkeit, die selbst die Forscher des Unternehmens als Überraschung bezeichneten.
Das neue Modell mit dem Namen π0.7 markiert nach Angaben des Unternehmens einen frühen, aber bedeutenden Schritt in Richtung des lang gehegten Ziels eines universellen Robotergehirns. Dieses System kann auf eine unbekannte Aufgabe ausgerichtet, mit einfacher Sprache angeleitet und diese erfolgreich ausführen. Sollten sich diese Ergebnisse bei genauerer Prüfung bestätigen, deuten sie darauf hin, dass die Roboter-KI sich einem Wendepunkt nähert, der der Entwicklung großer Sprachmodelle ähnelt – bei der sich Fähigkeiten auf eine Weise verbinden, die über das hinausgeht, was die zugrunde liegenden Daten vermuten lassen.
Im Mittelpunkt der Veröffentlichung steht das Konzept der kompositorischen Generalisierung: die Fähigkeit, in unterschiedlichen Kontexten erlernte Fähigkeiten zu kombinieren, um völlig neue Probleme zu lösen. Traditionell stützte sich das Robotertraining auf auswendiges Lernen – das Sammeln von Daten für eine bestimmte Aufgabe, das Trainieren eines spezialisierten Modells darauf und das Wiederholen des Prozesses für jede neue Aufgabe. Physical Intelligence behauptet, dass π0.7 diesen Kreislauf durchbricht.
„Sobald es die Schwelle überschreitet, von der bloßen Nachahmung der genauen Daten, auf denen es trainiert wurde, hin zur kreativen Neukombination von Elementen auf neuartige Weise“, erklärt Sergey Levine, Mitbegründer von Physical Intelligence und Professor an der UC Berkeley mit Spezialisierung auf KI für Robotik, „beginnen die Fähigkeiten relativ zum Datenvolumen mit einer Rate zu wachsen, die über linear hinausgeht. Diese günstigere Skalierungsdynamik haben wir auch in anderen Bereichen beobachtet, wie Sprache und Bildverarbeitung.“
Die überzeugendste Demonstration der Arbeit betrifft eine Heißluftfritteuse, mit der das Modell während des Trainings praktisch keine Berührung hatte. Bei der Untersuchung fand das Team im gesamten Datensatz nur zwei relevante Instanzen: eine, bei der ein anderer Roboter einfach die Tür der Heißluftfritteuse zuschob, und eine weitere aus einem Open-Source-Datensatz, bei der ein Roboter auf Befehl eine Plastikflasche hineinstellte. Irgendwie hat das Modell diese Fragmente zusammen mit umfassenderen, webbasierten Vortrainingsdaten zu einem praktischen Verständnis der Funktionsweise des Geräts synthetisiert.
„Es ist unglaublich schwierig, genau zu bestimmen, woher das Wissen stammt, oder vorherzusagen, wo es erfolgreich sein wird und wo es scheitern wird“, bemerkt Ashwin Balakrishna, Forschungswissenschaftler bei Physical Intelligence und Doktorand der Informatik an der Stanford University. Dennoch unternahm das Modell ohne jegliches vorheriges Training einen glaubwürdigen Versuch, das Gerät zum Garen einer Süßkartoffel zu nutzen. Als es Schritt-für-Schritt-Anweisungen erhielt – im Wesentlichen sprach ein Mensch den Roboter durch den Prozess, so wie man einen neuen Mitarbeiter einarbeiten würde –, führte es die Aufgabe erfolgreich aus.
Diese Trainingsfähigkeit ist von Bedeutung, da sie impliziert, dass Roboter in neuen Umgebungen eingesetzt und in Echtzeit verfeinert werden könnten, wodurch die Notwendigkeit zusätzlicher Datenerfassung oder eines erneuten Modelltrainings entfällt.
Was sind also die weiterreichenden Implikationen? Die Forscher sind offen hinsichtlich der Grenzen des Modells und zurückhaltend, wenn es darum geht, dessen Fortschritte überzubewerten. In mindestens einem Fall führen sie einen Fehlschlag direkt auf ihr eigenes Team zurück.
„Manchmal liegt der Misserfolg nicht am Roboter oder am Modell“, sagt Balakrishna. „Es liegt an uns – wir sind nicht geschickt genug im Prompt-Engineering.“ Er verweist auf ein frühes Experiment mit einer Heißluftfritteuse, das nur eine Erfolgsquote von 5 % erzielte. Nachdem etwa dreißig Minuten damit verbracht wurden, die Erklärung der Aufgabe für das Modell zu verfeinern, stieg die Erfolgsquote auf 95 %.

Bildnachweis:Physical Intelligence
Das Modell ist auch noch nicht in der Lage, komplexe, mehrstufige Aufgaben autonom anhand eines einzigen übergeordneten Befehls auszuführen. „Man kann ihm nicht einfach sagen: ‚Mach mir mal einen Toast‘“, erklärt Levine. „Aber wenn man es durch die einzelnen Schritte führt – ‚Öffne diesen Teil des Toasters, drücke diesen Knopf, mach das‘ – dann funktioniert es in der Regel recht gut.“
Das Team räumt zudem ein, dass es in der Robotik an standardisierten Benchmarks mangelt, was die externe Validierung ihrer Behauptungen erschwert. Stattdessen verglich das Unternehmen π0.7 mit seinen eigenen früheren Spezialmodellen – Systemen, die für einzelne Aufgaben maßgeschneidert und trainiert wurden – und stellte fest, dass das Generalistenmodell bei einer Vielzahl komplexer Tätigkeiten, darunter Kaffee kochen, Wäsche zusammenlegen und Kartons zusammenbauen, mit deren Leistung mithalten konnte.
Der vielleicht bemerkenswerteste Aspekt der Forschung – wenn man den Forschern Glauben schenkt – ist nicht eine einzelne Demonstration, sondern das Ausmaß, in dem die Ergebnisse genau jene Personen verblüfften, deren Aufgabe es ist, die Trainingsdaten in- und auswendig zu kennen und folglich zu wissen, wozu das Modell fähig sein sollte und wozu nicht.
„Meine Erfahrung war immer, dass ich, wenn ich die Daten tiefgreifend verstehe, in der Regel vorhersagen kann, wozu das Modell in der Lage sein wird“, reflektiert Balakrishna. „Ich bin selten überrascht. Aber in den letzten Monaten war ich zum ersten Mal wirklich verblüfft. Ich habe mir zufällig ein Zahnradset gekauft und den Roboter gefragt: ‚Kannst du dieses Zahnrad drehen?‘ Und es hat einfach funktioniert.“
Levine erinnert sich an den Moment, als Forscher zum ersten Mal miterlebten, wie GPT-2 eine Geschichte über Einhörner in den Anden generierte. „Wo um alles in der Welt hat es etwas über Einhörner in Peru gelernt?“, sagt er. „Das ist so eine seltsame Kombination. Eine solche neu entstehende Fähigkeit in der Robotik zu sehen, ist wirklich etwas Besonderes.“
Natürlich werden Kritiker eine inhärente Asymmetrie hervorheben: Sprachmodelle wurden auf dem gesamten Internet trainiert. Roboter haben diesen Luxus nicht, und keine noch so clevere Eingabe kann diese Lücke vollständig schließen. Auf die Frage, wo er Skepsis erwartet, weist Levine jedoch in eine ganz andere Richtung.
„Die Kritik, die man immer an jeder Demo zur Roboter-Generalisierung üben kann, ist, dass die Aufgaben etwas banal wirken“, bemerkt er. „Der Roboter macht keinen Rückwärtssalto.“ Er stellt diese Sichtweise in Frage und argumentiert, dass genau der Unterschied zwischen einer auffälligen Roboter-Demo und einem System, das wirklich generalisiert, der springende Punkt ist. Wahre Generalisierung, so meint er, werde immer weniger spektakulär wirken als ein sorgfältig inszenierter Stunt – aber sie sei weitaus praktischer.
Die Veröffentlichung selbst verwendet durchweg eine vorsichtige Sprache und beschreibt π0.7 als etwas, das „erste Anzeichen“ von Generalisierung und „erste Demonstrationen“ neuer Fähigkeiten aufweise. Es handelt sich um Forschungsergebnisse, nicht um ein kommerzielles Produkt, und Physical Intelligence hat sich hinsichtlich des Zeitplans für die Kommerzialisierung stets zurückhaltend gezeigt.
Auf die direkte Frage, wann ein auf dieser Forschung basierendes System für den praktischen Einsatz bereit sein könnte, lehnt Levine Spekulationen ab. „Es gibt guten Grund für Optimismus, und der Fortschritt ist sicherlich schneller, als ich vor ein paar Jahren erwartet hatte“, sagt er. „Aber es fällt mir sehr schwer, eine definitive Antwort zu geben.“
Bis heute hat Physical Intelligence über 1 Milliarde US-Dollar eingesammelt und wurde zuletzt mit 5,6 Milliarden US-Dollar bewertet. Ein wesentlicher Teil der Begeisterung der Investoren für das Unternehmen hängt mit Mitbegründer Lachy Groom zusammen, der jahrelang als einer der angesehensten Angel-Investoren im Silicon Valley tätig war – und Unternehmen wie Figma, Notion und Ramp unterstützte –, bevor er zu dem Schluss kam, dass Physical Intelligence das Projekt war, nach dem er gesucht hatte. Dieser Hintergrund hat dem Start-up geholfen, beträchtliche institutionelle Finanzmittel anzuziehen, auch wenn es davon abgesehen hat, Investoren einen konkreten Zeitplan für die Markteinführung vorzulegen.
Das Unternehmen befindet sich Berichten zufolge derzeit in Verhandlungen über eine neue Finanzierungsrunde, die seine Bewertung auf 11 Milliarden US-Dollar fast verdoppeln würde. Das Team lehnte es ab, sich zu dieser Angelegenheit zu äußern.
Verwandter Artikel
Trace sammelt 3 Millionen Dollar, um die Hürden bei der Einführung von künstlichen Intelligenz-Agenten in Unternehmen zu überwinden.
Trotz ihres Potenzials haben künstliche Intelligenz-Agenten Schwierigkeiten, in Unternehmen Fuß zu fassen. Ein aufstrebendes Start-up ist der Ansicht, dass das Kernproblem ein Mangel an Kontext ist.Trace, ein als Teil der Sommerausbildung von Y Comb
Hightouch erreicht mit KI-gestützten Marketing-Tools einen Jahresumsatz von 100 Millionen US-Dollar
Früher waren Marketingfachleute auf Designer und andere Kreativfachleute angewiesen, um Bilder und Videos für personalisierte Online-Werbekampagnen zu erstellen.Ende 2024 führte das sieben Jahre alte
Der Erdgasboom bei Meta könnte das Stromnetz von South Dakota ankurbeln
Rechenzentren sind mittlerweile so riesig geworden, dass ihr Stromverbrauch dem ganzer US-Bundesstaaten entspricht. Man denke nur an das Hyperion-KI-Rechenzentrum von Meta: Nach seiner Fertigstellung
Empfehlungen zu verwandten Spezialthemen
Kommentare (0)
Physical Intelligence, ein zwei Jahre altes Robotik-Startup mit Sitz in San Francisco, das sich zu einem der am meisten beachteten KI-Unternehmen der Bay Area entwickelt hat, veröffentlichte am Donnerstag neue Forschungsergebnisse. Die Ergebnisse zeigen, dass sein neuestes Modell Roboter dazu anleiten kann, Aufgaben auszuführen, für die sie nie speziell trainiert wurden – eine Fähigkeit, die selbst die Forscher des Unternehmens als Überraschung bezeichneten.
Das neue Modell mit dem Namen π0.7 markiert nach Angaben des Unternehmens einen frühen, aber bedeutenden Schritt in Richtung des lang gehegten Ziels eines universellen Robotergehirns. Dieses System kann auf eine unbekannte Aufgabe ausgerichtet, mit einfacher Sprache angeleitet und diese erfolgreich ausführen. Sollten sich diese Ergebnisse bei genauerer Prüfung bestätigen, deuten sie darauf hin, dass die Roboter-KI sich einem Wendepunkt nähert, der der Entwicklung großer Sprachmodelle ähnelt – bei der sich Fähigkeiten auf eine Weise verbinden, die über das hinausgeht, was die zugrunde liegenden Daten vermuten lassen.
Im Mittelpunkt der Veröffentlichung steht das Konzept der kompositorischen Generalisierung: die Fähigkeit, in unterschiedlichen Kontexten erlernte Fähigkeiten zu kombinieren, um völlig neue Probleme zu lösen. Traditionell stützte sich das Robotertraining auf auswendiges Lernen – das Sammeln von Daten für eine bestimmte Aufgabe, das Trainieren eines spezialisierten Modells darauf und das Wiederholen des Prozesses für jede neue Aufgabe. Physical Intelligence behauptet, dass π0.7 diesen Kreislauf durchbricht.
„Sobald es die Schwelle überschreitet, von der bloßen Nachahmung der genauen Daten, auf denen es trainiert wurde, hin zur kreativen Neukombination von Elementen auf neuartige Weise“, erklärt Sergey Levine, Mitbegründer von Physical Intelligence und Professor an der UC Berkeley mit Spezialisierung auf KI für Robotik, „beginnen die Fähigkeiten relativ zum Datenvolumen mit einer Rate zu wachsen, die über linear hinausgeht. Diese günstigere Skalierungsdynamik haben wir auch in anderen Bereichen beobachtet, wie Sprache und Bildverarbeitung.“
Die überzeugendste Demonstration der Arbeit betrifft eine Heißluftfritteuse, mit der das Modell während des Trainings praktisch keine Berührung hatte. Bei der Untersuchung fand das Team im gesamten Datensatz nur zwei relevante Instanzen: eine, bei der ein anderer Roboter einfach die Tür der Heißluftfritteuse zuschob, und eine weitere aus einem Open-Source-Datensatz, bei der ein Roboter auf Befehl eine Plastikflasche hineinstellte. Irgendwie hat das Modell diese Fragmente zusammen mit umfassenderen, webbasierten Vortrainingsdaten zu einem praktischen Verständnis der Funktionsweise des Geräts synthetisiert.
„Es ist unglaublich schwierig, genau zu bestimmen, woher das Wissen stammt, oder vorherzusagen, wo es erfolgreich sein wird und wo es scheitern wird“, bemerkt Ashwin Balakrishna, Forschungswissenschaftler bei Physical Intelligence und Doktorand der Informatik an der Stanford University. Dennoch unternahm das Modell ohne jegliches vorheriges Training einen glaubwürdigen Versuch, das Gerät zum Garen einer Süßkartoffel zu nutzen. Als es Schritt-für-Schritt-Anweisungen erhielt – im Wesentlichen sprach ein Mensch den Roboter durch den Prozess, so wie man einen neuen Mitarbeiter einarbeiten würde –, führte es die Aufgabe erfolgreich aus.
Diese Trainingsfähigkeit ist von Bedeutung, da sie impliziert, dass Roboter in neuen Umgebungen eingesetzt und in Echtzeit verfeinert werden könnten, wodurch die Notwendigkeit zusätzlicher Datenerfassung oder eines erneuten Modelltrainings entfällt.
Was sind also die weiterreichenden Implikationen? Die Forscher sind offen hinsichtlich der Grenzen des Modells und zurückhaltend, wenn es darum geht, dessen Fortschritte überzubewerten. In mindestens einem Fall führen sie einen Fehlschlag direkt auf ihr eigenes Team zurück.
„Manchmal liegt der Misserfolg nicht am Roboter oder am Modell“, sagt Balakrishna. „Es liegt an uns – wir sind nicht geschickt genug im Prompt-Engineering.“ Er verweist auf ein frühes Experiment mit einer Heißluftfritteuse, das nur eine Erfolgsquote von 5 % erzielte. Nachdem etwa dreißig Minuten damit verbracht wurden, die Erklärung der Aufgabe für das Modell zu verfeinern, stieg die Erfolgsquote auf 95 %.

Bildnachweis:Physical Intelligence
Das Modell ist auch noch nicht in der Lage, komplexe, mehrstufige Aufgaben autonom anhand eines einzigen übergeordneten Befehls auszuführen. „Man kann ihm nicht einfach sagen: ‚Mach mir mal einen Toast‘“, erklärt Levine. „Aber wenn man es durch die einzelnen Schritte führt – ‚Öffne diesen Teil des Toasters, drücke diesen Knopf, mach das‘ – dann funktioniert es in der Regel recht gut.“
Das Team räumt zudem ein, dass es in der Robotik an standardisierten Benchmarks mangelt, was die externe Validierung ihrer Behauptungen erschwert. Stattdessen verglich das Unternehmen π0.7 mit seinen eigenen früheren Spezialmodellen – Systemen, die für einzelne Aufgaben maßgeschneidert und trainiert wurden – und stellte fest, dass das Generalistenmodell bei einer Vielzahl komplexer Tätigkeiten, darunter Kaffee kochen, Wäsche zusammenlegen und Kartons zusammenbauen, mit deren Leistung mithalten konnte.
Der vielleicht bemerkenswerteste Aspekt der Forschung – wenn man den Forschern Glauben schenkt – ist nicht eine einzelne Demonstration, sondern das Ausmaß, in dem die Ergebnisse genau jene Personen verblüfften, deren Aufgabe es ist, die Trainingsdaten in- und auswendig zu kennen und folglich zu wissen, wozu das Modell fähig sein sollte und wozu nicht.
„Meine Erfahrung war immer, dass ich, wenn ich die Daten tiefgreifend verstehe, in der Regel vorhersagen kann, wozu das Modell in der Lage sein wird“, reflektiert Balakrishna. „Ich bin selten überrascht. Aber in den letzten Monaten war ich zum ersten Mal wirklich verblüfft. Ich habe mir zufällig ein Zahnradset gekauft und den Roboter gefragt: ‚Kannst du dieses Zahnrad drehen?‘ Und es hat einfach funktioniert.“
Levine erinnert sich an den Moment, als Forscher zum ersten Mal miterlebten, wie GPT-2 eine Geschichte über Einhörner in den Anden generierte. „Wo um alles in der Welt hat es etwas über Einhörner in Peru gelernt?“, sagt er. „Das ist so eine seltsame Kombination. Eine solche neu entstehende Fähigkeit in der Robotik zu sehen, ist wirklich etwas Besonderes.“
Natürlich werden Kritiker eine inhärente Asymmetrie hervorheben: Sprachmodelle wurden auf dem gesamten Internet trainiert. Roboter haben diesen Luxus nicht, und keine noch so clevere Eingabe kann diese Lücke vollständig schließen. Auf die Frage, wo er Skepsis erwartet, weist Levine jedoch in eine ganz andere Richtung.
„Die Kritik, die man immer an jeder Demo zur Roboter-Generalisierung üben kann, ist, dass die Aufgaben etwas banal wirken“, bemerkt er. „Der Roboter macht keinen Rückwärtssalto.“ Er stellt diese Sichtweise in Frage und argumentiert, dass genau der Unterschied zwischen einer auffälligen Roboter-Demo und einem System, das wirklich generalisiert, der springende Punkt ist. Wahre Generalisierung, so meint er, werde immer weniger spektakulär wirken als ein sorgfältig inszenierter Stunt – aber sie sei weitaus praktischer.
Die Veröffentlichung selbst verwendet durchweg eine vorsichtige Sprache und beschreibt π0.7 als etwas, das „erste Anzeichen“ von Generalisierung und „erste Demonstrationen“ neuer Fähigkeiten aufweise. Es handelt sich um Forschungsergebnisse, nicht um ein kommerzielles Produkt, und Physical Intelligence hat sich hinsichtlich des Zeitplans für die Kommerzialisierung stets zurückhaltend gezeigt.
Auf die direkte Frage, wann ein auf dieser Forschung basierendes System für den praktischen Einsatz bereit sein könnte, lehnt Levine Spekulationen ab. „Es gibt guten Grund für Optimismus, und der Fortschritt ist sicherlich schneller, als ich vor ein paar Jahren erwartet hatte“, sagt er. „Aber es fällt mir sehr schwer, eine definitive Antwort zu geben.“
Bis heute hat Physical Intelligence über 1 Milliarde US-Dollar eingesammelt und wurde zuletzt mit 5,6 Milliarden US-Dollar bewertet. Ein wesentlicher Teil der Begeisterung der Investoren für das Unternehmen hängt mit Mitbegründer Lachy Groom zusammen, der jahrelang als einer der angesehensten Angel-Investoren im Silicon Valley tätig war – und Unternehmen wie Figma, Notion und Ramp unterstützte –, bevor er zu dem Schluss kam, dass Physical Intelligence das Projekt war, nach dem er gesucht hatte. Dieser Hintergrund hat dem Start-up geholfen, beträchtliche institutionelle Finanzmittel anzuziehen, auch wenn es davon abgesehen hat, Investoren einen konkreten Zeitplan für die Markteinführung vorzulegen.
Das Unternehmen befindet sich Berichten zufolge derzeit in Verhandlungen über eine neue Finanzierungsrunde, die seine Bewertung auf 11 Milliarden US-Dollar fast verdoppeln würde. Das Team lehnte es ab, sich zu dieser Angelegenheit zu äußern.
Trace sammelt 3 Millionen Dollar, um die Hürden bei der Einführung von künstlichen Intelligenz-Agenten in Unternehmen zu überwinden.
Trotz ihres Potenzials haben künstliche Intelligenz-Agenten Schwierigkeiten, in Unternehmen Fuß zu fassen. Ein aufstrebendes Start-up ist der Ansicht, dass das Kernproblem ein Mangel an Kontext ist.Trace, ein als Teil der Sommerausbildung von Y Comb
Hightouch erreicht mit KI-gestützten Marketing-Tools einen Jahresumsatz von 100 Millionen US-Dollar
Früher waren Marketingfachleute auf Designer und andere Kreativfachleute angewiesen, um Bilder und Videos für personalisierte Online-Werbekampagnen zu erstellen.Ende 2024 führte das sieben Jahre alte
Der Erdgasboom bei Meta könnte das Stromnetz von South Dakota ankurbeln
Rechenzentren sind mittlerweile so riesig geworden, dass ihr Stromverbrauch dem ganzer US-Bundesstaaten entspricht. Man denke nur an das Hyperion-KI-Rechenzentrum von Meta: Nach seiner Fertigstellung











