Hogar
Physical Intelligence presenta un casco cerebral robótico capaz de aprender tareas nuevas
Physical Intelligence, una startup de robótica con sede en San Francisco fundada hace dos años y que se ha convertido en una de las empresas de IA más seguidas del Área de la Bahía, publicó el jueves los resultados de una nueva investigación. Los hallazgos revelan que su último modelo es capaz de guiar a los robots para que realicen tareas para las que nunca fueron entrenados específicamente, una capacidad que, según admiten los propios investigadores de la empresa, les ha pillado por sorpresa.
El nuevo modelo, denominado π0.7, supone lo que la empresa denomina un paso temprano, pero significativo, hacia la ambición de larga data de crear un cerebro robótico de uso general. Este sistema puede ser dirigido hacia una tarea desconocida, recibir instrucciones en un lenguaje sencillo y completarla con éxito. Si estos resultados resisten el escrutinio, indican que la IA robótica podría estar acercándose a un punto de inflexión similar a la evolución de los grandes modelos de lenguaje, en el que las capacidades comienzan a combinarse de formas que superan lo que los datos fundamentales podrían sugerir.
En el centro del artículo se encuentra el concepto de generalización composicional: la capacidad de combinar habilidades aprendidas en contextos distintos para abordar problemas completamente nuevos. Tradicionalmente, el entrenamiento de los robots se ha basado en la memorización mecánica: recopilar datos para una tarea específica, entrenar un modelo especializado en ella y repetir el proceso para cada nueva tarea. Physical Intelligence afirma que π0.7 rompe este ciclo.
«Una vez que cruza el umbral que separa la mera réplica de los datos exactos con los que se entrenó de la recombinación creativa de elementos de formas novedosas», explica Sergey Levine, cofundador de Physical Intelligence y profesor de la Universidad de California en Berkeley especializado en IA para robótica, «las capacidades comienzan a aumentar a un ritmo superior al lineal en relación con el volumen de datos. Esta dinámica de escalado más favorable es algo que hemos observado en otros campos, como el lenguaje y la visión».
La demostración más convincente del artículo tiene que ver con una freidora sin aceite a la que el modelo prácticamente no había estado expuesto durante el entrenamiento. Tras investigar, el equipo encontró solo dos casos relevantes en todo el conjunto de datos: uno en el que un robot diferente simplemente empujaba la puerta de la freidora para cerrarla, y otro procedente de un conjunto de datos de código abierto en el que un robot colocaba una botella de plástico dentro de una de ellas siguiendo una orden. De alguna manera, el modelo sintetizó estos fragmentos, junto con datos de preentrenamiento más amplios procedentes de la web, para obtener una comprensión práctica del funcionamiento del electrodoméstico.
«Es increíblemente difícil determinar exactamente de dónde proviene el conocimiento o predecir dónde tendrá éxito o fracasará», señala Ashwin Balakrishna, investigador científico de Physical Intelligence y estudiante de doctorado en informática en Stanford. No obstante, sin ningún tipo de entrenamiento previo, el modelo realizó un intento creíble de utilizar el electrodoméstico para cocinar una batata. Cuando se le proporcionaron instrucciones verbales paso a paso —básicamente, un humano guiando al robot a través del proceso como se haría al formar a un nuevo empleado—, completó la tarea con éxito.
Esta capacidad de entrenamiento es significativa porque implica que los robots podrían desplegarse en entornos novedosos y perfeccionarse en tiempo real, eliminando la necesidad de recopilar datos adicionales o volver a entrenar el modelo.
Entonces, ¿cuáles son las implicaciones más amplias? Los investigadores son sinceros sobre las limitaciones del modelo y se muestran cautelosos a la hora de exagerar su progreso. En al menos un caso, atribuyen un fallo directamente a su propio equipo.
«A veces el fallo no se debe al robot ni al modelo», afirma Balakrishna. «Es culpa nuestra: no somos expertos en ingeniería de indicaciones». Cita un experimento inicial con una freidora sin aceite que solo alcanzó una tasa de éxito del 5 %. Tras dedicar unos treinta minutos a perfeccionar la forma en que se explicaba la tarea al modelo, la tasa de éxito se disparó hasta el 95 %.

Créditos de las imágenes:Physical Intelligence
El modelo tampoco es capaz aún de ejecutar de forma autónoma tareas complejas de varios pasos a partir de un único comando de alto nivel. «No puedes limitarte a decirle: "Ve a prepararme unas tostadas"», afirma Levine. «Pero si lo guías paso a paso —"abre esta parte de la tostadora, pulsa ese botón, haz esto"—, entonces tiende a funcionar bastante bien».
El equipo también reconoce la falta de puntos de referencia estandarizados en robótica, lo que complica la validación externa de sus afirmaciones. En su lugar, la empresa comparó π0.7 con sus propios modelos especializados anteriores —sistemas creados a medida y entrenados para tareas individuales— y descubrió que el modelo generalista igualaba su rendimiento en una variedad de actividades complejas, como preparar café, doblar la ropa y montar cajas.
Quizás el aspecto más notable de la investigación —si nos fiamos de la palabra de los investigadores— no sea ninguna demostración en concreto, sino hasta qué punto los resultados sorprendieron precisamente a aquellas personas cuyo trabajo consiste en conocer al dedillo los datos de entrenamiento y, por consiguiente, lo que el modelo debería y no debería ser capaz de hacer.
«Mi experiencia siempre ha sido que, cuando tengo un profundo conocimiento de los datos, normalmente puedo predecir lo que el modelo será capaz de hacer», reflexiona Balakrishna. «Rara vez me sorprendo. Pero estos últimos meses han sido la primera vez que me he quedado genuinamente desconcertado. Compré al azar un juego de engranajes y le pregunté al robot: “¿Puedes hacer girar este engranaje?”. Y simplemente funcionó».
Levine recuerda el momento en que los investigadores presenciaron por primera vez cómo GPT-2 generaba una historia sobre unicornios en los Andes. «¿De dónde demonios sacó lo de los unicornios en Perú?», dice. «Es una combinación tan extraña. Ver ese tipo de capacidad emergente en la robótica es realmente especial».
Naturalmente, los críticos señalarán una asimetría inherente: los modelos de lenguaje se entrenaron con todo el contenido de Internet. Los robots no tienen ese lujo, y por muy ingeniosas que sean las indicaciones, no se puede salvar por completo esa brecha. Sin embargo, cuando se le pregunta dónde prevé que surgirá el escepticismo, Levine apunta en una dirección totalmente diferente.
«La crítica que siempre se puede esgrimir contra cualquier demostración de generalización robótica es que las tareas parecen algo mundanas», observa. «El robot no está haciendo una voltereta hacia atrás». Cuestiona esta perspectiva, argumentando que la diferencia entre una demostración robótica llamativa y un sistema que realmente generaliza es precisamente el quid de la cuestión. La verdadera generalización, sugiere, siempre parecerá menos espectacular que una acrobacia cuidadosamente orquestada, pero es mucho más práctica.
El propio artículo emplea un lenguaje cauteloso en todo momento, describiendo a π0.7 como un sistema que muestra «primeros indicios» de generalización y «demostraciones iniciales» de nuevas capacidades. Se trata de resultados de investigación, no de un producto comercial, y Physical Intelligence se ha mostrado siempre reservada en cuanto a su calendario de comercialización.
Cuando se le pregunta directamente cuándo podría estar listo para su uso en el mundo real un sistema basado en esta investigación, Levine se niega a especular. «Hay buenas razones para el optimismo, y el progreso es sin duda más rápido de lo que anticipé hace un par de años», afirma. «Pero me resulta muy difícil dar una respuesta definitiva».
Hasta la fecha, Physical Intelligence ha recaudado más de 1000 millones de dólares y su valoración más reciente asciende a 5600 millones de dólares. Una parte significativa del entusiasmo de los inversores en torno a la empresa está vinculada al cofundador Lachy Groom, quien pasó años como uno de los inversores ángeles más respetados de Silicon Valley —apoyando a empresas como Figma, Notion y Ramp— antes de llegar a la conclusión de que Physical Intelligence era la empresa en la que había estado buscando invertir. Este historial ha ayudado a la startup a atraer una financiación institucional sustancial, incluso a pesar de haberse abstenido de proporcionar a los inversores una hoja de ruta específica para la comercialización.
Según se informa, la empresa se encuentra ahora en negociaciones para una nueva ronda de financiación que casi duplicaría su valoración hasta los 11 000 millones de dólares. El equipo se ha negado a hacer comentarios al respecto.
Artículo relacionado
Trace recauda 3 millones de dólares para superar las barreras en la adopción de agentes de IA empresariales
A pesar de su potencial, los agentes de IA han tenido dificultades para ganar terreno en el ámbito empresarial. Una startup emergente cree que el problema fundamental radica en la falta de contexto.Lanzada como parte del grupo de verano 2025 de Y Co
Hightouch alcanza los 100 millones de dólares en ingresos recurrentes anuales (ARR) gracias a sus herramientas de marketing basadas en la inteligencia artificial
En el pasado, los profesionales del marketing dependían de diseñadores y otros especialistas creativos para producir imágenes y vídeos destinados a campañas publicitarias online personalizadas.A final
El auge del gas natural de Meta podría impulsar la red eléctrica de Dakota del Sur
Los centros de datos han alcanzado tal magnitud que su consumo eléctrico equivale ahora al de estados enteros de EE. UU. Tomemos como ejemplo el centro de datos Hyperion AI de Meta: una vez terminado,
Recomendaciones de temas especiales relacionados
comentario (0)
0/500
Physical Intelligence, una startup de robótica con sede en San Francisco fundada hace dos años y que se ha convertido en una de las empresas de IA más seguidas del Área de la Bahía, publicó el jueves los resultados de una nueva investigación. Los hallazgos revelan que su último modelo es capaz de guiar a los robots para que realicen tareas para las que nunca fueron entrenados específicamente, una capacidad que, según admiten los propios investigadores de la empresa, les ha pillado por sorpresa.
El nuevo modelo, denominado π0.7, supone lo que la empresa denomina un paso temprano, pero significativo, hacia la ambición de larga data de crear un cerebro robótico de uso general. Este sistema puede ser dirigido hacia una tarea desconocida, recibir instrucciones en un lenguaje sencillo y completarla con éxito. Si estos resultados resisten el escrutinio, indican que la IA robótica podría estar acercándose a un punto de inflexión similar a la evolución de los grandes modelos de lenguaje, en el que las capacidades comienzan a combinarse de formas que superan lo que los datos fundamentales podrían sugerir.
En el centro del artículo se encuentra el concepto de generalización composicional: la capacidad de combinar habilidades aprendidas en contextos distintos para abordar problemas completamente nuevos. Tradicionalmente, el entrenamiento de los robots se ha basado en la memorización mecánica: recopilar datos para una tarea específica, entrenar un modelo especializado en ella y repetir el proceso para cada nueva tarea. Physical Intelligence afirma que π0.7 rompe este ciclo.
«Una vez que cruza el umbral que separa la mera réplica de los datos exactos con los que se entrenó de la recombinación creativa de elementos de formas novedosas», explica Sergey Levine, cofundador de Physical Intelligence y profesor de la Universidad de California en Berkeley especializado en IA para robótica, «las capacidades comienzan a aumentar a un ritmo superior al lineal en relación con el volumen de datos. Esta dinámica de escalado más favorable es algo que hemos observado en otros campos, como el lenguaje y la visión».
La demostración más convincente del artículo tiene que ver con una freidora sin aceite a la que el modelo prácticamente no había estado expuesto durante el entrenamiento. Tras investigar, el equipo encontró solo dos casos relevantes en todo el conjunto de datos: uno en el que un robot diferente simplemente empujaba la puerta de la freidora para cerrarla, y otro procedente de un conjunto de datos de código abierto en el que un robot colocaba una botella de plástico dentro de una de ellas siguiendo una orden. De alguna manera, el modelo sintetizó estos fragmentos, junto con datos de preentrenamiento más amplios procedentes de la web, para obtener una comprensión práctica del funcionamiento del electrodoméstico.
«Es increíblemente difícil determinar exactamente de dónde proviene el conocimiento o predecir dónde tendrá éxito o fracasará», señala Ashwin Balakrishna, investigador científico de Physical Intelligence y estudiante de doctorado en informática en Stanford. No obstante, sin ningún tipo de entrenamiento previo, el modelo realizó un intento creíble de utilizar el electrodoméstico para cocinar una batata. Cuando se le proporcionaron instrucciones verbales paso a paso —básicamente, un humano guiando al robot a través del proceso como se haría al formar a un nuevo empleado—, completó la tarea con éxito.
Esta capacidad de entrenamiento es significativa porque implica que los robots podrían desplegarse en entornos novedosos y perfeccionarse en tiempo real, eliminando la necesidad de recopilar datos adicionales o volver a entrenar el modelo.
Entonces, ¿cuáles son las implicaciones más amplias? Los investigadores son sinceros sobre las limitaciones del modelo y se muestran cautelosos a la hora de exagerar su progreso. En al menos un caso, atribuyen un fallo directamente a su propio equipo.
«A veces el fallo no se debe al robot ni al modelo», afirma Balakrishna. «Es culpa nuestra: no somos expertos en ingeniería de indicaciones». Cita un experimento inicial con una freidora sin aceite que solo alcanzó una tasa de éxito del 5 %. Tras dedicar unos treinta minutos a perfeccionar la forma en que se explicaba la tarea al modelo, la tasa de éxito se disparó hasta el 95 %.

Créditos de las imágenes:Physical Intelligence
El modelo tampoco es capaz aún de ejecutar de forma autónoma tareas complejas de varios pasos a partir de un único comando de alto nivel. «No puedes limitarte a decirle: "Ve a prepararme unas tostadas"», afirma Levine. «Pero si lo guías paso a paso —"abre esta parte de la tostadora, pulsa ese botón, haz esto"—, entonces tiende a funcionar bastante bien».
El equipo también reconoce la falta de puntos de referencia estandarizados en robótica, lo que complica la validación externa de sus afirmaciones. En su lugar, la empresa comparó π0.7 con sus propios modelos especializados anteriores —sistemas creados a medida y entrenados para tareas individuales— y descubrió que el modelo generalista igualaba su rendimiento en una variedad de actividades complejas, como preparar café, doblar la ropa y montar cajas.
Quizás el aspecto más notable de la investigación —si nos fiamos de la palabra de los investigadores— no sea ninguna demostración en concreto, sino hasta qué punto los resultados sorprendieron precisamente a aquellas personas cuyo trabajo consiste en conocer al dedillo los datos de entrenamiento y, por consiguiente, lo que el modelo debería y no debería ser capaz de hacer.
«Mi experiencia siempre ha sido que, cuando tengo un profundo conocimiento de los datos, normalmente puedo predecir lo que el modelo será capaz de hacer», reflexiona Balakrishna. «Rara vez me sorprendo. Pero estos últimos meses han sido la primera vez que me he quedado genuinamente desconcertado. Compré al azar un juego de engranajes y le pregunté al robot: “¿Puedes hacer girar este engranaje?”. Y simplemente funcionó».
Levine recuerda el momento en que los investigadores presenciaron por primera vez cómo GPT-2 generaba una historia sobre unicornios en los Andes. «¿De dónde demonios sacó lo de los unicornios en Perú?», dice. «Es una combinación tan extraña. Ver ese tipo de capacidad emergente en la robótica es realmente especial».
Naturalmente, los críticos señalarán una asimetría inherente: los modelos de lenguaje se entrenaron con todo el contenido de Internet. Los robots no tienen ese lujo, y por muy ingeniosas que sean las indicaciones, no se puede salvar por completo esa brecha. Sin embargo, cuando se le pregunta dónde prevé que surgirá el escepticismo, Levine apunta en una dirección totalmente diferente.
«La crítica que siempre se puede esgrimir contra cualquier demostración de generalización robótica es que las tareas parecen algo mundanas», observa. «El robot no está haciendo una voltereta hacia atrás». Cuestiona esta perspectiva, argumentando que la diferencia entre una demostración robótica llamativa y un sistema que realmente generaliza es precisamente el quid de la cuestión. La verdadera generalización, sugiere, siempre parecerá menos espectacular que una acrobacia cuidadosamente orquestada, pero es mucho más práctica.
El propio artículo emplea un lenguaje cauteloso en todo momento, describiendo a π0.7 como un sistema que muestra «primeros indicios» de generalización y «demostraciones iniciales» de nuevas capacidades. Se trata de resultados de investigación, no de un producto comercial, y Physical Intelligence se ha mostrado siempre reservada en cuanto a su calendario de comercialización.
Cuando se le pregunta directamente cuándo podría estar listo para su uso en el mundo real un sistema basado en esta investigación, Levine se niega a especular. «Hay buenas razones para el optimismo, y el progreso es sin duda más rápido de lo que anticipé hace un par de años», afirma. «Pero me resulta muy difícil dar una respuesta definitiva».
Hasta la fecha, Physical Intelligence ha recaudado más de 1000 millones de dólares y su valoración más reciente asciende a 5600 millones de dólares. Una parte significativa del entusiasmo de los inversores en torno a la empresa está vinculada al cofundador Lachy Groom, quien pasó años como uno de los inversores ángeles más respetados de Silicon Valley —apoyando a empresas como Figma, Notion y Ramp— antes de llegar a la conclusión de que Physical Intelligence era la empresa en la que había estado buscando invertir. Este historial ha ayudado a la startup a atraer una financiación institucional sustancial, incluso a pesar de haberse abstenido de proporcionar a los inversores una hoja de ruta específica para la comercialización.
Según se informa, la empresa se encuentra ahora en negociaciones para una nueva ronda de financiación que casi duplicaría su valoración hasta los 11 000 millones de dólares. El equipo se ha negado a hacer comentarios al respecto.
Trace recauda 3 millones de dólares para superar las barreras en la adopción de agentes de IA empresariales
A pesar de su potencial, los agentes de IA han tenido dificultades para ganar terreno en el ámbito empresarial. Una startup emergente cree que el problema fundamental radica en la falta de contexto.Lanzada como parte del grupo de verano 2025 de Y Co
Hightouch alcanza los 100 millones de dólares en ingresos recurrentes anuales (ARR) gracias a sus herramientas de marketing basadas en la inteligencia artificial
En el pasado, los profesionales del marketing dependían de diseñadores y otros especialistas creativos para producir imágenes y vídeos destinados a campañas publicitarias online personalizadas.A final
El auge del gas natural de Meta podría impulsar la red eléctrica de Dakota del Sur
Los centros de datos han alcanzado tal magnitud que su consumo eléctrico equivale ahora al de estados enteros de EE. UU. Tomemos como ejemplo el centro de datos Hyperion AI de Meta: una vez terminado,











