Meta FAIR desvela cinco avances de la IA similar a la humana
El equipo de Investigación Fundamental en Inteligencia Artificial (FAIR) de Meta ha presentado cinco nuevos proyectos que impulsan su trabajo en inteligencia artificial avanzada (AMI).
Estos últimos lanzamientos se centran en mejorar la percepción de la IA —cómo las máquinas procesan la información sensorial— junto con los avances en modelos lingüísticos, robótica y agentes de IA colaborativos.
Meta explicó que su objetivo es construir máquinas «capaces de adquirir, procesar e interpretar datos sensoriales de nuestro mundo, y utilizar esa información para tomar decisiones con inteligencia y velocidad similares a las de los seres humanos».
Las cinco nuevas iniciativas representan una serie de esfuerzos interconectados para alcanzar este ambicioso objetivo.
Codificador de percepción: agudizando la inteligencia visual de la IA
Una piedra angular de los nuevos lanzamientos es el codificador de percepción, un codificador de visión a gran escala creado para funcionar de manera excepcional en diversas tareas de imagen y vídeo.
Los codificadores de visión actúan como los «ojos» de los sistemas de IA, permitiéndoles comprender la información visual.
Meta señala la creciente dificultad de crear codificadores para IA avanzada, que necesitan conectar la visión con el lenguaje, manejar tanto imágenes como vídeos de forma competente y mantener su fiabilidad en condiciones difíciles, incluidos los ataques adversarios.
Según Meta, el codificador ideal debería reconocer un amplio espectro de conceptos y, al mismo tiempo, captar detalles minuciosos, como detectar «una raya escondida bajo el lecho marino, identificar un pequeño jilguero en el fondo de una imagen o detectar un agutí que se mueve rápidamente en una cámara de visión nocturna para fauna silvestre».
Meta afirma que el codificador Perception ofrece «un rendimiento excepcional en la clasificación y recuperación de imágenes y vídeos sin disparo, superando a todos los modelos actuales de código abierto y propietarios para estas tareas».
Además, según se informa, sus capacidades perceptivas mejoran el rendimiento en tareas lingüísticas.
Cuando se combina con un modelo de lenguaje grande (LLM), se dice que el codificador supera a otros codificadores de visión en áreas como la respuesta a preguntas visuales (VQA), la subtitulación, la comprensión de documentos y la vinculación (relacionar el texto con partes específicas de una imagen). Según se informa, también mejora el rendimiento en tareas en las que los LLM suelen tener dificultades, como la comprensión de las relaciones espaciales (por ejemplo, «si un objeto está detrás de otro») o el movimiento de la cámara en relación con un objeto.
«A medida que el codificador de percepción comienza a integrarse en nuevas aplicaciones, esperamos ver cómo sus avanzadas capacidades visuales impulsarán sistemas de IA aún más sofisticados», comentó Meta.
Modelo de lenguaje perceptivo (PLM): avances en la investigación abierta sobre visión y lenguaje
Junto con el codificador, funciona el modelo de lenguaje de percepción (PLM), un modelo de visión-lenguaje abierto y reproducible diseñado para tareas complejas de reconocimiento visual.
El PLM se entrenó utilizando una gran cantidad de datos sintéticos junto con conjuntos de datos abiertos de visión-lenguaje, evitando deliberadamente el conocimiento extraído de modelos propietarios externos.
Reconociendo las deficiencias de los datos existentes sobre comprensión de vídeo, el equipo de FAIR reunió 2,5 millones de nuevas muestras etiquetadas por humanos, centradas en la respuesta detallada a preguntas sobre vídeos y en la subtitulación espacio-temporal. Meta afirma que se trata del «mayor conjunto de datos de este tipo hasta la fecha».
PLM está disponible en versiones de 1, 3 y 8 mil millones de parámetros para satisfacer las necesidades de la investigación académica que requiere total transparencia.
Junto con los modelos, Meta lanza PLM-VideoBench, un nuevo punto de referencia diseñado específicamente para poner a prueba capacidades que a menudo se pasan por alto en los puntos de referencia existentes, a saber, «la comprensión detallada de la actividad y el razonamiento basado en el espacio-tiempo».
Meta espera que el suministro de modelos abiertos, un gran conjunto de datos y un punto de referencia desafiante fortalezcan la comunidad de código abierto.
Meta Locate 3D: dotar a los robots de conciencia situacional
Meta Locate 3D sirve de puente entre los comandos de lenguaje y la acción física. Este modelo integral está diseñado para permitir a los robots encontrar con precisión objetos en un espacio 3D basándose en consultas de lenguaje natural abiertas.
Meta Locate 3D procesa nubes de puntos 3D directamente desde sensores RGB-D (como los que se encuentran en algunos robots o cámaras con sensor de profundidad). Dada una indicación de texto, como «jarrón de flores cerca de la consola de televisión», el sistema analiza las relaciones espaciales y el contexto para identificar la instancia correcta del objeto, diferenciándola, por ejemplo, de un «jarrón sobre la mesa».
El sistema consta de tres componentes principales: una etapa de preprocesamiento que convierte las características 2D en nubes de puntos 3D con características; el codificador 3D-JEPA (un modelo preentrenado que crea una representación contextualizada del mundo en 3D); y el decodificador Locate 3D, que utiliza la representación 3D y la consulta lingüística para generar cuadros delimitadores y máscaras para los objetos especificados.
Junto con el modelo, Meta está lanzando un nuevo y sustancial conjunto de datos para la localización de objetos basado en expresiones de referencia. Incluye 130 000 anotaciones lingüísticas en 1346 escenas de los conjuntos de datos ARKitScenes, ScanNet y ScanNet++, lo que supone duplicar los datos anotados existentes en este campo.
Meta considera que esta tecnología es esencial para desarrollar sistemas robóticos más capaces, incluido su propio proyecto de robot PARTNR, que facilita una interacción y un trabajo en equipo más naturales entre humanos y robots.
Dynamic Byte Latent Transformer: modelado lingüístico eficiente y robusto
Tras la investigación publicada a finales de 2024, Meta lanza ahora los pesos del modelo para su transformador latente de bytes dinámico de 8000 millones de parámetros.
Esta arquitectura supone una desviación de los modelos lingüísticos tradicionales basados en la tokenización, ya que opera directamente a nivel de bytes. Meta afirma que este método alcanza un rendimiento similar a gran escala, al tiempo que ofrece importantes mejoras en la eficiencia y la robustez de la inferencia.
Los LLM convencionales dividen el texto en «tokens», lo que puede causar problemas con errores ortográficos, palabras nuevas o entradas adversas. Los modelos a nivel de byte procesan bytes sin procesar, lo que puede ofrecer una mayor resistencia.
Meta informa de que el Dynamic Byte Latent Transformer «supera a los modelos basados en tokenizadores en diversas tareas, mostrando una ventaja media de robustez de +7 puntos (en HellaSwag perturbado) y alcanzando hasta +55 puntos en tareas del benchmark de comprensión de tokens CUTE».
Al publicar los pesos junto con el código base compartido anteriormente, Meta anima a la comunidad investigadora a explorar este enfoque alternativo para el modelado del lenguaje.
Razonador colaborativo: avance de los agentes de IA socialmente inteligentes
La versión final, Collaborative Reasoner, aborda el complejo reto de crear agentes de IA que puedan trabajar eficazmente con humanos u otras IA.
Meta señala que la colaboración humana a menudo produce mejores resultados y pretende dotar a la IA de capacidades similares para tareas como ayudar con los deberes o preparar una entrevista de trabajo.
Esta colaboración requiere no solo la resolución de problemas, sino también habilidades sociales como la comunicación, la empatía, la capacidad de dar feedback y la comprensión de las perspectivas de los demás (teoría de la mente), que suelen desarrollarse a lo largo de múltiples turnos de conversación.
Los métodos actuales de formación y evaluación de LLM suelen pasar por alto estas dimensiones sociales y colaborativas. Además, recopilar datos conversacionales relevantes es costoso y difícil.
Collaborative Reasoner proporciona un marco para evaluar y mejorar estas habilidades. Incluye tareas orientadas a objetivos que requieren un razonamiento en varios pasos, logrado a través del diálogo entre dos agentes. El marco pone a prueba habilidades como el desacuerdo constructivo, la persuasión y la búsqueda de una solución óptima para ambas partes.
Las evaluaciones de Meta mostraron que los modelos actuales a menudo no utilizan de forma coherente la colaboración para mejorar los resultados. Para abordar esto, proponen una técnica de auto-mejora que utiliza datos de interacción sintéticos en los que un agente LLM colabora consigo mismo.
La generación de estos datos a gran escala es posible gracias a un nuevo motor de servicio de modelos de alto rendimiento llamado Matrix. Según se informa, el uso de este método en tareas de razonamiento matemático, científico y social condujo a mejoras de hasta un 29,4 % en comparación con el rendimiento estándar de la «cadena de pensamiento» de un solo LLM.
Al abrir el código fuente de la generación de datos y el proceso de modelado, Meta pretende acelerar la investigación para desarrollar verdaderos «agentes sociales que puedan asociarse con humanos y otros agentes».
En conjunto, estos cinco lanzamientos ponen de relieve la importante inversión que Meta sigue realizando en la investigación fundamental sobre IA, en particular en la creación de los componentes básicos para máquinas que puedan percibir, comprender e interactuar con el mundo de una manera más similar a la de los seres humanos.
Véase también: Meta entrenará modelos de IA utilizando datos de usuarios de la UE
¿Quiere saber más sobre la IA y el big data de la mano de los líderes del sector? Eche un vistazo a la AI & Big Data Expo que se celebra en Ámsterdam, California y Londres. Este completo evento se celebra conjuntamente con otros eventos importantes, como la Intelligent Automation Conference, BlockX, Digital Transformation Week y la Cyber Security & Cloud Expo.
Explora aquí otros eventos y seminarios web sobre tecnología empresarial que se celebrarán próximamente y que están impulsados por TechForge.
Artículo relacionado
Notion convierte su espacio de trabajo en un centro para agentes de IA
Notion, la empresa de software de productividad, se adentra en la era de los agentes.Durante un anuncio de producto retransmitido en directo el miércoles, Notion —conocida sobre todo por su aplicación
ElevenLabs anuncia que BlackRock, Jamie Foxx y Eva Longoria se han convertido en nuevos inversores
ElevenLabs, la empresa de inteligencia artificial aplicada a la voz, ha dado a conocer nuevos inversores en su ronda de financiación de serie D, por valor de 500 millones de dólares, anunciada inicial
WordPress.com ya permite que los agentes de IA redacten y publiquen entradas, entre otras cosas
WordPress.com, la popular plataforma de alojamiento web y publicación, está incorporando ahora agentes de IA, una iniciativa que podría transformar el aspecto y la experiencia de la web. La empresa an
Recomendaciones de temas especiales relacionados
comentario (1)
0/500
So these advancements focus on perception and reasoning, huh? As someone who deals with automation at work, I find the 'AMI' goal both exciting and a bit unsettling. It feels like we're closing the loop between what a machine 'sees' and what it 'understands', which could revolutionize everything from logistics to creative tools. But honestly, I hope the focus stays on augmenting human ability rather than just chasing benchmarks that sound cool in research papers. The ethics of human-like perception need to be front and center. 🧠
El equipo de Investigación Fundamental en Inteligencia Artificial (FAIR) de Meta ha presentado cinco nuevos proyectos que impulsan su trabajo en inteligencia artificial avanzada (AMI).
Estos últimos lanzamientos se centran en mejorar la percepción de la IA —cómo las máquinas procesan la información sensorial— junto con los avances en modelos lingüísticos, robótica y agentes de IA colaborativos.
Meta explicó que su objetivo es construir máquinas «capaces de adquirir, procesar e interpretar datos sensoriales de nuestro mundo, y utilizar esa información para tomar decisiones con inteligencia y velocidad similares a las de los seres humanos».
Las cinco nuevas iniciativas representan una serie de esfuerzos interconectados para alcanzar este ambicioso objetivo.
Codificador de percepción: agudizando la inteligencia visual de la IA
Una piedra angular de los nuevos lanzamientos es el codificador de percepción, un codificador de visión a gran escala creado para funcionar de manera excepcional en diversas tareas de imagen y vídeo.
Los codificadores de visión actúan como los «ojos» de los sistemas de IA, permitiéndoles comprender la información visual.
Meta señala la creciente dificultad de crear codificadores para IA avanzada, que necesitan conectar la visión con el lenguaje, manejar tanto imágenes como vídeos de forma competente y mantener su fiabilidad en condiciones difíciles, incluidos los ataques adversarios.
Según Meta, el codificador ideal debería reconocer un amplio espectro de conceptos y, al mismo tiempo, captar detalles minuciosos, como detectar «una raya escondida bajo el lecho marino, identificar un pequeño jilguero en el fondo de una imagen o detectar un agutí que se mueve rápidamente en una cámara de visión nocturna para fauna silvestre».
Meta afirma que el codificador Perception ofrece «un rendimiento excepcional en la clasificación y recuperación de imágenes y vídeos sin disparo, superando a todos los modelos actuales de código abierto y propietarios para estas tareas».
Además, según se informa, sus capacidades perceptivas mejoran el rendimiento en tareas lingüísticas.
Cuando se combina con un modelo de lenguaje grande (LLM), se dice que el codificador supera a otros codificadores de visión en áreas como la respuesta a preguntas visuales (VQA), la subtitulación, la comprensión de documentos y la vinculación (relacionar el texto con partes específicas de una imagen). Según se informa, también mejora el rendimiento en tareas en las que los LLM suelen tener dificultades, como la comprensión de las relaciones espaciales (por ejemplo, «si un objeto está detrás de otro») o el movimiento de la cámara en relación con un objeto.
«A medida que el codificador de percepción comienza a integrarse en nuevas aplicaciones, esperamos ver cómo sus avanzadas capacidades visuales impulsarán sistemas de IA aún más sofisticados», comentó Meta.
Modelo de lenguaje perceptivo (PLM): avances en la investigación abierta sobre visión y lenguaje
Junto con el codificador, funciona el modelo de lenguaje de percepción (PLM), un modelo de visión-lenguaje abierto y reproducible diseñado para tareas complejas de reconocimiento visual.
El PLM se entrenó utilizando una gran cantidad de datos sintéticos junto con conjuntos de datos abiertos de visión-lenguaje, evitando deliberadamente el conocimiento extraído de modelos propietarios externos.
Reconociendo las deficiencias de los datos existentes sobre comprensión de vídeo, el equipo de FAIR reunió 2,5 millones de nuevas muestras etiquetadas por humanos, centradas en la respuesta detallada a preguntas sobre vídeos y en la subtitulación espacio-temporal. Meta afirma que se trata del «mayor conjunto de datos de este tipo hasta la fecha».
PLM está disponible en versiones de 1, 3 y 8 mil millones de parámetros para satisfacer las necesidades de la investigación académica que requiere total transparencia.
Junto con los modelos, Meta lanza PLM-VideoBench, un nuevo punto de referencia diseñado específicamente para poner a prueba capacidades que a menudo se pasan por alto en los puntos de referencia existentes, a saber, «la comprensión detallada de la actividad y el razonamiento basado en el espacio-tiempo».
Meta espera que el suministro de modelos abiertos, un gran conjunto de datos y un punto de referencia desafiante fortalezcan la comunidad de código abierto.
Meta Locate 3D: dotar a los robots de conciencia situacional
Meta Locate 3D sirve de puente entre los comandos de lenguaje y la acción física. Este modelo integral está diseñado para permitir a los robots encontrar con precisión objetos en un espacio 3D basándose en consultas de lenguaje natural abiertas.
Meta Locate 3D procesa nubes de puntos 3D directamente desde sensores RGB-D (como los que se encuentran en algunos robots o cámaras con sensor de profundidad). Dada una indicación de texto, como «jarrón de flores cerca de la consola de televisión», el sistema analiza las relaciones espaciales y el contexto para identificar la instancia correcta del objeto, diferenciándola, por ejemplo, de un «jarrón sobre la mesa».
El sistema consta de tres componentes principales: una etapa de preprocesamiento que convierte las características 2D en nubes de puntos 3D con características; el codificador 3D-JEPA (un modelo preentrenado que crea una representación contextualizada del mundo en 3D); y el decodificador Locate 3D, que utiliza la representación 3D y la consulta lingüística para generar cuadros delimitadores y máscaras para los objetos especificados.
Junto con el modelo, Meta está lanzando un nuevo y sustancial conjunto de datos para la localización de objetos basado en expresiones de referencia. Incluye 130 000 anotaciones lingüísticas en 1346 escenas de los conjuntos de datos ARKitScenes, ScanNet y ScanNet++, lo que supone duplicar los datos anotados existentes en este campo.
Meta considera que esta tecnología es esencial para desarrollar sistemas robóticos más capaces, incluido su propio proyecto de robot PARTNR, que facilita una interacción y un trabajo en equipo más naturales entre humanos y robots.
Dynamic Byte Latent Transformer: modelado lingüístico eficiente y robusto
Tras la investigación publicada a finales de 2024, Meta lanza ahora los pesos del modelo para su transformador latente de bytes dinámico de 8000 millones de parámetros.
Esta arquitectura supone una desviación de los modelos lingüísticos tradicionales basados en la tokenización, ya que opera directamente a nivel de bytes. Meta afirma que este método alcanza un rendimiento similar a gran escala, al tiempo que ofrece importantes mejoras en la eficiencia y la robustez de la inferencia.
Los LLM convencionales dividen el texto en «tokens», lo que puede causar problemas con errores ortográficos, palabras nuevas o entradas adversas. Los modelos a nivel de byte procesan bytes sin procesar, lo que puede ofrecer una mayor resistencia.
Meta informa de que el Dynamic Byte Latent Transformer «supera a los modelos basados en tokenizadores en diversas tareas, mostrando una ventaja media de robustez de +7 puntos (en HellaSwag perturbado) y alcanzando hasta +55 puntos en tareas del benchmark de comprensión de tokens CUTE».
Al publicar los pesos junto con el código base compartido anteriormente, Meta anima a la comunidad investigadora a explorar este enfoque alternativo para el modelado del lenguaje.
Razonador colaborativo: avance de los agentes de IA socialmente inteligentes
La versión final, Collaborative Reasoner, aborda el complejo reto de crear agentes de IA que puedan trabajar eficazmente con humanos u otras IA.
Meta señala que la colaboración humana a menudo produce mejores resultados y pretende dotar a la IA de capacidades similares para tareas como ayudar con los deberes o preparar una entrevista de trabajo.
Esta colaboración requiere no solo la resolución de problemas, sino también habilidades sociales como la comunicación, la empatía, la capacidad de dar feedback y la comprensión de las perspectivas de los demás (teoría de la mente), que suelen desarrollarse a lo largo de múltiples turnos de conversación.
Los métodos actuales de formación y evaluación de LLM suelen pasar por alto estas dimensiones sociales y colaborativas. Además, recopilar datos conversacionales relevantes es costoso y difícil.
Collaborative Reasoner proporciona un marco para evaluar y mejorar estas habilidades. Incluye tareas orientadas a objetivos que requieren un razonamiento en varios pasos, logrado a través del diálogo entre dos agentes. El marco pone a prueba habilidades como el desacuerdo constructivo, la persuasión y la búsqueda de una solución óptima para ambas partes.
Las evaluaciones de Meta mostraron que los modelos actuales a menudo no utilizan de forma coherente la colaboración para mejorar los resultados. Para abordar esto, proponen una técnica de auto-mejora que utiliza datos de interacción sintéticos en los que un agente LLM colabora consigo mismo.
La generación de estos datos a gran escala es posible gracias a un nuevo motor de servicio de modelos de alto rendimiento llamado Matrix. Según se informa, el uso de este método en tareas de razonamiento matemático, científico y social condujo a mejoras de hasta un 29,4 % en comparación con el rendimiento estándar de la «cadena de pensamiento» de un solo LLM.
Al abrir el código fuente de la generación de datos y el proceso de modelado, Meta pretende acelerar la investigación para desarrollar verdaderos «agentes sociales que puedan asociarse con humanos y otros agentes».
En conjunto, estos cinco lanzamientos ponen de relieve la importante inversión que Meta sigue realizando en la investigación fundamental sobre IA, en particular en la creación de los componentes básicos para máquinas que puedan percibir, comprender e interactuar con el mundo de una manera más similar a la de los seres humanos.
Véase también: Meta entrenará modelos de IA utilizando datos de usuarios de la UE
¿Quiere saber más sobre la IA y el big data de la mano de los líderes del sector? Eche un vistazo a la AI & Big Data Expo que se celebra en Ámsterdam, California y Londres. Este completo evento se celebra conjuntamente con otros eventos importantes, como la Intelligent Automation Conference, BlockX, Digital Transformation Week y la Cyber Security & Cloud Expo.
Explora aquí otros eventos y seminarios web sobre tecnología empresarial que se celebrarán próximamente y que están impulsados por TechForge.
Notion convierte su espacio de trabajo en un centro para agentes de IA
Notion, la empresa de software de productividad, se adentra en la era de los agentes.Durante un anuncio de producto retransmitido en directo el miércoles, Notion —conocida sobre todo por su aplicación
ElevenLabs anuncia que BlackRock, Jamie Foxx y Eva Longoria se han convertido en nuevos inversores
ElevenLabs, la empresa de inteligencia artificial aplicada a la voz, ha dado a conocer nuevos inversores en su ronda de financiación de serie D, por valor de 500 millones de dólares, anunciada inicial
WordPress.com ya permite que los agentes de IA redacten y publiquen entradas, entre otras cosas
WordPress.com, la popular plataforma de alojamiento web y publicación, está incorporando ahora agentes de IA, una iniciativa que podría transformar el aspecto y la experiencia de la web. La empresa an
So these advancements focus on perception and reasoning, huh? As someone who deals with automation at work, I find the 'AMI' goal both exciting and a bit unsettling. It feels like we're closing the loop between what a machine 'sees' and what it 'understands', which could revolutionize everything from logistics to creative tools. But honestly, I hope the focus stays on augmenting human ability rather than just chasing benchmarks that sound cool in research papers. The ethics of human-like perception need to be front and center. 🧠





Hogar






