Meta FAIR desvela cinco avances de la IA similar a la humana

Hogar

Noticias

28 de diciembre de 2025

BillyAdams

130

# ai # agents # meta # robotics

El equipo de Investigación Fundamental en Inteligencia Artificial (FAIR) de Meta ha presentado cinco nuevos proyectos que impulsan su trabajo en inteligencia artificial avanzada (AMI).

Estos últimos lanzamientos se centran en mejorar la percepción de la IA —cómo las máquinas procesan la información sensorial— junto con los avances en modelos lingüísticos, robótica y agentes de IA colaborativos.

Meta explicó que su objetivo es construir máquinas «capaces de adquirir, procesar e interpretar datos sensoriales de nuestro mundo, y utilizar esa información para tomar decisiones con inteligencia y velocidad similares a las de los seres humanos».

Las cinco nuevas iniciativas representan una serie de esfuerzos interconectados para alcanzar este ambicioso objetivo.

Codificador de percepción: agudizando la inteligencia visual de la IA

Una piedra angular de los nuevos lanzamientos es el codificador de percepción, un codificador de visión a gran escala creado para funcionar de manera excepcional en diversas tareas de imagen y vídeo.

Los codificadores de visión actúan como los «ojos» de los sistemas de IA, permitiéndoles comprender la información visual.

Meta señala la creciente dificultad de crear codificadores para IA avanzada, que necesitan conectar la visión con el lenguaje, manejar tanto imágenes como vídeos de forma competente y mantener su fiabilidad en condiciones difíciles, incluidos los ataques adversarios.

Según Meta, el codificador ideal debería reconocer un amplio espectro de conceptos y, al mismo tiempo, captar detalles minuciosos, como detectar «una raya escondida bajo el lecho marino, identificar un pequeño jilguero en el fondo de una imagen o detectar un agutí que se mueve rápidamente en una cámara de visión nocturna para fauna silvestre».

Meta afirma que el codificador Perception ofrece «un rendimiento excepcional en la clasificación y recuperación de imágenes y vídeos sin disparo, superando a todos los modelos actuales de código abierto y propietarios para estas tareas».

Además, según se informa, sus capacidades perceptivas mejoran el rendimiento en tareas lingüísticas.

Cuando se combina con un modelo de lenguaje grande (LLM), se dice que el codificador supera a otros codificadores de visión en áreas como la respuesta a preguntas visuales (VQA), la subtitulación, la comprensión de documentos y la vinculación (relacionar el texto con partes específicas de una imagen). Según se informa, también mejora el rendimiento en tareas en las que los LLM suelen tener dificultades, como la comprensión de las relaciones espaciales (por ejemplo, «si un objeto está detrás de otro») o el movimiento de la cámara en relación con un objeto.

«A medida que el codificador de percepción comienza a integrarse en nuevas aplicaciones, esperamos ver cómo sus avanzadas capacidades visuales impulsarán sistemas de IA aún más sofisticados», comentó Meta.

Modelo de lenguaje perceptivo (PLM): avances en la investigación abierta sobre visión y lenguaje

Junto con el codificador, funciona el modelo de lenguaje de percepción (PLM), un modelo de visión-lenguaje abierto y reproducible diseñado para tareas complejas de reconocimiento visual.

El PLM se entrenó utilizando una gran cantidad de datos sintéticos junto con conjuntos de datos abiertos de visión-lenguaje, evitando deliberadamente el conocimiento extraído de modelos propietarios externos.

Reconociendo las deficiencias de los datos existentes sobre comprensión de vídeo, el equipo de FAIR reunió 2,5 millones de nuevas muestras etiquetadas por humanos, centradas en la respuesta detallada a preguntas sobre vídeos y en la subtitulación espacio-temporal. Meta afirma que se trata del «mayor conjunto de datos de este tipo hasta la fecha».

PLM está disponible en versiones de 1, 3 y 8 mil millones de parámetros para satisfacer las necesidades de la investigación académica que requiere total transparencia.

Junto con los modelos, Meta lanza PLM-VideoBench, un nuevo punto de referencia diseñado específicamente para poner a prueba capacidades que a menudo se pasan por alto en los puntos de referencia existentes, a saber, «la comprensión detallada de la actividad y el razonamiento basado en el espacio-tiempo».

Meta espera que el suministro de modelos abiertos, un gran conjunto de datos y un punto de referencia desafiante fortalezcan la comunidad de código abierto.

Meta Locate 3D: dotar a los robots de conciencia situacional

Meta Locate 3D sirve de puente entre los comandos de lenguaje y la acción física. Este modelo integral está diseñado para permitir a los robots encontrar con precisión objetos en un espacio 3D basándose en consultas de lenguaje natural abiertas.

Meta Locate 3D procesa nubes de puntos 3D directamente desde sensores RGB-D (como los que se encuentran en algunos robots o cámaras con sensor de profundidad). Dada una indicación de texto, como «jarrón de flores cerca de la consola de televisión», el sistema analiza las relaciones espaciales y el contexto para identificar la instancia correcta del objeto, diferenciándola, por ejemplo, de un «jarrón sobre la mesa».

El sistema consta de tres componentes principales: una etapa de preprocesamiento que convierte las características 2D en nubes de puntos 3D con características; el codificador 3D-JEPA (un modelo preentrenado que crea una representación contextualizada del mundo en 3D); y el decodificador Locate 3D, que utiliza la representación 3D y la consulta lingüística para generar cuadros delimitadores y máscaras para los objetos especificados.

Junto con el modelo, Meta está lanzando un nuevo y sustancial conjunto de datos para la localización de objetos basado en expresiones de referencia. Incluye 130 000 anotaciones lingüísticas en 1346 escenas de los conjuntos de datos ARKitScenes, ScanNet y ScanNet++, lo que supone duplicar los datos anotados existentes en este campo.

Meta considera que esta tecnología es esencial para desarrollar sistemas robóticos más capaces, incluido su propio proyecto de robot PARTNR, que facilita una interacción y un trabajo en equipo más naturales entre humanos y robots.

Dynamic Byte Latent Transformer: modelado lingüístico eficiente y robusto

Tras la investigación publicada a finales de 2024, Meta lanza ahora los pesos del modelo para su transformador latente de bytes dinámico de 8000 millones de parámetros.

Esta arquitectura supone una desviación de los modelos lingüísticos tradicionales basados en la tokenización, ya que opera directamente a nivel de bytes. Meta afirma que este método alcanza un rendimiento similar a gran escala, al tiempo que ofrece importantes mejoras en la eficiencia y la robustez de la inferencia.

Los LLM convencionales dividen el texto en «tokens», lo que puede causar problemas con errores ortográficos, palabras nuevas o entradas adversas. Los modelos a nivel de byte procesan bytes sin procesar, lo que puede ofrecer una mayor resistencia.

Meta informa de que el Dynamic Byte Latent Transformer «supera a los modelos basados en tokenizadores en diversas tareas, mostrando una ventaja media de robustez de +7 puntos (en HellaSwag perturbado) y alcanzando hasta +55 puntos en tareas del benchmark de comprensión de tokens CUTE».

Al publicar los pesos junto con el código base compartido anteriormente, Meta anima a la comunidad investigadora a explorar este enfoque alternativo para el modelado del lenguaje.

Razonador colaborativo: avance de los agentes de IA socialmente inteligentes

La versión final, Collaborative Reasoner, aborda el complejo reto de crear agentes de IA que puedan trabajar eficazmente con humanos u otras IA.

Meta señala que la colaboración humana a menudo produce mejores resultados y pretende dotar a la IA de capacidades similares para tareas como ayudar con los deberes o preparar una entrevista de trabajo.

Esta colaboración requiere no solo la resolución de problemas, sino también habilidades sociales como la comunicación, la empatía, la capacidad de dar feedback y la comprensión de las perspectivas de los demás (teoría de la mente), que suelen desarrollarse a lo largo de múltiples turnos de conversación.

Los métodos actuales de formación y evaluación de LLM suelen pasar por alto estas dimensiones sociales y colaborativas. Además, recopilar datos conversacionales relevantes es costoso y difícil.

Collaborative Reasoner proporciona un marco para evaluar y mejorar estas habilidades. Incluye tareas orientadas a objetivos que requieren un razonamiento en varios pasos, logrado a través del diálogo entre dos agentes. El marco pone a prueba habilidades como el desacuerdo constructivo, la persuasión y la búsqueda de una solución óptima para ambas partes.

Las evaluaciones de Meta mostraron que los modelos actuales a menudo no utilizan de forma coherente la colaboración para mejorar los resultados. Para abordar esto, proponen una técnica de auto-mejora que utiliza datos de interacción sintéticos en los que un agente LLM colabora consigo mismo.

La generación de estos datos a gran escala es posible gracias a un nuevo motor de servicio de modelos de alto rendimiento llamado Matrix. Según se informa, el uso de este método en tareas de razonamiento matemático, científico y social condujo a mejoras de hasta un 29,4 % en comparación con el rendimiento estándar de la «cadena de pensamiento» de un solo LLM.

Al abrir el código fuente de la generación de datos y el proceso de modelado, Meta pretende acelerar la investigación para desarrollar verdaderos «agentes sociales que puedan asociarse con humanos y otros agentes».

En conjunto, estos cinco lanzamientos ponen de relieve la importante inversión que Meta sigue realizando en la investigación fundamental sobre IA, en particular en la creación de los componentes básicos para máquinas que puedan percibir, comprender e interactuar con el mundo de una manera más similar a la de los seres humanos.

Véase también: Meta entrenará modelos de IA utilizando datos de usuarios de la UE

¿Quiere saber más sobre la IA y el big data de la mano de los líderes del sector? Eche un vistazo a la AI & Big Data Expo que se celebra en Ámsterdam, California y Londres. Este completo evento se celebra conjuntamente con otros eventos importantes, como la Intelligent Automation Conference, BlockX, Digital Transformation Week y la Cyber Security & Cloud Expo.

Explora aquí otros eventos y seminarios web sobre tecnología empresarial que se celebrarán próximamente y que están impulsados por TechForge.

Artículo relacionado

Notion convierte su espacio de trabajo en un centro para agentes de IA Notion, la empresa de software de productividad, se adentra en la era de los agentes.Durante un anuncio de producto retransmitido en directo el miércoles, Notion —conocida sobre todo por su aplicación

ElevenLabs anuncia que BlackRock, Jamie Foxx y Eva Longoria se han convertido en nuevos inversores ElevenLabs, la empresa de inteligencia artificial aplicada a la voz, ha dado a conocer nuevos inversores en su ronda de financiación de serie D, por valor de 500 millones de dólares, anunciada inicial

WordPress.com ya permite que los agentes de IA redacten y publiquen entradas, entre otras cosas WordPress.com, la popular plataforma de alojamiento web y publicación, está incorporando ahora agentes de IA, una iniciativa que podría transformar el aspecto y la experiencia de la web. La empresa an

Recomendaciones de temas especiales relacionados

Edición de imágenes

Generadores de arte por IA para guiones de cortometrajes: Personajes de fantasía y romance urbano

2026 Últimas novedades: Descubra los mejores generadores de arte por IA para guiones de historias cortas. Nuestra lista seleccionada incluye las herramientas más valoradas para crear personajes fascinantes de fantasía y romance urbano. Compare opciones gratuitas y pagas, vea resultados de pruebas reales y encuentre el compañero creativo perfecto para usted. Reciba clasificaciones actualizadas semanalmente y opiniones de expertos de XIX.AI. ¡Comience a visualizar su historia hoy mismo!

10 herramientas

xix.ai

escribiendo

Los mejores herramientas de scripting AI para la radio y los podcasts: Crea anuncios de audio atractivos.

Descubra los mejores herramientas de scripting de IA para la radio y los podcasts en 2026 en XIX.AI. Nuestra lista seleccionada y altamente valorada incluye soluciones poderosas que cambiarán completamente la forma en que crea anuncios de audio atractivos. Compare opciones gratuitas y pagadas mediante pruebas reales y clasificaciones actualizadas semanalmente. ¡Despliegue todo su potencial creativo hoy mismo!

10 herramientas

xix.ai

Negocio

El mejor software de revisión de contratos con IA: detecta al instante las lagunas legales y los riesgos de cumplimiento normativo

Descubre el mejor software de revisión de contratos con IA de 2026 en XIX.AI. Nuestra lista, cuidadosamente seleccionada y con las mejores valoraciones, incluye potentes herramientas que detectan al instante las lagunas legales y los riesgos de cumplimiento normativo. Compara las opciones gratuitas con las de pago gracias a pruebas en condiciones reales y a clasificaciones que se actualizan semanalmente. Encuentra la solución revolucionaria que necesitas para un análisis de contratos seguro y eficiente. Explora ahora la guía definitiva.

10 herramientas

xix.ai

Creación de animación

Generador de anime AI para Donghua: Crea personajes para novelas web y avatares para cómics

Descubra los mejores generadores de anime de IA para donghua en 2026. Nuestra lista seleccionada y calificada incluye herramientas poderosas para crear increíbles personajes para novelas web y avatares de cómics. Compare opciones gratuitas y pagadas a través de pruebas reales. Encuentre su compañero creativo ideal y dé vida a sus historias hoy mismo en XIX.AI.

10 herramientas

xix.ai

Creación de cómics

Las mejores herramientas de coloración automática con IA para manga: aplica colores planos sin ningún error de coherencia

Descubre las mejores herramientas de coloración automática con IA para manga de 2026 en XIX.AI. Nuestra lista seleccionada incluye soluciones revolucionarias y mejor valoradas que aplican colores planos sin ningún error de consistencia, lo que potencia tu productividad. Explora comparativas entre opciones gratuitas y de pago, pruebas en condiciones reales y clasificaciones actualizadas semanalmente para encontrar la opción perfecta para ti. Aprovecha hoy mismo las ventajas de la IA.

10 herramientas

xix.ai

escribiendo

Los mejores creadores de perfiles de ficción con IA: cómo generar motivaciones y defectos fatales coherentes para los personajes

Descubre los mejores creadores de perfiles de ficción con IA de 2026 para dar vida a personajes profundos. La selección de XIX.AI incluye herramientas de primera categoría y revolucionarias que generan motivaciones coherentes y defectos fatales. Compara las opciones gratuitas con las de pago mediante pruebas en el mundo real. Libera ahora tu potencial narrativo.

10 herramientas

xix.ai

comentario (1)

0/500

Inicie sesión primero

StevenMartin

1 de enero de 2026 13:30:56 GMT+01:00

So these advancements focus on perception and reasoning, huh? As someone who deals with automation at work, I find the 'AMI' goal both exciting and a bit unsettling. It feels like we're closing the loop between what a machine 'sees' and what it 'understands', which could revolutionize everything from logistics to creative tools. But honestly, I hope the focus stays on augmenting human ability rather than just chasing benchmarks that sound cool in research papers. The ethics of human-like perception need to be front and center. 🧠

Noticias principales

AI Builder y Power Automate Revolucionan la Sumarización de Documentos Los anfitriones de AI del podcast Notebooklm ahora están disponibles para entrevistas China presenta su robot humanoide nacional y sus estándares de inteligencia incorporada Los datos de Ramp revelan un estancamiento en la adopción de la IA por parte de las empresas Guía de creación de arte con el creador de imágenes de Bing Aprende a crear música de IA usando tu voz: un tutorial de Suno paso a paso iMyFone MagicMic: Revisión y Tutorial de Cambio de Voz AI en Tiempo Real Generadores de Video AI Top de 2025: Pika Labs vs Alternativas DeepSeek V4 surge como un revolucionario sistema de IA multimodal Embodied Intelligence presenta la primera norma del sector para frenar el crecimiento descontrolado

Más

Presentado