Meta FAIR revela cinco avanços na IA semelhante à humana
A equipe de Pesquisa Fundamental em Inteligência Artificial (FAIR) da Meta revelou cinco novos projetos que impulsionam seu trabalho em inteligência artificial avançada (AMI).
Esses últimos lançamentos se concentram em melhorar a percepção da IA — como as máquinas processam os estímulos sensoriais —, além de avanços em modelos de linguagem, robótica e agentes colaborativos de IA.
A Meta explicou que seu objetivo é construir máquinas “capazes de adquirir, processar e interpretar dados sensoriais do nosso mundo e usar essas informações para tomar decisões com inteligência e velocidade semelhantes às humanas”.
As cinco novas iniciativas representam uma série de esforços interligados para atingir essa meta ambiciosa.
Codificador de percepção: aprimorando a inteligência visual da IA
Um dos pilares dos novos lançamentos é o Perception Encoder, um codificador de visão em grande escala criado para ter um desempenho excepcional em diversas tarefas de imagem e vídeo.
Os codificadores de visão atuam como os “olhos” dos sistemas de IA, permitindo que eles compreendam informações visuais.
A Meta destaca a crescente dificuldade de criar codificadores para IA avançada, que precisam conectar a visão com a linguagem, lidar com imagens e vídeos com proficiência e permanecer confiáveis em condições adversas, incluindo ataques adversários.
De acordo com a Meta, o codificador ideal deve reconhecer um amplo espectro de conceitos e, ao mesmo tempo, captar detalhes finos — como perceber “uma arraia escondida sob o fundo do mar, identificar um pequeno pintassilgo no fundo de uma imagem ou detectar um aguti em movimento rápido em uma câmera de visão noturna para vida selvagem”.
A Meta afirma que o Perception Encoder oferece “desempenho excepcional na classificação e recuperação de imagens e vídeos sem treinamento prévio, superando todos os modelos open source e proprietários atuais para essas tarefas”.
Além disso, suas habilidades perceptivas supostamente melhoram o desempenho em tarefas de linguagem.
Quando combinado com um modelo de linguagem grande (LLM), o codificador supostamente supera outros codificadores de visão em áreas como resposta a perguntas visuais (VQA), legendas, compreensão de documentos e fundamentação (vinculação de texto a partes específicas de uma imagem). Ele também melhora o desempenho em tarefas nas quais os LLMs normalmente têm dificuldade, como compreensão de relações espaciais (por exemplo, “se um objeto está atrás de outro”) ou movimento da câmera em relação a um objeto.
“À medida que o Perception Encoder começa a ser integrado a novos aplicativos, estamos ansiosos para ver como seus recursos visuais avançados irão impulsionar sistemas de IA ainda mais sofisticados”, comentou a Meta.
Modelo de Linguagem de Percepção (PLM): Avançando na Pesquisa Aberta de Visão-Linguagem
Trabalhando em conjunto com o codificador está o Perception Language Model (PLM), um modelo aberto e reproduzível de visão-linguagem projetado para tarefas complexas de reconhecimento visual.
O PLM foi treinado usando dados sintéticos extensivos juntamente com conjuntos de dados abertos de visão-linguagem, evitando deliberadamente o conhecimento destilado de modelos proprietários externos.
Reconhecendo as deficiências dos dados existentes de compreensão de vídeo, a equipe FAIR reuniu 2,5 milhões de novas amostras rotuladas por humanos, com foco em respostas detalhadas a perguntas em vídeo e legendas espaço-temporais. A Meta afirma que este é o “maior conjunto de dados desse tipo até o momento”.
O PLM está disponível em versões de 1, 3 e 8 bilhões de parâmetros para atender às necessidades de pesquisas acadêmicas que exigem total transparência.
Junto com os modelos, a Meta está lançando o PLM-VideoBench, um novo benchmark criado especificamente para testar recursos frequentemente ignorados pelos benchmarks existentes, ou seja, “compreensão detalhada de atividades e raciocínio baseado em espaço-tempo”.
A Meta espera que o fornecimento de modelos abertos, um grande conjunto de dados e um benchmark desafiador fortaleçam a comunidade de código aberto.
Meta Locate 3D: fornecendo aos robôs consciência situacional
O Meta Locate 3D faz a ponte entre comandos de linguagem e ações físicas. Este modelo completo foi projetado para permitir que os robôs encontrem objetos com precisão em um espaço 3D com base em consultas de linguagem natural abertas.
O Meta Locate 3D processa nuvens de pontos 3D diretamente de sensores RGB-D (como os encontrados em alguns robôs ou câmeras com sensor de profundidade). Diante de um prompt de texto, como “vaso de flores perto do console da TV”, o sistema analisa as relações espaciais e o contexto para identificar a instância correta do objeto, diferenciando-a, por exemplo, de um “vaso sobre a mesa”.
O sistema consiste em três componentes principais: uma etapa de pré-processamento que converte recursos 2D em nuvens de pontos 3D; o codificador 3D-JEPA (um modelo pré-treinado que cria uma representação contextualizada do mundo 3D); e o decodificador Locate 3D, que usa a representação 3D e a consulta de linguagem para gerar caixas delimitadoras e máscaras para os objetos especificados.
Juntamente com o modelo, a Meta está lançando um novo conjunto de dados substancial para localização de objetos com base em expressões de referência. Ele inclui 130.000 anotações de linguagem em 1.346 cenas dos conjuntos de dados ARKitScenes, ScanNet e ScanNet++, efetivamente dobrando os dados anotados existentes neste campo.
A Meta considera essa tecnologia essencial para o desenvolvimento de sistemas robóticos mais capazes, incluindo seu próprio projeto de robô PARTNR, facilitando uma interação e um trabalho em equipe mais naturais entre humanos e robôs.
Dynamic Byte Latent Transformer: modelagem de linguagem eficiente e robusta
Seguindo uma pesquisa publicada no final de 2024, a Meta está agora lançando os pesos do modelo para seu Transformador Latente de Byte Dinâmico de 8 bilhões de parâmetros.
Essa arquitetura marca um afastamento dos modelos de linguagem tradicionais baseados em tokenização, operando diretamente no nível do byte. A Meta afirma que esse método alcança desempenho semelhante em escala, ao mesmo tempo em que oferece ganhos significativos em eficiência e robustez de inferência.
Os LLMs convencionais dividem o texto em “tokens”, o que pode causar problemas com erros ortográficos, palavras novas ou entradas adversárias. Os modelos em nível de byte processam bytes brutos, oferecendo potencialmente maior resiliência.
A Meta relata que o Dynamic Byte Latent Transformer “supera os modelos baseados em tokenizadores em várias tarefas, mostrando uma vantagem média de robustez de +7 pontos (no HellaSwag perturbado) e atingindo até +55 pontos em tarefas do benchmark de compreensão de tokens CUTE”.
Ao divulgar os pesos junto com a base de código compartilhada anteriormente, a Meta incentiva a comunidade de pesquisa a explorar essa abordagem alternativa para modelagem de linguagem.
Collaborative Reasoner: avançando em agentes de IA socialmente inteligentes
O lançamento final, o Collaborative Reasoner, aborda o complexo desafio de criar agentes de IA que possam trabalhar de forma eficaz com humanos ou outras IAs.
A Meta observa que a colaboração humana geralmente produz melhores resultados e visa equipar a IA com recursos semelhantes para tarefas como ajudar nos deveres de casa ou preparar-se para uma entrevista de emprego.
Essa colaboração requer não apenas resolução de problemas, mas também habilidades sociais como comunicação, empatia, feedback e compreensão das perspectivas dos outros (teoria da mente), que normalmente se desenrolam ao longo de várias conversas.
Os métodos atuais de treinamento e avaliação de LLM muitas vezes ignoram essas dimensões sociais e colaborativas. Além disso, coletar dados conversacionais relevantes é caro e desafiador.
O Collaborative Reasoner fornece uma estrutura para avaliar e melhorar essas habilidades. Ele inclui tarefas orientadas a objetivos que exigem raciocínio em várias etapas, alcançado por meio do diálogo entre dois agentes. A estrutura testa habilidades como discordância construtiva, persuasão e chegada a uma solução mutuamente ideal.
As avaliações da Meta mostraram que os modelos atuais muitas vezes não conseguem usar a colaboração de forma consistente para melhorar os resultados. Para resolver isso, eles propõem uma técnica de autoaperfeiçoamento usando dados de interação sintéticos, em que um agente LLM colabora consigo mesmo.
A geração desses dados em escala é possível graças a um novo mecanismo de serviço de modelo de alto desempenho chamado Matrix. O uso desse método em tarefas de raciocínio matemático, científico e social levou a melhorias de até 29,4% em comparação com o desempenho padrão da “cadeia de pensamento” de um único LLM.
Ao tornar a geração de dados e o pipeline de modelagem de código aberto, a Meta visa acelerar a pesquisa para o desenvolvimento de “agentes sociais que possam se associar a humanos e outros agentes”.
Juntas, essas cinco versões destacam o investimento substancial contínuo da Meta em pesquisa fundamental de IA, particularmente na criação de componentes básicos para máquinas que podem perceber, compreender e interagir com o mundo de maneiras mais semelhantes às humanas.
Veja também: Meta treinará modelos de IA usando dados de usuários da UE
Quer saber mais sobre IA e big data com os líderes do setor? Confira a AI & Big Data Expo que acontecerá em Amsterdã, Califórnia e Londres. Este evento abrangente é realizado em conjunto com outros eventos importantes, incluindo a Intelligent Automation Conference, BlockX, Digital Transformation Week e a Cyber Security & Cloud Expo.
Explore outros eventos e webinars de tecnologia empresarial que serão realizados em breve pela TechForge aqui.
Artigo relacionado
A Notion transforma seu espaço de trabalho em um centro para agentes de IA
A Notion, empresa de software de produtividade, está entrando na era dos agentes.Durante um anúncio de produto transmitido ao vivo na quarta-feira, a Notion — mais conhecida por seu aplicativo colabor
A ElevenLabs anuncia a BlackRock, Jamie Foxx e Eva Longoria como novos investidores
A ElevenLabs, empresa especializada em IA de voz, revelou novos investidores em sua rodada de financiamento da Série D, no valor de US$ 500 milhões, anunciada originalmente em fevereiro. Entre eles es
O WordPress.com agora permite que agentes de IA escrevam e publiquem posts, entre outras coisas
O WordPress.com, a popular plataforma de hospedagem e publicação na web, está agora adotando agentes de IA — uma iniciativa que pode transformar a aparência e a experiência da web. A empresa anunciou
Recomendações de tópicos especiais relacionados
Comentários (1)
So these advancements focus on perception and reasoning, huh? As someone who deals with automation at work, I find the 'AMI' goal both exciting and a bit unsettling. It feels like we're closing the loop between what a machine 'sees' and what it 'understands', which could revolutionize everything from logistics to creative tools. But honestly, I hope the focus stays on augmenting human ability rather than just chasing benchmarks that sound cool in research papers. The ethics of human-like perception need to be front and center. 🧠
A equipe de Pesquisa Fundamental em Inteligência Artificial (FAIR) da Meta revelou cinco novos projetos que impulsionam seu trabalho em inteligência artificial avançada (AMI).
Esses últimos lançamentos se concentram em melhorar a percepção da IA — como as máquinas processam os estímulos sensoriais —, além de avanços em modelos de linguagem, robótica e agentes colaborativos de IA.
A Meta explicou que seu objetivo é construir máquinas “capazes de adquirir, processar e interpretar dados sensoriais do nosso mundo e usar essas informações para tomar decisões com inteligência e velocidade semelhantes às humanas”.
As cinco novas iniciativas representam uma série de esforços interligados para atingir essa meta ambiciosa.
Codificador de percepção: aprimorando a inteligência visual da IA
Um dos pilares dos novos lançamentos é o Perception Encoder, um codificador de visão em grande escala criado para ter um desempenho excepcional em diversas tarefas de imagem e vídeo.
Os codificadores de visão atuam como os “olhos” dos sistemas de IA, permitindo que eles compreendam informações visuais.
A Meta destaca a crescente dificuldade de criar codificadores para IA avançada, que precisam conectar a visão com a linguagem, lidar com imagens e vídeos com proficiência e permanecer confiáveis em condições adversas, incluindo ataques adversários.
De acordo com a Meta, o codificador ideal deve reconhecer um amplo espectro de conceitos e, ao mesmo tempo, captar detalhes finos — como perceber “uma arraia escondida sob o fundo do mar, identificar um pequeno pintassilgo no fundo de uma imagem ou detectar um aguti em movimento rápido em uma câmera de visão noturna para vida selvagem”.
A Meta afirma que o Perception Encoder oferece “desempenho excepcional na classificação e recuperação de imagens e vídeos sem treinamento prévio, superando todos os modelos open source e proprietários atuais para essas tarefas”.
Além disso, suas habilidades perceptivas supostamente melhoram o desempenho em tarefas de linguagem.
Quando combinado com um modelo de linguagem grande (LLM), o codificador supostamente supera outros codificadores de visão em áreas como resposta a perguntas visuais (VQA), legendas, compreensão de documentos e fundamentação (vinculação de texto a partes específicas de uma imagem). Ele também melhora o desempenho em tarefas nas quais os LLMs normalmente têm dificuldade, como compreensão de relações espaciais (por exemplo, “se um objeto está atrás de outro”) ou movimento da câmera em relação a um objeto.
“À medida que o Perception Encoder começa a ser integrado a novos aplicativos, estamos ansiosos para ver como seus recursos visuais avançados irão impulsionar sistemas de IA ainda mais sofisticados”, comentou a Meta.
Modelo de Linguagem de Percepção (PLM): Avançando na Pesquisa Aberta de Visão-Linguagem
Trabalhando em conjunto com o codificador está o Perception Language Model (PLM), um modelo aberto e reproduzível de visão-linguagem projetado para tarefas complexas de reconhecimento visual.
O PLM foi treinado usando dados sintéticos extensivos juntamente com conjuntos de dados abertos de visão-linguagem, evitando deliberadamente o conhecimento destilado de modelos proprietários externos.
Reconhecendo as deficiências dos dados existentes de compreensão de vídeo, a equipe FAIR reuniu 2,5 milhões de novas amostras rotuladas por humanos, com foco em respostas detalhadas a perguntas em vídeo e legendas espaço-temporais. A Meta afirma que este é o “maior conjunto de dados desse tipo até o momento”.
O PLM está disponível em versões de 1, 3 e 8 bilhões de parâmetros para atender às necessidades de pesquisas acadêmicas que exigem total transparência.
Junto com os modelos, a Meta está lançando o PLM-VideoBench, um novo benchmark criado especificamente para testar recursos frequentemente ignorados pelos benchmarks existentes, ou seja, “compreensão detalhada de atividades e raciocínio baseado em espaço-tempo”.
A Meta espera que o fornecimento de modelos abertos, um grande conjunto de dados e um benchmark desafiador fortaleçam a comunidade de código aberto.
Meta Locate 3D: fornecendo aos robôs consciência situacional
O Meta Locate 3D faz a ponte entre comandos de linguagem e ações físicas. Este modelo completo foi projetado para permitir que os robôs encontrem objetos com precisão em um espaço 3D com base em consultas de linguagem natural abertas.
O Meta Locate 3D processa nuvens de pontos 3D diretamente de sensores RGB-D (como os encontrados em alguns robôs ou câmeras com sensor de profundidade). Diante de um prompt de texto, como “vaso de flores perto do console da TV”, o sistema analisa as relações espaciais e o contexto para identificar a instância correta do objeto, diferenciando-a, por exemplo, de um “vaso sobre a mesa”.
O sistema consiste em três componentes principais: uma etapa de pré-processamento que converte recursos 2D em nuvens de pontos 3D; o codificador 3D-JEPA (um modelo pré-treinado que cria uma representação contextualizada do mundo 3D); e o decodificador Locate 3D, que usa a representação 3D e a consulta de linguagem para gerar caixas delimitadoras e máscaras para os objetos especificados.
Juntamente com o modelo, a Meta está lançando um novo conjunto de dados substancial para localização de objetos com base em expressões de referência. Ele inclui 130.000 anotações de linguagem em 1.346 cenas dos conjuntos de dados ARKitScenes, ScanNet e ScanNet++, efetivamente dobrando os dados anotados existentes neste campo.
A Meta considera essa tecnologia essencial para o desenvolvimento de sistemas robóticos mais capazes, incluindo seu próprio projeto de robô PARTNR, facilitando uma interação e um trabalho em equipe mais naturais entre humanos e robôs.
Dynamic Byte Latent Transformer: modelagem de linguagem eficiente e robusta
Seguindo uma pesquisa publicada no final de 2024, a Meta está agora lançando os pesos do modelo para seu Transformador Latente de Byte Dinâmico de 8 bilhões de parâmetros.
Essa arquitetura marca um afastamento dos modelos de linguagem tradicionais baseados em tokenização, operando diretamente no nível do byte. A Meta afirma que esse método alcança desempenho semelhante em escala, ao mesmo tempo em que oferece ganhos significativos em eficiência e robustez de inferência.
Os LLMs convencionais dividem o texto em “tokens”, o que pode causar problemas com erros ortográficos, palavras novas ou entradas adversárias. Os modelos em nível de byte processam bytes brutos, oferecendo potencialmente maior resiliência.
A Meta relata que o Dynamic Byte Latent Transformer “supera os modelos baseados em tokenizadores em várias tarefas, mostrando uma vantagem média de robustez de +7 pontos (no HellaSwag perturbado) e atingindo até +55 pontos em tarefas do benchmark de compreensão de tokens CUTE”.
Ao divulgar os pesos junto com a base de código compartilhada anteriormente, a Meta incentiva a comunidade de pesquisa a explorar essa abordagem alternativa para modelagem de linguagem.
Collaborative Reasoner: avançando em agentes de IA socialmente inteligentes
O lançamento final, o Collaborative Reasoner, aborda o complexo desafio de criar agentes de IA que possam trabalhar de forma eficaz com humanos ou outras IAs.
A Meta observa que a colaboração humana geralmente produz melhores resultados e visa equipar a IA com recursos semelhantes para tarefas como ajudar nos deveres de casa ou preparar-se para uma entrevista de emprego.
Essa colaboração requer não apenas resolução de problemas, mas também habilidades sociais como comunicação, empatia, feedback e compreensão das perspectivas dos outros (teoria da mente), que normalmente se desenrolam ao longo de várias conversas.
Os métodos atuais de treinamento e avaliação de LLM muitas vezes ignoram essas dimensões sociais e colaborativas. Além disso, coletar dados conversacionais relevantes é caro e desafiador.
O Collaborative Reasoner fornece uma estrutura para avaliar e melhorar essas habilidades. Ele inclui tarefas orientadas a objetivos que exigem raciocínio em várias etapas, alcançado por meio do diálogo entre dois agentes. A estrutura testa habilidades como discordância construtiva, persuasão e chegada a uma solução mutuamente ideal.
As avaliações da Meta mostraram que os modelos atuais muitas vezes não conseguem usar a colaboração de forma consistente para melhorar os resultados. Para resolver isso, eles propõem uma técnica de autoaperfeiçoamento usando dados de interação sintéticos, em que um agente LLM colabora consigo mesmo.
A geração desses dados em escala é possível graças a um novo mecanismo de serviço de modelo de alto desempenho chamado Matrix. O uso desse método em tarefas de raciocínio matemático, científico e social levou a melhorias de até 29,4% em comparação com o desempenho padrão da “cadeia de pensamento” de um único LLM.
Ao tornar a geração de dados e o pipeline de modelagem de código aberto, a Meta visa acelerar a pesquisa para o desenvolvimento de “agentes sociais que possam se associar a humanos e outros agentes”.
Juntas, essas cinco versões destacam o investimento substancial contínuo da Meta em pesquisa fundamental de IA, particularmente na criação de componentes básicos para máquinas que podem perceber, compreender e interagir com o mundo de maneiras mais semelhantes às humanas.
Veja também: Meta treinará modelos de IA usando dados de usuários da UE
Quer saber mais sobre IA e big data com os líderes do setor? Confira a AI & Big Data Expo que acontecerá em Amsterdã, Califórnia e Londres. Este evento abrangente é realizado em conjunto com outros eventos importantes, incluindo a Intelligent Automation Conference, BlockX, Digital Transformation Week e a Cyber Security & Cloud Expo.
Explore outros eventos e webinars de tecnologia empresarial que serão realizados em breve pela TechForge aqui.
A Notion transforma seu espaço de trabalho em um centro para agentes de IA
A Notion, empresa de software de produtividade, está entrando na era dos agentes.Durante um anúncio de produto transmitido ao vivo na quarta-feira, a Notion — mais conhecida por seu aplicativo colabor
A ElevenLabs anuncia a BlackRock, Jamie Foxx e Eva Longoria como novos investidores
A ElevenLabs, empresa especializada em IA de voz, revelou novos investidores em sua rodada de financiamento da Série D, no valor de US$ 500 milhões, anunciada originalmente em fevereiro. Entre eles es
O WordPress.com agora permite que agentes de IA escrevam e publiquem posts, entre outras coisas
O WordPress.com, a popular plataforma de hospedagem e publicação na web, está agora adotando agentes de IA — uma iniciativa que pode transformar a aparência e a experiência da web. A empresa anunciou
So these advancements focus on perception and reasoning, huh? As someone who deals with automation at work, I find the 'AMI' goal both exciting and a bit unsettling. It feels like we're closing the loop between what a machine 'sees' and what it 'understands', which could revolutionize everything from logistics to creative tools. But honestly, I hope the focus stays on augmenting human ability rather than just chasing benchmarks that sound cool in research papers. The ethics of human-like perception need to be front and center. 🧠





Lar






