Meta FAIR revela cinco avanços na IA semelhante à humana

Lar

Notícias

28 de Dezembro de 2025

BillyAdams

130

# ai # agents # meta # robotics

A equipe de Pesquisa Fundamental em Inteligência Artificial (FAIR) da Meta revelou cinco novos projetos que impulsionam seu trabalho em inteligência artificial avançada (AMI).

Esses últimos lançamentos se concentram em melhorar a percepção da IA — como as máquinas processam os estímulos sensoriais —, além de avanços em modelos de linguagem, robótica e agentes colaborativos de IA.

A Meta explicou que seu objetivo é construir máquinas “capazes de adquirir, processar e interpretar dados sensoriais do nosso mundo e usar essas informações para tomar decisões com inteligência e velocidade semelhantes às humanas”.

As cinco novas iniciativas representam uma série de esforços interligados para atingir essa meta ambiciosa.

Codificador de percepção: aprimorando a inteligência visual da IA

Um dos pilares dos novos lançamentos é o Perception Encoder, um codificador de visão em grande escala criado para ter um desempenho excepcional em diversas tarefas de imagem e vídeo.

Os codificadores de visão atuam como os “olhos” dos sistemas de IA, permitindo que eles compreendam informações visuais.

A Meta destaca a crescente dificuldade de criar codificadores para IA avançada, que precisam conectar a visão com a linguagem, lidar com imagens e vídeos com proficiência e permanecer confiáveis em condições adversas, incluindo ataques adversários.

De acordo com a Meta, o codificador ideal deve reconhecer um amplo espectro de conceitos e, ao mesmo tempo, captar detalhes finos — como perceber “uma arraia escondida sob o fundo do mar, identificar um pequeno pintassilgo no fundo de uma imagem ou detectar um aguti em movimento rápido em uma câmera de visão noturna para vida selvagem”.

A Meta afirma que o Perception Encoder oferece “desempenho excepcional na classificação e recuperação de imagens e vídeos sem treinamento prévio, superando todos os modelos open source e proprietários atuais para essas tarefas”.

Além disso, suas habilidades perceptivas supostamente melhoram o desempenho em tarefas de linguagem.

Quando combinado com um modelo de linguagem grande (LLM), o codificador supostamente supera outros codificadores de visão em áreas como resposta a perguntas visuais (VQA), legendas, compreensão de documentos e fundamentação (vinculação de texto a partes específicas de uma imagem). Ele também melhora o desempenho em tarefas nas quais os LLMs normalmente têm dificuldade, como compreensão de relações espaciais (por exemplo, “se um objeto está atrás de outro”) ou movimento da câmera em relação a um objeto.

“À medida que o Perception Encoder começa a ser integrado a novos aplicativos, estamos ansiosos para ver como seus recursos visuais avançados irão impulsionar sistemas de IA ainda mais sofisticados”, comentou a Meta.

Modelo de Linguagem de Percepção (PLM): Avançando na Pesquisa Aberta de Visão-Linguagem

Trabalhando em conjunto com o codificador está o Perception Language Model (PLM), um modelo aberto e reproduzível de visão-linguagem projetado para tarefas complexas de reconhecimento visual.

O PLM foi treinado usando dados sintéticos extensivos juntamente com conjuntos de dados abertos de visão-linguagem, evitando deliberadamente o conhecimento destilado de modelos proprietários externos.

Reconhecendo as deficiências dos dados existentes de compreensão de vídeo, a equipe FAIR reuniu 2,5 milhões de novas amostras rotuladas por humanos, com foco em respostas detalhadas a perguntas em vídeo e legendas espaço-temporais. A Meta afirma que este é o “maior conjunto de dados desse tipo até o momento”.

O PLM está disponível em versões de 1, 3 e 8 bilhões de parâmetros para atender às necessidades de pesquisas acadêmicas que exigem total transparência.

Junto com os modelos, a Meta está lançando o PLM-VideoBench, um novo benchmark criado especificamente para testar recursos frequentemente ignorados pelos benchmarks existentes, ou seja, “compreensão detalhada de atividades e raciocínio baseado em espaço-tempo”.

A Meta espera que o fornecimento de modelos abertos, um grande conjunto de dados e um benchmark desafiador fortaleçam a comunidade de código aberto.

Meta Locate 3D: fornecendo aos robôs consciência situacional

O Meta Locate 3D faz a ponte entre comandos de linguagem e ações físicas. Este modelo completo foi projetado para permitir que os robôs encontrem objetos com precisão em um espaço 3D com base em consultas de linguagem natural abertas.

O Meta Locate 3D processa nuvens de pontos 3D diretamente de sensores RGB-D (como os encontrados em alguns robôs ou câmeras com sensor de profundidade). Diante de um prompt de texto, como “vaso de flores perto do console da TV”, o sistema analisa as relações espaciais e o contexto para identificar a instância correta do objeto, diferenciando-a, por exemplo, de um “vaso sobre a mesa”.

O sistema consiste em três componentes principais: uma etapa de pré-processamento que converte recursos 2D em nuvens de pontos 3D; o codificador 3D-JEPA (um modelo pré-treinado que cria uma representação contextualizada do mundo 3D); e o decodificador Locate 3D, que usa a representação 3D e a consulta de linguagem para gerar caixas delimitadoras e máscaras para os objetos especificados.

Juntamente com o modelo, a Meta está lançando um novo conjunto de dados substancial para localização de objetos com base em expressões de referência. Ele inclui 130.000 anotações de linguagem em 1.346 cenas dos conjuntos de dados ARKitScenes, ScanNet e ScanNet++, efetivamente dobrando os dados anotados existentes neste campo.

A Meta considera essa tecnologia essencial para o desenvolvimento de sistemas robóticos mais capazes, incluindo seu próprio projeto de robô PARTNR, facilitando uma interação e um trabalho em equipe mais naturais entre humanos e robôs.

Dynamic Byte Latent Transformer: modelagem de linguagem eficiente e robusta

Seguindo uma pesquisa publicada no final de 2024, a Meta está agora lançando os pesos do modelo para seu Transformador Latente de Byte Dinâmico de 8 bilhões de parâmetros.

Essa arquitetura marca um afastamento dos modelos de linguagem tradicionais baseados em tokenização, operando diretamente no nível do byte. A Meta afirma que esse método alcança desempenho semelhante em escala, ao mesmo tempo em que oferece ganhos significativos em eficiência e robustez de inferência.

Os LLMs convencionais dividem o texto em “tokens”, o que pode causar problemas com erros ortográficos, palavras novas ou entradas adversárias. Os modelos em nível de byte processam bytes brutos, oferecendo potencialmente maior resiliência.

A Meta relata que o Dynamic Byte Latent Transformer “supera os modelos baseados em tokenizadores em várias tarefas, mostrando uma vantagem média de robustez de +7 pontos (no HellaSwag perturbado) e atingindo até +55 pontos em tarefas do benchmark de compreensão de tokens CUTE”.

Ao divulgar os pesos junto com a base de código compartilhada anteriormente, a Meta incentiva a comunidade de pesquisa a explorar essa abordagem alternativa para modelagem de linguagem.

Collaborative Reasoner: avançando em agentes de IA socialmente inteligentes

O lançamento final, o Collaborative Reasoner, aborda o complexo desafio de criar agentes de IA que possam trabalhar de forma eficaz com humanos ou outras IAs.

A Meta observa que a colaboração humana geralmente produz melhores resultados e visa equipar a IA com recursos semelhantes para tarefas como ajudar nos deveres de casa ou preparar-se para uma entrevista de emprego.

Essa colaboração requer não apenas resolução de problemas, mas também habilidades sociais como comunicação, empatia, feedback e compreensão das perspectivas dos outros (teoria da mente), que normalmente se desenrolam ao longo de várias conversas.

Os métodos atuais de treinamento e avaliação de LLM muitas vezes ignoram essas dimensões sociais e colaborativas. Além disso, coletar dados conversacionais relevantes é caro e desafiador.

O Collaborative Reasoner fornece uma estrutura para avaliar e melhorar essas habilidades. Ele inclui tarefas orientadas a objetivos que exigem raciocínio em várias etapas, alcançado por meio do diálogo entre dois agentes. A estrutura testa habilidades como discordância construtiva, persuasão e chegada a uma solução mutuamente ideal.

As avaliações da Meta mostraram que os modelos atuais muitas vezes não conseguem usar a colaboração de forma consistente para melhorar os resultados. Para resolver isso, eles propõem uma técnica de autoaperfeiçoamento usando dados de interação sintéticos, em que um agente LLM colabora consigo mesmo.

A geração desses dados em escala é possível graças a um novo mecanismo de serviço de modelo de alto desempenho chamado Matrix. O uso desse método em tarefas de raciocínio matemático, científico e social levou a melhorias de até 29,4% em comparação com o desempenho padrão da “cadeia de pensamento” de um único LLM.

Ao tornar a geração de dados e o pipeline de modelagem de código aberto, a Meta visa acelerar a pesquisa para o desenvolvimento de “agentes sociais que possam se associar a humanos e outros agentes”.

Juntas, essas cinco versões destacam o investimento substancial contínuo da Meta em pesquisa fundamental de IA, particularmente na criação de componentes básicos para máquinas que podem perceber, compreender e interagir com o mundo de maneiras mais semelhantes às humanas.

Veja também: Meta treinará modelos de IA usando dados de usuários da UE

Quer saber mais sobre IA e big data com os líderes do setor? Confira a AI & Big Data Expo que acontecerá em Amsterdã, Califórnia e Londres. Este evento abrangente é realizado em conjunto com outros eventos importantes, incluindo a Intelligent Automation Conference, BlockX, Digital Transformation Week e a Cyber Security & Cloud Expo.

Explore outros eventos e webinars de tecnologia empresarial que serão realizados em breve pela TechForge aqui.

Artigo relacionado

A Notion transforma seu espaço de trabalho em um centro para agentes de IA A Notion, empresa de software de produtividade, está entrando na era dos agentes.Durante um anúncio de produto transmitido ao vivo na quarta-feira, a Notion — mais conhecida por seu aplicativo colabor

A ElevenLabs anuncia a BlackRock, Jamie Foxx e Eva Longoria como novos investidores A ElevenLabs, empresa especializada em IA de voz, revelou novos investidores em sua rodada de financiamento da Série D, no valor de US$ 500 milhões, anunciada originalmente em fevereiro. Entre eles es

O WordPress.com agora permite que agentes de IA escrevam e publiquem posts, entre outras coisas O WordPress.com, a popular plataforma de hospedagem e publicação na web, está agora adotando agentes de IA — uma iniciativa que pode transformar a aparência e a experiência da web. A empresa anunciou

Recomendações de tópicos especiais relacionados

escrita

Melhores ferramentas de scriptagem AI para rádio e podcasts: crie anúncios de áudio envolventes

Descubra os melhores ferramentas de scriptagem AI para rádio e podcasts em 2026 na XIX.AI. Nossa lista selecionada e avaliada pelos usuários apresenta soluções poderosas que podem transformar a forma como você cria anúncios audio envolventes. Compare opções gratuitas e pagas com testes reais e rankings atualizados semanalmente. Desbloqueie seu potencial criativo hoje mesmo!

10 ferramentas

xix.ai

Negócios

O melhor software de revisão de contratos com IA: identifique lacunas jurídicas e riscos de conformidade instantaneamente

Descubra os melhores softwares de análise de contratos com IA de 2026 no XIX.AI. Nossa lista, cuidadosamente selecionada e com as melhores avaliações, apresenta ferramentas poderosas que identificam instantaneamente lacunas jurídicas e riscos de conformidade. Compare opções gratuitas e pagas com testes práticos e rankings atualizados semanalmente. Encontre a solução revolucionária para uma análise segura e eficiente de contratos. Explore agora o guia definitivo.

10 ferramentas

xix.ai

Criação de Animação

Gerador de Animações AI para Donghua: Crie Personagens para Romances Online e Avatares para Quadrinhos

Descubra os melhores geradores de animações AI de 2026 para a criação de donghua. Nossa lista selecionada apresenta ferramentas poderosas para criar personagens incríveis para romances online e avatares para quadrinhos. Compare opções gratuitas e pagas com testes reais. Encontre o parceiro criativo perfeito para dar vida às suas histórias hoje mesmo no XIX.AI.

10 ferramentas

xix.ai

Criação de quadrinhos

As melhores ferramentas de colorização automática com IA para mangás: aplique cores planas sem erros de consistência

Descubra as melhores ferramentas de colorização automática por IA para mangás de 2026 no XIX.AI. Nossa lista selecionada apresenta soluções de ponta e revolucionárias que aplicam cores planas sem nenhum erro de consistência, aumentando sua produtividade. Explore comparações entre versões gratuitas e pagas, testes práticos e rankings atualizados semanalmente para encontrar a opção ideal para você. Aproveite hoje mesmo as vantagens da IA.

10 ferramentas

xix.ai

escrita

Os melhores criadores de perfis de ficção com IA: gerar motivações consistentes para personagens e falhas fatais

Descubra os melhores criadores de perfis de ficção com IA de 2026 para criar personagens complexos. A lista selecionada pela XIX.AI apresenta ferramentas de ponta e revolucionárias que geram motivações consistentes e falhas fatais. Compare as opções gratuitas com as pagas por meio de testes práticos. Liberte agora o seu potencial narrativo.

10 ferramentas

xix.ai

Negócios

Os melhores softwares de otimização de preços com IA: acompanhe os concorrentes e ajuste automaticamente os preços da loja

Descubra os melhores softwares de otimização de preços com IA de 2026 no XIX.AI. Nossa lista selecionada apresenta ferramentas de ponta e revolucionárias que monitoram os concorrentes e ajustam automaticamente os preços da sua loja para maximizar o lucro. Compare opções gratuitas e pagas com testes práticos. Obtenha sua vantagem competitiva em preços agora mesmo.

10 ferramentas

xix.ai

Comentários (1)

0/500

Por favor, faça o login primeiro

StevenMartin

1 de Janeiro de 2026 à56 12:30:56 WET

So these advancements focus on perception and reasoning, huh? As someone who deals with automation at work, I find the 'AMI' goal both exciting and a bit unsettling. It feels like we're closing the loop between what a machine 'sees' and what it 'understands', which could revolutionize everything from logistics to creative tools. But honestly, I hope the focus stays on augmenting human ability rather than just chasing benchmarks that sound cool in research papers. The ethics of human-like perception need to be front and center. 🧠

Principais notícias

AI Builder e Power Automate Revolucionam a Sumarização de Documentos Hosts de IA do podcast Notebooklm agora disponíveis para entrevistas China revela padrão nacional para robôs humanóides e inteligência incorporada Platôs de adoção de IA corporativa, revelam dados da Ramp Tutorial do Criador de Imagens do Bing: Guia de Geração de Arte por IA Aprenda a criar música de IA usando sua voz: um tutorial passo a passo do SUNO iMyFone MagicMic: Revisão e Tutorial de Mudança de Voz AI em Tempo Real Geradores de Vídeo AI Top de 2025: Pika Labs vs Alternativas DeepSeek V4 surge como uma revolução na IA multimodal A Embodied Intelligence divulga a primeira norma do setor para conter o crescimento descontrolado

Mais

Apresentou