Lar
Falhas em modelos de linguagem de grande porte durante conversas expõem ponto cego crítico da IA
À medida que os grandes modelos de linguagem (LLMs) são cada vez mais utilizados para resumos de documentos, análises jurídicas e revisão de registros médicos, é fundamental reconhecer suas limitações. Além de preocupações conhecidas, como alucinações e preconceitos, os pesquisadores descobriram uma grande falha estrutural: ao analisar textos longos, os LLMs tendem a se concentrar no início e no final, negligenciando o conteúdo significativo no meio.
Esse fenômeno de “perda no meio” pode comprometer gravemente a utilidade no mundo real. Por exemplo, uma IA que resume um contrato jurídico complexo pode produzir um relatório enganoso se omitir cláusulas essenciais do núcleo do documento. Na área da saúde, a falta de detalhes centrais do histórico de um paciente pode levar a avaliações falhas. Identificar a causa raiz tem sido difícil, mas pesquisas recentes oferecem insights claros, atribuindo o problema a aspectos fundamentais da arquitetura do modelo.
O problema “perdido no meio”
O efeito “perdido no meio” descreve como os LLMs frequentemente atribuem menos atenção às informações localizadas no meio de longas sequências de entrada. Isso reflete o viés cognitivo humano de lembrar mais facilmente os primeiros e últimos itens de uma lista do que aqueles no meio, conhecido como efeitos de primazia e recência. Para os LLMs, isso se traduz em um forte desempenho quando os dados-chave estão no início ou no final de um texto e uma queda notável na precisão quando eles estão posicionados no meio, criando uma curva de desempenho em forma de “U”.
Essa não é apenas uma preocupação hipotética. Ela foi documentada em várias tarefas, desde respostas a perguntas até resumos. Um LLM normalmente responderá corretamente se as informações relevantes estiverem no primeiro ou no último parágrafo de um artigo longo. No entanto, se a resposta estiver nas seções do meio, a precisão cai drasticamente. Isso representa uma vulnerabilidade crítica, pois significa que esses modelos não podem ser totalmente confiáveis em tarefas que exigem compreensão de contextos extensos e complexos. Isso também abre uma porta para manipulação, em que o posicionamento estratégico de informações enganosas nas bordas de um documento pode distorcer a saída da IA.
Entendendo a arquitetura dos LLMs
Para entender por que os LLMs esquecem o meio, devemos examinar sua estrutura subjacente. Os LLMs modernos são construídos com base na arquitetura Transformer, que revolucionou a IA com seu mecanismo de autoatenção. A autoatenção permite que o modelo avalie a relevância de todas as palavras na entrada ao processar qualquer palavra específica, permitindo uma compreensão sutil das relações contextuais muito além dos modelos anteriores.
A codificação posicional é outro elemento crucial. Como a autoatenção carece de um senso inato de ordem das palavras, as codificações posicionais são injetadas na entrada para informar ao modelo sobre a posição da sequência de cada palavra. Sem isso, o texto seria percebido como uma coleção desestruturada de palavras. Embora a autoatenção e a codificação posicional se combinem para tornar os LLMs poderosos, novas pesquisas indicam que sua interação é precisamente o que cria esse ponto cego oculto.
Como surge o viés posicional
Um estudo recente emprega um método inovador baseado em gráficos para explicar o fenômeno. Ao modelar o fluxo de informações do Transformer como uma rede de nós (palavras) e arestas (links de atenção), os pesquisadores puderam rastrear matematicamente como os dados de diferentes posições se propagam pelas camadas do modelo.
A análise produziu duas descobertas importantes. Primeiro, o mascaramento causal usado em muitos LLMs inerentemente inclina o modelo para o início da sequência. O mascaramento causal garante que, ao gerar uma palavra, o modelo preste atenção apenas às palavras anteriores, o que é essencial para a geração de texto coerente. Ao longo de várias camadas, esse efeito se agrava; as palavras iniciais são processadas repetidamente, tornando suas representações desproporcionalmente influentes. Consequentemente, as palavras no meio são sempre vistas através das lentes desse contexto inicial dominante, diluindo suas próprias contribuições distintas.
Segundo, o estudo examinou como as codificações posicionais interagem com o mascaramento causal. Os LLMs modernos frequentemente usam codificações posicionais relativas, que enfatizam a distância entre as palavras em vez de sua posição absoluta. Isso ajuda na generalização entre textos de comprimentos variados. No entanto, isso cria um conflito: a máscara causal direciona o foco para o início, enquanto a codificação relativa incentiva o foco no contexto local próximo. O conflito resulta no modelo priorizando o início do texto e a vizinhança imediata de qualquer palavra. As informações que estão distantes e não estão no início — no meio do texto — acabam recebendo menos atenção.
As implicações mais amplas
A questão do “perdido no meio” tem sérias ramificações para aplicativos que processam documentos longos. A pesquisa confirma que o problema não é incidental, mas um subproduto fundamental do design atual do modelo, o que implica que apenas treinar com mais dados não irá resolvê-lo. Resolvê-lo pode exigir repensar os princípios básicos da arquitetura do Transformer.
Para desenvolvedores e usuários de IA, isso serve como um alerta crucial. Aplicativos que dependem de LLMs para tarefas de contexto longo devem levar em conta essa limitação. Estratégias de mitigação podem envolver a segmentação de documentos em partes menores ou o design de modelos que orientem explicitamente a atenção em diferentes seções do texto. Isso também ressalta a necessidade de testes rigorosos e específicos para cada comprimento; um bom desempenho em textos curtos não garante confiabilidade com entradas mais longas e complexas.
Conclusão
O progresso na IA sempre envolveu identificar e superar limitações. O problema de “perda no meio” é uma falha substancial em grandes modelos de linguagem, onde eles consistentemente subestimam as informações no centro de sequências longas. Isso decorre de vieses inerentes à arquitetura do Transformer, especificamente a interação entre o mascaramento causal e a codificação posicional relativa. Embora os LLMs se destaquem com informações nas extremidades de um texto, seu desempenho vacila quando detalhes críticos residem no meio. Essa fraqueza pode prejudicar a precisão em tarefas como resumo de documentos e resposta a perguntas, com consequências potencialmente graves em áreas como direito e medicina. Resolver esse desafio é essencial para desenvolvedores e pesquisadores que buscam aumentar a confiabilidade prática dos LLMs.
Artigo relacionado
A startup do MIT lida com alucinações de IA ensinando os sistemas a admitir a incerteza
Os riscos associados às alucinações da IA estão aumentando à medida que se confia cada vez mais nesses modelos para obter informações críticas e tomar decisões de alto risco.Todos nós conhecemos algué
Nova técnica permite que Deepseek e outros modelos respondam a consultas sensíveis
Remover o viés e a censura de grandes modelos de idiomas (LLMs) como o Deepseek da China é um desafio complexo que chamou a atenção dos formuladores de políticas e líderes empresariais dos EUA, que o vêem como uma potencial ameaça à segurança nacional. Um relatório recente de um comitê de seleção do Congresso dos EUA rotulado Deeps
As anotações de reuniões da IA da Talat ficam armazenadas no seu dispositivo, e não na nuvem
O Granola, aplicativo de anotações com inteligência artificial avaliado em US$ 250 milhões, vem ganhando força entre fundadores de empresas de tecnologia e investidores de capital de risco. Mas um des
Recomendações de tópicos especiais relacionados
Comentários (0)
À medida que os grandes modelos de linguagem (LLMs) são cada vez mais utilizados para resumos de documentos, análises jurídicas e revisão de registros médicos, é fundamental reconhecer suas limitações. Além de preocupações conhecidas, como alucinações e preconceitos, os pesquisadores descobriram uma grande falha estrutural: ao analisar textos longos, os LLMs tendem a se concentrar no início e no final, negligenciando o conteúdo significativo no meio.
Esse fenômeno de “perda no meio” pode comprometer gravemente a utilidade no mundo real. Por exemplo, uma IA que resume um contrato jurídico complexo pode produzir um relatório enganoso se omitir cláusulas essenciais do núcleo do documento. Na área da saúde, a falta de detalhes centrais do histórico de um paciente pode levar a avaliações falhas. Identificar a causa raiz tem sido difícil, mas pesquisas recentes oferecem insights claros, atribuindo o problema a aspectos fundamentais da arquitetura do modelo.
O problema “perdido no meio”
O efeito “perdido no meio” descreve como os LLMs frequentemente atribuem menos atenção às informações localizadas no meio de longas sequências de entrada. Isso reflete o viés cognitivo humano de lembrar mais facilmente os primeiros e últimos itens de uma lista do que aqueles no meio, conhecido como efeitos de primazia e recência. Para os LLMs, isso se traduz em um forte desempenho quando os dados-chave estão no início ou no final de um texto e uma queda notável na precisão quando eles estão posicionados no meio, criando uma curva de desempenho em forma de “U”.
Essa não é apenas uma preocupação hipotética. Ela foi documentada em várias tarefas, desde respostas a perguntas até resumos. Um LLM normalmente responderá corretamente se as informações relevantes estiverem no primeiro ou no último parágrafo de um artigo longo. No entanto, se a resposta estiver nas seções do meio, a precisão cai drasticamente. Isso representa uma vulnerabilidade crítica, pois significa que esses modelos não podem ser totalmente confiáveis em tarefas que exigem compreensão de contextos extensos e complexos. Isso também abre uma porta para manipulação, em que o posicionamento estratégico de informações enganosas nas bordas de um documento pode distorcer a saída da IA.
Entendendo a arquitetura dos LLMs
Para entender por que os LLMs esquecem o meio, devemos examinar sua estrutura subjacente. Os LLMs modernos são construídos com base na arquitetura Transformer, que revolucionou a IA com seu mecanismo de autoatenção. A autoatenção permite que o modelo avalie a relevância de todas as palavras na entrada ao processar qualquer palavra específica, permitindo uma compreensão sutil das relações contextuais muito além dos modelos anteriores.
A codificação posicional é outro elemento crucial. Como a autoatenção carece de um senso inato de ordem das palavras, as codificações posicionais são injetadas na entrada para informar ao modelo sobre a posição da sequência de cada palavra. Sem isso, o texto seria percebido como uma coleção desestruturada de palavras. Embora a autoatenção e a codificação posicional se combinem para tornar os LLMs poderosos, novas pesquisas indicam que sua interação é precisamente o que cria esse ponto cego oculto.
Como surge o viés posicional
Um estudo recente emprega um método inovador baseado em gráficos para explicar o fenômeno. Ao modelar o fluxo de informações do Transformer como uma rede de nós (palavras) e arestas (links de atenção), os pesquisadores puderam rastrear matematicamente como os dados de diferentes posições se propagam pelas camadas do modelo.
A análise produziu duas descobertas importantes. Primeiro, o mascaramento causal usado em muitos LLMs inerentemente inclina o modelo para o início da sequência. O mascaramento causal garante que, ao gerar uma palavra, o modelo preste atenção apenas às palavras anteriores, o que é essencial para a geração de texto coerente. Ao longo de várias camadas, esse efeito se agrava; as palavras iniciais são processadas repetidamente, tornando suas representações desproporcionalmente influentes. Consequentemente, as palavras no meio são sempre vistas através das lentes desse contexto inicial dominante, diluindo suas próprias contribuições distintas.
Segundo, o estudo examinou como as codificações posicionais interagem com o mascaramento causal. Os LLMs modernos frequentemente usam codificações posicionais relativas, que enfatizam a distância entre as palavras em vez de sua posição absoluta. Isso ajuda na generalização entre textos de comprimentos variados. No entanto, isso cria um conflito: a máscara causal direciona o foco para o início, enquanto a codificação relativa incentiva o foco no contexto local próximo. O conflito resulta no modelo priorizando o início do texto e a vizinhança imediata de qualquer palavra. As informações que estão distantes e não estão no início — no meio do texto — acabam recebendo menos atenção.
As implicações mais amplas
A questão do “perdido no meio” tem sérias ramificações para aplicativos que processam documentos longos. A pesquisa confirma que o problema não é incidental, mas um subproduto fundamental do design atual do modelo, o que implica que apenas treinar com mais dados não irá resolvê-lo. Resolvê-lo pode exigir repensar os princípios básicos da arquitetura do Transformer.
Para desenvolvedores e usuários de IA, isso serve como um alerta crucial. Aplicativos que dependem de LLMs para tarefas de contexto longo devem levar em conta essa limitação. Estratégias de mitigação podem envolver a segmentação de documentos em partes menores ou o design de modelos que orientem explicitamente a atenção em diferentes seções do texto. Isso também ressalta a necessidade de testes rigorosos e específicos para cada comprimento; um bom desempenho em textos curtos não garante confiabilidade com entradas mais longas e complexas.
Conclusão
O progresso na IA sempre envolveu identificar e superar limitações. O problema de “perda no meio” é uma falha substancial em grandes modelos de linguagem, onde eles consistentemente subestimam as informações no centro de sequências longas. Isso decorre de vieses inerentes à arquitetura do Transformer, especificamente a interação entre o mascaramento causal e a codificação posicional relativa. Embora os LLMs se destaquem com informações nas extremidades de um texto, seu desempenho vacila quando detalhes críticos residem no meio. Essa fraqueza pode prejudicar a precisão em tarefas como resumo de documentos e resposta a perguntas, com consequências potencialmente graves em áreas como direito e medicina. Resolver esse desafio é essencial para desenvolvedores e pesquisadores que buscam aumentar a confiabilidade prática dos LLMs.
Nova técnica permite que Deepseek e outros modelos respondam a consultas sensíveis
Remover o viés e a censura de grandes modelos de idiomas (LLMs) como o Deepseek da China é um desafio complexo que chamou a atenção dos formuladores de políticas e líderes empresariais dos EUA, que o vêem como uma potencial ameaça à segurança nacional. Um relatório recente de um comitê de seleção do Congresso dos EUA rotulado Deeps
As anotações de reuniões da IA da Talat ficam armazenadas no seu dispositivo, e não na nuvem
O Granola, aplicativo de anotações com inteligência artificial avaliado em US$ 250 milhões, vem ganhando força entre fundadores de empresas de tecnologia e investidores de capital de risco. Mas um des











