Os LLMs têm dificuldade com quebra-cabeças simples, mas resolvem os complexos

A inteligência artificial progrediu notavelmente, com os Modelos de Linguagem de Grande Porte (LLMs) e seus primos mais avançados, os Modelos de Raciocínio de Grande Porte (LRMs), mudando fundamentalmente a forma como as máquinas processam e geram texto. Esses modelos podem redigir ensaios, responder a perguntas e até mesmo resolver problemas matemáticos. No entanto, surge um padrão curioso: eles frequentemente complicam demais tarefas simples, enquanto esbarram em um obstáculo com tarefas altamente complexas. Uma pesquisa recente da Apple lança uma nova luz sobre esse comportamento. Este artigo investiga o “porquê” por trás disso e o que isso significa para o futuro da IA.
Entendendo LLMs e LRMs
Para compreender esse comportamento, devemos primeiro definir esses modelos. LLMs como o GPT-3 são treinados em enormes conjuntos de dados de texto para prever a próxima palavra em uma sequência, destacando-se na geração, tradução e resumo. No entanto, eles não são inerentemente construídos para dedução lógica ou resolução estruturada de problemas.
Os LRM visam preencher essa lacuna. Eles empregam técnicas como o prompt Chain-of-Thought, em que o modelo descreve etapas intermediárias de raciocínio antes de uma resposta final — semelhante a um ser humano resolvendo um problema matemático passo a passo. Embora isso aumente o desempenho em tarefas complexas, o estudo da Apple revela desafios quando a complexidade do problema varia.
O estudo de pesquisa
A equipe da Apple desenvolveu um método de avaliação inovador. Indo além dos benchmarks tradicionais de matemática ou codificação — que podem sofrer contaminação de dados quando os modelos memorizam as respostas —, eles usaram ambientes controlados de quebra-cabeças. Estes incluíram clássicos como a Torre de Hanói, Checker Jumping, River Crossing e Blocks World. Na Torre de Hanói, por exemplo, os discos devem ser movidos entre os pinos de acordo com regras específicas, com a complexidade aumentando à medida que mais discos são adicionados. Ao variar sistematicamente a dificuldade dos quebra-cabeças, mantendo a lógica consistente, os pesquisadores puderam observar o desempenho do modelo em um amplo espectro. Essa abordagem permitiu a análise não apenas das respostas finais, mas do próprio processo de raciocínio, oferecendo uma visão de como esses modelos “pensam”.
Conclusões sobre pensar demais e desistir
O estudo identificou três fases distintas de desempenho relacionadas à complexidade:
- Para problemas de baixa complexidade, os LLMs padrão geralmente superam os LRMs. Os LRMs tendem a pensar demais, gerando etapas extras desnecessárias, enquanto os LLMs padrão respondem de forma mais direta e eficiente.
- Em complexidade média, os LRMs se destacam. Sua capacidade de produzir traços de raciocínio detalhados os ajuda a navegar por esses desafios com eficácia.
- Em alta complexidade, ambos os tipos de modelo falham completamente. Os LRMs, em particular, mostram um colapso dramático na precisão e, paradoxalmente, reduzem seu esforço de raciocínio à medida que a dificuldade aumenta.
Para quebra-cabeças simples, como a Torre de Hanói de dois discos, os LLMs padrão forneceram respostas corretas com eficiência. Os LRMs, no entanto, muitas vezes pensaram demais, produzindo raciocínios longos para soluções diretas. Isso sugere que os LRMs podem estar imitando explicações exageradas de seus dados de treinamento, levando à ineficiência.
Em cenários moderadamente complexos, os LRMs tiveram o melhor desempenho. Seu raciocínio passo a passo permitiu que eles lidassem com problemas lógicos de várias etapas, superando os LLMs padrão, que tiveram dificuldades com a coerência.
Para quebra-cabeças altamente complexos, como uma Torre de Hanói com muitos discos, ambos os modelos falharam. Curiosamente, os LRMs reduziram seu esforço de raciocínio, apesar de terem recursos computacionais suficientes. Esse comportamento de “desistência” aponta para uma limitação fundamental na escalabilidade de suas capacidades de raciocínio.
Por que isso acontece
O excesso de raciocínio em quebra-cabeças simples provavelmente decorre do treinamento. Esses modelos aprendem com enormes conjuntos de dados que contêm explicações concisas e detalhadas. Para problemas fáceis, eles podem gerar traços detalhados por padrão, refletindo exemplos longos em seu treinamento, mesmo quando uma resposta direta funcionaria. Isso não é necessariamente uma falha, mas um reflexo do treinamento que prioriza a demonstração do raciocínio em vez da eficiência pura.
O fracasso em quebra-cabeças complexos destaca a incapacidade de generalizar regras lógicas. À medida que a complexidade aumenta, sua dependência da correspondência de padrões se rompe, levando a um raciocínio inconsistente e ao colapso do desempenho. O estudo descobriu que os LRMs não conseguem empregar algoritmos explícitos e raciocinam de forma inconsistente entre os quebra-cabeças. Isso ressalta que, embora esses modelos possam simular o raciocínio, eles não compreendem verdadeiramente a lógica subjacente como os humanos.
Perspectivas diversas
O estudo gerou debate na comunidade de IA. Alguns especialistas alertam contra interpretações errôneas, argumentando que, embora os LLMs e LRMs possam não raciocinar como os humanos, sua resolução de problemas dentro de certos limites continua sendo valiosa. Eles afirmam que o “raciocínio” da IA não precisa espelhar a cognição humana para ser útil. Discussões em plataformas como o Hacker News elogiam o rigor do estudo, mas enfatizam a necessidade de mais pesquisas para avançar o raciocínio da IA. Essas opiniões destacam a conversa em andamento sobre o que constitui o raciocínio na IA e a melhor forma de avaliá-lo.
Implicações e direções futuras
As descobertas têm um peso significativo para o desenvolvimento da IA. Embora os LRMs marquem um progresso na imitação do raciocínio humano, suas dificuldades com a complexidade e o esforço de dimensionamento mostram que os modelos atuais estão longe de alcançar um raciocínio generalizável. Isso ressalta a necessidade de novos métodos de avaliação focados na qualidade e adaptabilidade do processo de raciocínio, não apenas na precisão da resposta final.
Trabalhos futuros devem aprimorar a capacidade dos modelos de executar etapas lógicas com precisão e ajustar dinamicamente o esforço de raciocínio com base na dificuldade. O desenvolvimento de benchmarks baseados em tarefas do mundo real — como diagnóstico médico ou análise jurídica — pode oferecer insights mais significativos. Fundamentalmente, reduzir a dependência excessiva do reconhecimento de padrões e melhorar a generalização das regras lógicas será essencial para o avanço do raciocínio da IA.
Conclusão
Este estudo oferece uma visão crítica das capacidades de raciocínio dos LLMs e LRMs. Ele mostra que esses modelos podem analisar excessivamente quebra-cabeças simples, mas falham em quebra-cabeças complexos, revelando tanto seu potencial quanto seus limites. Embora eficazes em contextos específicos, seu fracasso em problemas altamente complexos ressalta a lacuna entre o raciocínio simulado e a compreensão genuína. A pesquisa enfatiza a necessidade imperativa de desenvolver sistemas de IA que possam raciocinar de forma adaptativa em todos os níveis de complexidade, enfrentando desafios variados da mesma forma que os seres humanos.
Artigo relacionado
A China Telecom investe na Mianbi Intelligence e aumenta o capital para 713.000 yuans para LLM e infraestrutura de dados
A “seleção nacional” e a figura de destaque da Universidade de Tsinghua no setor de modelos de grande escala estão aprofundando seu alinhamento estratégico. Em 1º de março de 2026, de acordo com os da
O Grupo Taotian acelera a reestruturação voltada para a IA e concede cotas de tokens gratuitas aos estagiários
O Grupo TaoTian lançou recentemente o “Plano de Produtividade em IA”, concebido para acelerar a integração da tecnologia de IA nas operações de comércio eletrônico e nos fluxos de trabalho de P&D por
A Glean mira a infraestrutura de IA corporativa em sua estratégia de expansão
A corrida pelo domínio da IA empresarial está se intensificando. A Microsoft está incorporando o Copilot ao Office, o Google está integrando o Gemini ao Workspace, e tanto a OpenAI quanto a Anthropic
Recomendações de tópicos especiais relacionados
Comentários (2)
這篇文章點出了一個有趣的矛盾:AI能寫出複雜的論文,卻可能在簡單的邏輯謎題上卡住。這讓我想到,人類的智慧是不是也常在某些『顯而易見』的小事上犯錯?模型的這種『偏科』特性,或許正是它還需要更多『常識』訓練的訊號。期待看到它們在推理上更均衡的發展!🧠

A inteligência artificial progrediu notavelmente, com os Modelos de Linguagem de Grande Porte (LLMs) e seus primos mais avançados, os Modelos de Raciocínio de Grande Porte (LRMs), mudando fundamentalmente a forma como as máquinas processam e geram texto. Esses modelos podem redigir ensaios, responder a perguntas e até mesmo resolver problemas matemáticos. No entanto, surge um padrão curioso: eles frequentemente complicam demais tarefas simples, enquanto esbarram em um obstáculo com tarefas altamente complexas. Uma pesquisa recente da Apple lança uma nova luz sobre esse comportamento. Este artigo investiga o “porquê” por trás disso e o que isso significa para o futuro da IA.
Entendendo LLMs e LRMs
Para compreender esse comportamento, devemos primeiro definir esses modelos. LLMs como o GPT-3 são treinados em enormes conjuntos de dados de texto para prever a próxima palavra em uma sequência, destacando-se na geração, tradução e resumo. No entanto, eles não são inerentemente construídos para dedução lógica ou resolução estruturada de problemas.
Os LRM visam preencher essa lacuna. Eles empregam técnicas como o prompt Chain-of-Thought, em que o modelo descreve etapas intermediárias de raciocínio antes de uma resposta final — semelhante a um ser humano resolvendo um problema matemático passo a passo. Embora isso aumente o desempenho em tarefas complexas, o estudo da Apple revela desafios quando a complexidade do problema varia.
O estudo de pesquisa
A equipe da Apple desenvolveu um método de avaliação inovador. Indo além dos benchmarks tradicionais de matemática ou codificação — que podem sofrer contaminação de dados quando os modelos memorizam as respostas —, eles usaram ambientes controlados de quebra-cabeças. Estes incluíram clássicos como a Torre de Hanói, Checker Jumping, River Crossing e Blocks World. Na Torre de Hanói, por exemplo, os discos devem ser movidos entre os pinos de acordo com regras específicas, com a complexidade aumentando à medida que mais discos são adicionados. Ao variar sistematicamente a dificuldade dos quebra-cabeças, mantendo a lógica consistente, os pesquisadores puderam observar o desempenho do modelo em um amplo espectro. Essa abordagem permitiu a análise não apenas das respostas finais, mas do próprio processo de raciocínio, oferecendo uma visão de como esses modelos “pensam”.
Conclusões sobre pensar demais e desistir
O estudo identificou três fases distintas de desempenho relacionadas à complexidade:
- Para problemas de baixa complexidade, os LLMs padrão geralmente superam os LRMs. Os LRMs tendem a pensar demais, gerando etapas extras desnecessárias, enquanto os LLMs padrão respondem de forma mais direta e eficiente.
- Em complexidade média, os LRMs se destacam. Sua capacidade de produzir traços de raciocínio detalhados os ajuda a navegar por esses desafios com eficácia.
- Em alta complexidade, ambos os tipos de modelo falham completamente. Os LRMs, em particular, mostram um colapso dramático na precisão e, paradoxalmente, reduzem seu esforço de raciocínio à medida que a dificuldade aumenta.
Para quebra-cabeças simples, como a Torre de Hanói de dois discos, os LLMs padrão forneceram respostas corretas com eficiência. Os LRMs, no entanto, muitas vezes pensaram demais, produzindo raciocínios longos para soluções diretas. Isso sugere que os LRMs podem estar imitando explicações exageradas de seus dados de treinamento, levando à ineficiência.
Em cenários moderadamente complexos, os LRMs tiveram o melhor desempenho. Seu raciocínio passo a passo permitiu que eles lidassem com problemas lógicos de várias etapas, superando os LLMs padrão, que tiveram dificuldades com a coerência.
Para quebra-cabeças altamente complexos, como uma Torre de Hanói com muitos discos, ambos os modelos falharam. Curiosamente, os LRMs reduziram seu esforço de raciocínio, apesar de terem recursos computacionais suficientes. Esse comportamento de “desistência” aponta para uma limitação fundamental na escalabilidade de suas capacidades de raciocínio.
Por que isso acontece
O excesso de raciocínio em quebra-cabeças simples provavelmente decorre do treinamento. Esses modelos aprendem com enormes conjuntos de dados que contêm explicações concisas e detalhadas. Para problemas fáceis, eles podem gerar traços detalhados por padrão, refletindo exemplos longos em seu treinamento, mesmo quando uma resposta direta funcionaria. Isso não é necessariamente uma falha, mas um reflexo do treinamento que prioriza a demonstração do raciocínio em vez da eficiência pura.
O fracasso em quebra-cabeças complexos destaca a incapacidade de generalizar regras lógicas. À medida que a complexidade aumenta, sua dependência da correspondência de padrões se rompe, levando a um raciocínio inconsistente e ao colapso do desempenho. O estudo descobriu que os LRMs não conseguem empregar algoritmos explícitos e raciocinam de forma inconsistente entre os quebra-cabeças. Isso ressalta que, embora esses modelos possam simular o raciocínio, eles não compreendem verdadeiramente a lógica subjacente como os humanos.
Perspectivas diversas
O estudo gerou debate na comunidade de IA. Alguns especialistas alertam contra interpretações errôneas, argumentando que, embora os LLMs e LRMs possam não raciocinar como os humanos, sua resolução de problemas dentro de certos limites continua sendo valiosa. Eles afirmam que o “raciocínio” da IA não precisa espelhar a cognição humana para ser útil. Discussões em plataformas como o Hacker News elogiam o rigor do estudo, mas enfatizam a necessidade de mais pesquisas para avançar o raciocínio da IA. Essas opiniões destacam a conversa em andamento sobre o que constitui o raciocínio na IA e a melhor forma de avaliá-lo.
Implicações e direções futuras
As descobertas têm um peso significativo para o desenvolvimento da IA. Embora os LRMs marquem um progresso na imitação do raciocínio humano, suas dificuldades com a complexidade e o esforço de dimensionamento mostram que os modelos atuais estão longe de alcançar um raciocínio generalizável. Isso ressalta a necessidade de novos métodos de avaliação focados na qualidade e adaptabilidade do processo de raciocínio, não apenas na precisão da resposta final.
Trabalhos futuros devem aprimorar a capacidade dos modelos de executar etapas lógicas com precisão e ajustar dinamicamente o esforço de raciocínio com base na dificuldade. O desenvolvimento de benchmarks baseados em tarefas do mundo real — como diagnóstico médico ou análise jurídica — pode oferecer insights mais significativos. Fundamentalmente, reduzir a dependência excessiva do reconhecimento de padrões e melhorar a generalização das regras lógicas será essencial para o avanço do raciocínio da IA.
Conclusão
Este estudo oferece uma visão crítica das capacidades de raciocínio dos LLMs e LRMs. Ele mostra que esses modelos podem analisar excessivamente quebra-cabeças simples, mas falham em quebra-cabeças complexos, revelando tanto seu potencial quanto seus limites. Embora eficazes em contextos específicos, seu fracasso em problemas altamente complexos ressalta a lacuna entre o raciocínio simulado e a compreensão genuína. A pesquisa enfatiza a necessidade imperativa de desenvolver sistemas de IA que possam raciocinar de forma adaptativa em todos os níveis de complexidade, enfrentando desafios variados da mesma forma que os seres humanos.
A China Telecom investe na Mianbi Intelligence e aumenta o capital para 713.000 yuans para LLM e infraestrutura de dados
A “seleção nacional” e a figura de destaque da Universidade de Tsinghua no setor de modelos de grande escala estão aprofundando seu alinhamento estratégico. Em 1º de março de 2026, de acordo com os da
O Grupo Taotian acelera a reestruturação voltada para a IA e concede cotas de tokens gratuitas aos estagiários
O Grupo TaoTian lançou recentemente o “Plano de Produtividade em IA”, concebido para acelerar a integração da tecnologia de IA nas operações de comércio eletrônico e nos fluxos de trabalho de P&D por
A Glean mira a infraestrutura de IA corporativa em sua estratégia de expansão
A corrida pelo domínio da IA empresarial está se intensificando. A Microsoft está incorporando o Copilot ao Office, o Google está integrando o Gemini ao Workspace, e tanto a OpenAI quanto a Anthropic
這篇文章點出了一個有趣的矛盾:AI能寫出複雜的論文,卻可能在簡單的邏輯謎題上卡住。這讓我想到,人類的智慧是不是也常在某些『顯而易見』的小事上犯錯?模型的這種『偏科』特性,或許正是它還需要更多『常識』訓練的訊號。期待看到它們在推理上更均衡的發展!🧠





Lar






