opção
Lar
Notícias
Estudo da Microsoft revela que mais tokens de IA aumentam os erros de raciocínio

Estudo da Microsoft revela que mais tokens de IA aumentam os erros de raciocínio

29 de Setembro de 2025
1

Insights emergentes sobre a eficiência do raciocínio do LLM

Uma nova pesquisa da Microsoft demonstra que as técnicas avançadas de raciocínio em modelos de linguagem grandes não produzem melhorias uniformes em diferentes sistemas de IA. Seu estudo inovador analisou como nove modelos de base líderes responderam a várias abordagens de dimensionamento durante a inferência.

Avaliação dos métodos de dimensionamento do tempo de inferência

A equipe de pesquisa implementou uma metodologia de teste rigorosa em três técnicas de escalonamento distintas:

  • Solicitação tradicional de cadeia de raciocínio
  • Geração paralela de respostas com agregação
  • Refinamento sequencial por meio de loops de feedback
Estrutura experimental para avaliar o desempenho do raciocínio

Oito benchmarks abrangentes forneceram cenários de teste desafiadores em várias disciplinas, incluindo matemática, raciocínio científico, solução de problemas complexos e análise espacial. Várias avaliações apresentaram níveis de dificuldade graduados para examinar como o desempenho se adapta à complexidade do problema.

Principais descobertas sobre o desempenho de raciocínio

A avaliação abrangente produziu várias percepções importantes para os profissionais de IA:

  • Os ganhos de desempenho das técnicas de escalonamento variam drasticamente de acordo com a arquitetura do modelo e o domínio da tarefa
  • Respostas mais longas não se correlacionam consistentemente com soluções melhores
  • Os custos de computação flutuam de forma imprevisível, mesmo para consultas idênticas
  • Os modelos tradicionais podem, às vezes, corresponder a modelos de raciocínio especializados por meio de escalonamento extensivo
  • Os mecanismos de verificação são promissores para aumentar a eficiência
Desempenho versus custo computacional entre modelos e tarefas

Implicações práticas para o desenvolvimento de IA

Essas descobertas têm implicações significativas para a implementação da IA empresarial:

A previsibilidade de custos surge como um grande desafio, com o uso de tokens mostrando alta variação mesmo para respostas corretas. "Os desenvolvedores precisam de modelos com padrões de computação consistentes", observa a pesquisadora da Microsoft Besmira Nushi.

A pesquisa também identifica o comprimento da resposta como um indicador em potencial da confiança do modelo, com respostas excessivamente longas, muitas vezes sinalizando soluções incorretas além de certos limites.

Padrões de escala de inferência no desempenho do GPT-4o

O futuro dos sistemas de raciocínio eficientes

O estudo destaca várias direções promissoras para o desenvolvimento futuro:

"Os mecanismos de verificação podem transformar a forma como abordamos os problemas de raciocínio", explica Nushi, sugerindo que os sistemas de validação empresarial existentes podem ser adaptados para aplicativos de IA. Essa integração permitiria que as interfaces de linguagem natural aproveitassem a lógica de validação especializada.

A pesquisa ressalta a necessidade crescente de soluções que equilibrem a precisão do raciocínio com custos computacionais previsíveis à medida que os sistemas de IA assumem tarefas cada vez mais complexas no mundo real.

Artigo relacionado
Por que os LLMs ignoram as instruções e como corrigi-las de forma eficaz Por que os LLMs ignoram as instruções e como corrigi-las de forma eficaz Entendendo por que os modelos de linguagem grande ignoram as instruçõesOs modelos de linguagem grande (LLMs) transformaram a forma como interagimos com a IA, permitindo aplicativos avançados que vão
O aplicativo Gemini do Google adiciona vídeo com IA em tempo real, Deep Research e novos recursos (120 caracteres) O aplicativo Gemini do Google adiciona vídeo com IA em tempo real, Deep Research e novos recursos (120 caracteres) O Google revelou melhorias significativas no Gemini AI durante sua conferência de desenvolvedores I/O 2025, expandindo os recursos multimodais, introduzindo modelos de IA de última geração e fortalece
O Google Cloud potencializa os avanços na pesquisa e descoberta científicas O Google Cloud potencializa os avanços na pesquisa e descoberta científicas A revolução digital está transformando as metodologias científicas por meio de recursos computacionais sem precedentes. As tecnologias de ponta agora aumentam as estruturas teóricas e os experimentos
Comentários (0)
0/200
De volta ao topo
OR