Estudo da Microsoft revela que mais tokens de IA aumentam os erros de raciocínio

Lar

Notícias

29 de Setembro de 2025

ArthurCarter

# Gemini # research # llama # gpt-4o # LLMs # o3-mini # o1

Insights emergentes sobre a eficiência do raciocínio do LLM

Uma nova pesquisa da Microsoft demonstra que as técnicas avançadas de raciocínio em modelos de linguagem grandes não produzem melhorias uniformes em diferentes sistemas de IA. Seu estudo inovador analisou como nove modelos de base líderes responderam a várias abordagens de dimensionamento durante a inferência.

Avaliação dos métodos de dimensionamento do tempo de inferência

A equipe de pesquisa implementou uma metodologia de teste rigorosa em três técnicas de escalonamento distintas:

Solicitação tradicional de cadeia de raciocínio
Geração paralela de respostas com agregação
Refinamento sequencial por meio de loops de feedback

Estrutura experimental para avaliar o desempenho do raciocínio

Oito benchmarks abrangentes forneceram cenários de teste desafiadores em várias disciplinas, incluindo matemática, raciocínio científico, solução de problemas complexos e análise espacial. Várias avaliações apresentaram níveis de dificuldade graduados para examinar como o desempenho se adapta à complexidade do problema.

Principais descobertas sobre o desempenho de raciocínio

A avaliação abrangente produziu várias percepções importantes para os profissionais de IA:

Os ganhos de desempenho das técnicas de escalonamento variam drasticamente de acordo com a arquitetura do modelo e o domínio da tarefa
Respostas mais longas não se correlacionam consistentemente com soluções melhores
Os custos de computação flutuam de forma imprevisível, mesmo para consultas idênticas
Os modelos tradicionais podem, às vezes, corresponder a modelos de raciocínio especializados por meio de escalonamento extensivo
Os mecanismos de verificação são promissores para aumentar a eficiência

Desempenho versus custo computacional entre modelos e tarefas

Implicações práticas para o desenvolvimento de IA

Essas descobertas têm implicações significativas para a implementação da IA empresarial:

A previsibilidade de custos surge como um grande desafio, com o uso de tokens mostrando alta variação mesmo para respostas corretas. "Os desenvolvedores precisam de modelos com padrões de computação consistentes", observa a pesquisadora da Microsoft Besmira Nushi.

A pesquisa também identifica o comprimento da resposta como um indicador em potencial da confiança do modelo, com respostas excessivamente longas, muitas vezes sinalizando soluções incorretas além de certos limites.

Padrões de escala de inferência no desempenho do GPT-4o

O futuro dos sistemas de raciocínio eficientes

O estudo destaca várias direções promissoras para o desenvolvimento futuro:

"Os mecanismos de verificação podem transformar a forma como abordamos os problemas de raciocínio", explica Nushi, sugerindo que os sistemas de validação empresarial existentes podem ser adaptados para aplicativos de IA. Essa integração permitiria que as interfaces de linguagem natural aproveitassem a lógica de validação especializada.

A pesquisa ressalta a necessidade crescente de soluções que equilibrem a precisão do raciocínio com custos computacionais previsíveis à medida que os sistemas de IA assumem tarefas cada vez mais complexas no mundo real.

Artigo relacionado

Por que os LLMs ignoram as instruções e como corrigi-las de forma eficaz Entendendo por que os modelos de linguagem grande ignoram as instruçõesOs modelos de linguagem grande (LLMs) transformaram a forma como interagimos com a IA, permitindo aplicativos avançados que vão

O aplicativo Gemini do Google adiciona vídeo com IA em tempo real, Deep Research e novos recursos (120 caracteres) O Google revelou melhorias significativas no Gemini AI durante sua conferência de desenvolvedores I/O 2025, expandindo os recursos multimodais, introduzindo modelos de IA de última geração e fortalece

O Google Cloud potencializa os avanços na pesquisa e descoberta científicas A revolução digital está transformando as metodologias científicas por meio de recursos computacionais sem precedentes. As tecnologias de ponta agora aumentam as estruturas teóricas e os experimentos

Comentários (0)

0/200

Enviar

Principais notícias

Gemini 2.5 Pro agora ilimitado e mais barato que Claude, GPT-4o Geradores de Vídeo AI Top de 2025: Pika Labs vs Alternativas Dublagem AI: Guia Definitivo para Criação de Voz Realista A IA de Cambium transforma a madeira desperdiçada em madeira serrada O OpenAI aprimora o assistente de voz da IA para bate -papos melhores Como garantir que seus dados sejam confiáveis para a integração de IA Notebooklm se expande globalmente, adiciona slides e verificação de fatos aprimorada Tweaks to Us Data Centers podem desbloquear 76 GW de nova capacidade de energia O Google utiliza a IA para suspender mais de 39 milhões de contas de anúncios por suspeita de fraude Clone de Voz por IA: Guia definitivo para dominar a conversão de voz

Mais

Apresentou