Lar Notícias Gaia apresenta um novo benchmark em busca por verdadeira inteligência além do Arc-Agi

Gaia apresenta um novo benchmark em busca por verdadeira inteligência além do Arc-Agi

2 de Maio de 2025
MatthewCarter
0

A inteligência está em toda parte, mas avaliá -la com precisão com vontade de tentar pegar uma nuvem com as próprias mãos. Usamos testes e referências, como exames de admissão na faculdade, para ter uma idéia difícil. A cada ano, os alunos abrigam esses testes, às vezes até marcando 100%. Mas essa pontuação perfeita significa que todos eles possuem o mesmo nível de inteligência ou que atingiram o pico de seu potencial mental? Claro que não. Esses benchmarks são apenas estimativas difíceis, não indicadores precisos das verdadeiras habilidades de alguém.

No mundo da IA ​​generativa, os benchmarks como a MMLU (compreensão massiva da linguagem de várias tarefas) foram o objetivo para avaliar modelos por meio de perguntas de múltipla escolha em vários campos acadêmicos. Enquanto permitem comparações fáceis, eles realmente não capturam todo o espectro de recursos inteligentes.

Veja Claude 3,5 sonetos e GPT-4.5, por exemplo. Eles podem marcar da mesma forma no MMLU, sugerindo que estão a par. Mas quem realmente usou esses modelos sabe que seu desempenho no mundo real pode ser bem diferente.

O que significa medir 'inteligência' na IA?

Com o recente lançamento da referência Arc-Agi, projetada para testar modelos de raciocínio geral e solução criativa de problemas, houve uma nova onda de discussão sobre o que significa medir a "inteligência" na IA. Nem todo mundo teve a chance de mergulhar no Arc-Agi ainda, mas a indústria está zumbindo sobre essa e outras novas abordagens para testar. Cada benchmark tem seu lugar, e o Arc-Agi é um passo na direção certa.

Outro desenvolvimento emocionante é o "último exame da humanidade", uma referência abrangente com 3.000 perguntas de várias etapas revisadas por pares, abrangendo diferentes disciplinas. É um esforço ambicioso para levar os sistemas de IA ao raciocínio de nível especializado. Os primeiros resultados mostram um rápido progresso, com o OpenAI atingindo uma pontuação de 26,6% apenas um mês após o seu lançamento. Mas, como outros benchmarks, ele se concentra principalmente no conhecimento e no raciocínio no vácuo, não nas habilidades práticas e de uso de ferramentas que são vitais para as aplicações de IA do mundo real.

Tomemos, por exemplo, como alguns modelos de topo lutam com tarefas simples, como contar os "r" s em "morango" ou comparar 3,8 a 3.1111. Esses erros, que mesmo uma criança ou uma calculadora básica podem evitar, destacam a lacuna entre o sucesso de referência e a confiabilidade do mundo real. É um lembrete de que a inteligência não é apenas sobre testes de aching; Trata -se de navegar na lógica cotidiana com facilidade.

O novo padrão para medir a capacidade de IA

O novo padrão para medir a capacidade de IA

À medida que os modelos de IA evoluíram, as limitações dos benchmarks tradicionais se tornaram mais aparentes. Por exemplo, o GPT-4, quando equipado com ferramentas, obtém apenas 15% nas tarefas mais complexas do mundo real no benchmark GAIA, apesar de suas altas pontuações em testes de múltipla escolha.

Essa discrepância entre o desempenho da referência e a capacidade prática é cada vez mais problemática, à medida que os sistemas de IA fazem a transição de laboratórios de pesquisa para aplicativos de negócios. Os benchmarks tradicionais testam o quão bem um modelo pode recuperar as informações, mas geralmente ignora aspectos -chave da inteligência, como a capacidade de coletar dados, executar código, analisar informações e criar soluções em vários domínios.

Entre no GAIA, uma nova referência que marca uma mudança significativa na avaliação da IA. Desenvolvido por meio de uma colaboração entre equipes da Meta-Fair, Meta-Genai, Huggingface e AutoGPT, Gaia inclui 466 perguntas meticulosamente criadas em três níveis de dificuldade. Essas perguntas testam uma ampla gama de habilidades essenciais para aplicativos de IA do mundo real, incluindo navegação na Web, entendimento multimodal, execução de código, manipulação de arquivos e raciocínio complexo.

As perguntas de nível 1 normalmente exigem cerca de 5 etapas e uma ferramenta para os humanos resolverem. As perguntas de nível 2 precisam de 5 a 10 etapas e várias ferramentas, enquanto as perguntas do nível 3 podem exigir até 50 etapas e qualquer número de ferramentas. Essa estrutura reflete a complexidade dos problemas comerciais reais, onde as soluções geralmente envolvem várias ações e ferramentas.

Ao se concentrar na flexibilidade, e não apenas na complexidade, um modelo de IA alcançou uma taxa de precisão de 75%em Gaia, superando líderes da indústria como o Magnetic-1 da Microsoft (38%) e o agente Langfun do Google (49%). Esse sucesso vem do uso de uma mistura de modelos especializados para entender e raciocínio audiovisual, com o Sonnet 3.5 da Anthropic como o modelo principal.

Essa mudança na avaliação da IA ​​reflete uma tendência mais ampla no setor: estamos nos afastando de aplicativos de SaaS independentes para agentes de IA que podem gerenciar várias ferramentas e fluxos de trabalho. À medida que as empresas dependem cada vez mais da IA ​​para enfrentar tarefas complexas e de várias etapas, os benchmarks como a GAIA oferecem uma medida mais relevante de capacidade do que os testes tradicionais de múltipla escolha.

O futuro da avaliação da IA ​​não é sobre testes de conhecimento isolados; É sobre avaliações abrangentes da capacidade de solução de problemas. Gaia define uma nova referência para medir a capacidade de IA-que se alinha melhor com os desafios e oportunidades do mundo real da implantação de IA.

Sri Ambati é o fundador e CEO da H2O.ai.

Artigo relacionado
AI Startup Secures $7.5M to Revolutionize Commercial Insurance for 24M Underprotected Small Businesses in America AI Startup Secures $7.5M to Revolutionize Commercial Insurance for 24M Underprotected Small Businesses in America 1Fort, a New York-based startup, has secured a $7.5 million seed funding round to revolutionize how small businesses secure commercial insurance through its AI-driven platform. With a staggering 200% month-over-month revenue growth in 2024, 1Fort is set to overhaul the outdated manual processes that
Meta Defends Llama 4 Release, Cites Bugs as Cause of Mixed Quality Reports Meta Defends Llama 4 Release, Cites Bugs as Cause of Mixed Quality Reports Over the weekend, Meta, the powerhouse behind Facebook, Instagram, WhatsApp, and Quest VR, surprised everyone by unveiling their latest AI language model, Llama 4. Not just one, but three new versions were introduced, each boasting enhanced capabilities thanks to the "Mixture-of-Experts" architectur
Google launches Gemini in Android Studio for Businesses, making it easier for devs to design work apps Google launches Gemini in Android Studio for Businesses, making it easier for devs to design work apps Apple may still rule the U.S. smartphone market, but Google's Android OS has won over enterprises and businesses with its flexibility and affordability. A recent Stratix survey revealed that a whopping 60% of corporate devices now run on Android tech. And Google isn't stopping there; they're set on
Comentários (0)
0/200
Back to Top
OR