Gaia apresenta um novo benchmark em busca por verdadeira inteligência além do Arc-Agi
A inteligência está em toda parte, mas avaliá -la com precisão com vontade de tentar pegar uma nuvem com as próprias mãos. Usamos testes e referências, como exames de admissão na faculdade, para ter uma idéia difícil. A cada ano, os alunos abrigam esses testes, às vezes até marcando 100%. Mas essa pontuação perfeita significa que todos eles possuem o mesmo nível de inteligência ou que atingiram o pico de seu potencial mental? Claro que não. Esses benchmarks são apenas estimativas difíceis, não indicadores precisos das verdadeiras habilidades de alguém.
No mundo da IA generativa, os benchmarks como a MMLU (compreensão massiva da linguagem de várias tarefas) foram o objetivo para avaliar modelos por meio de perguntas de múltipla escolha em vários campos acadêmicos. Enquanto permitem comparações fáceis, eles realmente não capturam todo o espectro de recursos inteligentes.
Veja Claude 3,5 sonetos e GPT-4.5, por exemplo. Eles podem marcar da mesma forma no MMLU, sugerindo que estão a par. Mas quem realmente usou esses modelos sabe que seu desempenho no mundo real pode ser bem diferente.
O que significa medir 'inteligência' na IA?
Com o recente lançamento da referência Arc-Agi, projetada para testar modelos de raciocínio geral e solução criativa de problemas, houve uma nova onda de discussão sobre o que significa medir a "inteligência" na IA. Nem todo mundo teve a chance de mergulhar no Arc-Agi ainda, mas a indústria está zumbindo sobre essa e outras novas abordagens para testar. Cada benchmark tem seu lugar, e o Arc-Agi é um passo na direção certa.
Outro desenvolvimento emocionante é o "último exame da humanidade", uma referência abrangente com 3.000 perguntas de várias etapas revisadas por pares, abrangendo diferentes disciplinas. É um esforço ambicioso para levar os sistemas de IA ao raciocínio de nível especializado. Os primeiros resultados mostram um rápido progresso, com o OpenAI atingindo uma pontuação de 26,6% apenas um mês após o seu lançamento. Mas, como outros benchmarks, ele se concentra principalmente no conhecimento e no raciocínio no vácuo, não nas habilidades práticas e de uso de ferramentas que são vitais para as aplicações de IA do mundo real.
Tomemos, por exemplo, como alguns modelos de topo lutam com tarefas simples, como contar os "r" s em "morango" ou comparar 3,8 a 3.1111. Esses erros, que mesmo uma criança ou uma calculadora básica podem evitar, destacam a lacuna entre o sucesso de referência e a confiabilidade do mundo real. É um lembrete de que a inteligência não é apenas sobre testes de aching; Trata -se de navegar na lógica cotidiana com facilidade.

O novo padrão para medir a capacidade de IA
À medida que os modelos de IA evoluíram, as limitações dos benchmarks tradicionais se tornaram mais aparentes. Por exemplo, o GPT-4, quando equipado com ferramentas, obtém apenas 15% nas tarefas mais complexas do mundo real no benchmark GAIA, apesar de suas altas pontuações em testes de múltipla escolha.
Essa discrepância entre o desempenho da referência e a capacidade prática é cada vez mais problemática, à medida que os sistemas de IA fazem a transição de laboratórios de pesquisa para aplicativos de negócios. Os benchmarks tradicionais testam o quão bem um modelo pode recuperar as informações, mas geralmente ignora aspectos -chave da inteligência, como a capacidade de coletar dados, executar código, analisar informações e criar soluções em vários domínios.
Entre no GAIA, uma nova referência que marca uma mudança significativa na avaliação da IA. Desenvolvido por meio de uma colaboração entre equipes da Meta-Fair, Meta-Genai, Huggingface e AutoGPT, Gaia inclui 466 perguntas meticulosamente criadas em três níveis de dificuldade. Essas perguntas testam uma ampla gama de habilidades essenciais para aplicativos de IA do mundo real, incluindo navegação na Web, entendimento multimodal, execução de código, manipulação de arquivos e raciocínio complexo.
As perguntas de nível 1 normalmente exigem cerca de 5 etapas e uma ferramenta para os humanos resolverem. As perguntas de nível 2 precisam de 5 a 10 etapas e várias ferramentas, enquanto as perguntas do nível 3 podem exigir até 50 etapas e qualquer número de ferramentas. Essa estrutura reflete a complexidade dos problemas comerciais reais, onde as soluções geralmente envolvem várias ações e ferramentas.
Ao se concentrar na flexibilidade, e não apenas na complexidade, um modelo de IA alcançou uma taxa de precisão de 75%em Gaia, superando líderes da indústria como o Magnetic-1 da Microsoft (38%) e o agente Langfun do Google (49%). Esse sucesso vem do uso de uma mistura de modelos especializados para entender e raciocínio audiovisual, com o Sonnet 3.5 da Anthropic como o modelo principal.
Essa mudança na avaliação da IA reflete uma tendência mais ampla no setor: estamos nos afastando de aplicativos de SaaS independentes para agentes de IA que podem gerenciar várias ferramentas e fluxos de trabalho. À medida que as empresas dependem cada vez mais da IA para enfrentar tarefas complexas e de várias etapas, os benchmarks como a GAIA oferecem uma medida mais relevante de capacidade do que os testes tradicionais de múltipla escolha.
O futuro da avaliação da IA não é sobre testes de conhecimento isolados; É sobre avaliações abrangentes da capacidade de solução de problemas. Gaia define uma nova referência para medir a capacidade de IA-que se alinha melhor com os desafios e oportunidades do mundo real da implantação de IA.
Sri Ambati é o fundador e CEO da H2O.ai.
Artigo relacionado
谷歌AI躍升內幕:Gemini 2.5 思維更深、表達更智能且編碼更快
谷歌朝著通用AI助手的願景邁進一步在今年的Google I/O大會上,該公司揭示了其Gemini 2.5系列的重大升級,特別是在多個維度上提升其能力。最新的版本——Gemini 2.5 Flash和2.5 Pro——現在比以往更加聰明和高效。這些進步使谷歌更接近實現其創造通用AI助手的願景,這個助手能夠無縫理解情境、計劃並執行任務。### Gemini 2.
深度認知發布開源AI模型,已名列前茅
深度思睿推出革命性的人工智能模型旧金山一家尖端的人工智能研究初创公司深度思睿(Deep Cogito)正式发布了其首批开源大型语言模型(LLMs),命名为思睿v1。这些模型经过微调自Meta的Llama 3.2,具备混合推理能力,能够快速响应或进行内省思考——这一功能让人联想到OpenAI的“o”系列和DeepSeek R1。深度思睿旨在通过在其模型中促进迭
微軟在Build 2025大會上宣布推出超過50款AI工具打造『主動網路』
微軟於Build大會揭開開放式自主網路願景今天早上,微軟在其年度Build大會上發表了一項大膽宣言:「開放式自主網路」的黎明已經到來。在超過50項公告的廣泛陣容中,這家科技巨頭概述了一項全面策略,將自己置於這個轉型運動的核心位置。從GitHub到Azure,從Windows到Microsoft 365,每條產品線都收到了旨在推動AI代理技術進步的更新。這些代
Comentários (0)
0/200
A inteligência está em toda parte, mas avaliá -la com precisão com vontade de tentar pegar uma nuvem com as próprias mãos. Usamos testes e referências, como exames de admissão na faculdade, para ter uma idéia difícil. A cada ano, os alunos abrigam esses testes, às vezes até marcando 100%. Mas essa pontuação perfeita significa que todos eles possuem o mesmo nível de inteligência ou que atingiram o pico de seu potencial mental? Claro que não. Esses benchmarks são apenas estimativas difíceis, não indicadores precisos das verdadeiras habilidades de alguém.
No mundo da IA generativa, os benchmarks como a MMLU (compreensão massiva da linguagem de várias tarefas) foram o objetivo para avaliar modelos por meio de perguntas de múltipla escolha em vários campos acadêmicos. Enquanto permitem comparações fáceis, eles realmente não capturam todo o espectro de recursos inteligentes.
Veja Claude 3,5 sonetos e GPT-4.5, por exemplo. Eles podem marcar da mesma forma no MMLU, sugerindo que estão a par. Mas quem realmente usou esses modelos sabe que seu desempenho no mundo real pode ser bem diferente.
O que significa medir 'inteligência' na IA?
Com o recente lançamento da referência Arc-Agi, projetada para testar modelos de raciocínio geral e solução criativa de problemas, houve uma nova onda de discussão sobre o que significa medir a "inteligência" na IA. Nem todo mundo teve a chance de mergulhar no Arc-Agi ainda, mas a indústria está zumbindo sobre essa e outras novas abordagens para testar. Cada benchmark tem seu lugar, e o Arc-Agi é um passo na direção certa.
Outro desenvolvimento emocionante é o "último exame da humanidade", uma referência abrangente com 3.000 perguntas de várias etapas revisadas por pares, abrangendo diferentes disciplinas. É um esforço ambicioso para levar os sistemas de IA ao raciocínio de nível especializado. Os primeiros resultados mostram um rápido progresso, com o OpenAI atingindo uma pontuação de 26,6% apenas um mês após o seu lançamento. Mas, como outros benchmarks, ele se concentra principalmente no conhecimento e no raciocínio no vácuo, não nas habilidades práticas e de uso de ferramentas que são vitais para as aplicações de IA do mundo real.
Tomemos, por exemplo, como alguns modelos de topo lutam com tarefas simples, como contar os "r" s em "morango" ou comparar 3,8 a 3.1111. Esses erros, que mesmo uma criança ou uma calculadora básica podem evitar, destacam a lacuna entre o sucesso de referência e a confiabilidade do mundo real. É um lembrete de que a inteligência não é apenas sobre testes de aching; Trata -se de navegar na lógica cotidiana com facilidade.
O novo padrão para medir a capacidade de IA
À medida que os modelos de IA evoluíram, as limitações dos benchmarks tradicionais se tornaram mais aparentes. Por exemplo, o GPT-4, quando equipado com ferramentas, obtém apenas 15% nas tarefas mais complexas do mundo real no benchmark GAIA, apesar de suas altas pontuações em testes de múltipla escolha.
Essa discrepância entre o desempenho da referência e a capacidade prática é cada vez mais problemática, à medida que os sistemas de IA fazem a transição de laboratórios de pesquisa para aplicativos de negócios. Os benchmarks tradicionais testam o quão bem um modelo pode recuperar as informações, mas geralmente ignora aspectos -chave da inteligência, como a capacidade de coletar dados, executar código, analisar informações e criar soluções em vários domínios.
Entre no GAIA, uma nova referência que marca uma mudança significativa na avaliação da IA. Desenvolvido por meio de uma colaboração entre equipes da Meta-Fair, Meta-Genai, Huggingface e AutoGPT, Gaia inclui 466 perguntas meticulosamente criadas em três níveis de dificuldade. Essas perguntas testam uma ampla gama de habilidades essenciais para aplicativos de IA do mundo real, incluindo navegação na Web, entendimento multimodal, execução de código, manipulação de arquivos e raciocínio complexo.
As perguntas de nível 1 normalmente exigem cerca de 5 etapas e uma ferramenta para os humanos resolverem. As perguntas de nível 2 precisam de 5 a 10 etapas e várias ferramentas, enquanto as perguntas do nível 3 podem exigir até 50 etapas e qualquer número de ferramentas. Essa estrutura reflete a complexidade dos problemas comerciais reais, onde as soluções geralmente envolvem várias ações e ferramentas.
Ao se concentrar na flexibilidade, e não apenas na complexidade, um modelo de IA alcançou uma taxa de precisão de 75%em Gaia, superando líderes da indústria como o Magnetic-1 da Microsoft (38%) e o agente Langfun do Google (49%). Esse sucesso vem do uso de uma mistura de modelos especializados para entender e raciocínio audiovisual, com o Sonnet 3.5 da Anthropic como o modelo principal.
Essa mudança na avaliação da IA reflete uma tendência mais ampla no setor: estamos nos afastando de aplicativos de SaaS independentes para agentes de IA que podem gerenciar várias ferramentas e fluxos de trabalho. À medida que as empresas dependem cada vez mais da IA para enfrentar tarefas complexas e de várias etapas, os benchmarks como a GAIA oferecem uma medida mais relevante de capacidade do que os testes tradicionais de múltipla escolha.
O futuro da avaliação da IA não é sobre testes de conhecimento isolados; É sobre avaliações abrangentes da capacidade de solução de problemas. Gaia define uma nova referência para medir a capacidade de IA-que se alinha melhor com os desafios e oportunidades do mundo real da implantação de IA.
Sri Ambati é o fundador e CEO da H2O.ai.












