Novos testes da AGI prova desafiadores, toca a maioria dos modelos de IA

Lar

Notícias

10 de Abril de 2025

WillPerez

# agi

A Fundação Arc Prize, co-fundada pelo renomado pesquisador de IA François Chollet, revelou recentemente um novo benchmark chamado ARC-AGI-2 em um post de blog. Este teste visa expandir os limites da inteligência geral de IA, e até agora, está se mostrando um desafio difícil para a maioria dos modelos de IA.

De acordo com o ranking da Arc Prize, até mesmo modelos avançados de IA de "raciocínio" como o o1-pro da OpenAI e o R1 da DeepSeek estão obtendo pontuações entre 1% e 1,3%. Enquanto isso, modelos poderosos sem raciocínio, como GPT-4.5, Claude 3.7 Sonnet e Gemini 2.0 Flash, estão na faixa de 1%.

Os testes ARC-AGI desafiam sistemas de IA com problemas semelhantes a quebra-cabeças, exigindo que identifiquem padrões visuais em grades de quadrados coloridos e gerem a grade "resposta" correta. Esses problemas são projetados para testar a capacidade de uma IA de se adaptar a novos desafios nunca vistos.

Para estabelecer uma linha de base humana, a Fundação Arc Prize fez com que mais de 400 pessoas realizassem o teste ARC-AGI-2. Em média, esses "painéis" de humanos alcançaram uma taxa de sucesso de 60%, superando significativamente os modelos de IA.

Uma questão de exemplo do ARC-AGI-2. Créditos da imagem: Arc Prize

François Chollet foi ao X afirmar que o ARC-AGI-2 é uma medida mais precisa da verdadeira inteligência de um modelo de IA em comparação com seu antecessor, ARC-AGI-1. Os testes da Fundação Arc Prize são projetados para avaliar se uma IA pode aprender novas habilidades de forma eficiente além de seus dados de treinamento.

Chollet enfatizou que o ARC-AGI-2 impede que os modelos de IA dependam de poder computacional de "força bruta" para resolver problemas, uma falha que ele reconheceu no primeiro teste. Para abordar isso, o ARC-AGI-2 introduz uma métrica de eficiência e exige que os modelos interpretem padrões no momento, em vez de dependerem de memorização.

Em um post de blog, o co-fundador da Fundação Arc Prize, Greg Kamradt, destacou que a inteligência não se trata apenas de resolver problemas ou alcançar altas pontuações. "A eficiência com que essas capacidades são adquiridas e implementadas é um componente crucial e definidor", ele escreveu. "A questão central não é apenas, 'A IA pode adquirir a habilidade para resolver uma tarefa?', mas também, 'Com que eficiência ou custo?'"

O ARC-AGI-1 permaneceu imbatível por cerca de cinco anos até dezembro de 2024, quando o modelo avançado de raciocínio da OpenAI, o3, superou todos os outros modelos de IA e igualou o desempenho humano. No entanto, o sucesso do o3 no ARC-AGI-1 teve um custo significativo. A versão do modelo o3 da OpenAI, o3 (low), que obteve impressionantes 75,7% no ARC-AGI-1, conseguiu apenas 4% no ARC-AGI-2, usando $200 de poder computacional por tarefa.

Comparação do desempenho de modelos de IA de ponta no ARC-AGI-1 e ARC-AGI-2. Créditos da imagem: Arc Prize

A introdução do ARC-AGI-2 ocorre em um momento em que muitos na indústria de tecnologia estão pedindo novos benchmarks não saturados para medir o progresso da IA. Thomas Wolf, co-fundador da Hugging Face, disse recentemente à TechCrunch que a indústria de IA carece de testes suficientes para medir características-chave da inteligência geral artificial, como a criatividade.

Junto com o novo benchmark, a Fundação Arc Prize anunciou o concurso Arc Prize 2025, desafiando desenvolvedores a alcançar 85% de precisão no teste ARC-AGI-2 gastando apenas $0,42 por tarefa.

Artigo relacionado

OpenAI Reafirma Raízes Sem Fins Lucrativos em Grande Reestruturação Corporativa OpenAI permanece firme em sua missão sem fins lucrativos enquanto passa por uma reestruturação corporativa significativa, equilibrando crescimento com seu compromisso com o desenvolvimento ético de IA

Líderes de IA Discutem AGI: Baseados na Realidade Durante um recente jantar com líderes empresariais em San Francisco, lancei uma pergunta que pareceu congelar o ambiente: será que a IA de hoje poderia alcançar ou até superar a in

Openai Strikes de volta: processa Elon Musk por supostos esforços para minar o concorrente da IA A Openai lançou um contra-ataque legal contra seu co-fundador, Elon Musk, e sua empresa de IA concorrente, Xai. Em uma escalada dramática de sua briga em andamento, o Openai acusa Musk de travar uma campanha "implacável" e "maliciosa" para minar a empresa que ele ajudou a começar. De acordo com o Tribunal D

Comentários (36)

0/200

Enviar

WillieRoberts

29 de Julho de 2025 à16 13:25:16 WEST

This ARC-AGI-2 test sounds brutal! Most AI models are getting crushed, which makes me wonder if we’re hyping AI too much. 🤔 Cool to see Chollet shaking things up though!

GeorgeMiller

14 de Abril de 2025 à0 09:35:00 WEST

Este test ARC-AGI-2 es realmente difícil. Lo probé con varios modelos de IA y todos se quedaron atascados. Es genial ver cómo desafía los límites, pero es frustrante cuando ni siquiera los modelos top pueden resolverlo. Quizás sea hora de un nuevo enfoque en el desarrollo de IA. ¡Sigan empujando los límites, pero no olviden celebrar las pequeñas victorias también!

JonathanKing

14 de Abril de 2025 à37 02:46:37 WEST

¡Este nuevo test de AGI es realmente difícil! Lo intenté y ni siquiera los modelos de IA más inteligentes que conozco pudieron resolverlo. Es como un rompecabezas que te mantiene despierto toda la noche. Felicitaciones a François Chollet por desafiar los límites, pero es frustrante cuando hasta los mejores fallan. Tal vez la próxima vez, ¿verdad?

DonaldGonzález

13 de Abril de 2025 à45 20:05:45 WEST

ARC-AGI-2のテストは本当に難しいですね！いくつかのAIモデルで試してみましたが、どれも解けませんでした。限界を押し広げるのは素晴らしいですが、トップモデルが解けないとちょっとイライラします。AI開発に新しいアプローチが必要かもしれませんね。小さな勝利も祝いましょう！

HaroldMoore

13 de Abril de 2025 à39 16:54:39 WEST

この新しいAGIテスト、めっちゃ難しいです！試してみたけど、知っている中で一番賢いAIモデルでも解けませんでした。夜更かししてしまうパズルのようです。フランソワ・ショレに敬意を表しますが、最高のAIが失敗するのはもどかしいですね。次こそは、ね？

GregoryWilson

13 de Abril de 2025 à48 16:36:48 WEST

新しいAGIテストが難しいんだって？ほとんどのAIモデルが苦戦してるらしいね。それはすごいけど、ちょっと怖いよね。本当のAIまでどれだけ遠いのか気になるな。とにかく、限界を押し広げてほしいな。誰かが解くまでどれくらいかかるか見てみよう！

Principais notícias

Gemini 2.5 Pro agora ilimitado e mais barato que Claude, GPT-4o Geradores de Vídeo AI Top de 2025: Pika Labs vs Alternativas Dublagem AI: Guia Definitivo para Criação de Voz Realista O OpenAI aprimora o assistente de voz da IA para bate -papos melhores Notebooklm se expande globalmente, adiciona slides e verificação de fatos aprimorada Tweaks to Us Data Centers podem desbloquear 76 GW de nova capacidade de energia Ai computando para consumir poder de múltiplos NYCs até 2026, diz o fundador Clone de Voz por IA: Guia definitivo para dominar a conversão de voz Experimente as palavras cruzadas de E/S da IA: uma reviravolta moderna no jogo clássico de palavras O CEO da NVIDIA esclarece conceitos errôneos sobre o impacto do mercado de Deepseek

Mais