opção
Lar Notícias Novos testes da AGI prova desafiadores, toca a maioria dos modelos de IA

Novos testes da AGI prova desafiadores, toca a maioria dos modelos de IA

Data de lançamento Data de lançamento 10 de Abril de 2025
Autor Autor WillPerez
visualizações visualizações 37

A Fundação do Prêmio da Arc, co-fundada pelo renomado pesquisador da IA ​​François Chollet, apresentou recentemente um novo benchmark chamado Arc-Agi-2 em uma postagem no blog. Este teste tem como objetivo ultrapassar os limites da inteligência geral da IA ​​e, até agora, está provando ser uma porca difícil de quebrar para a maioria dos modelos de IA.

De acordo com a tabela de líderes do ARC Prêmio, até modelos avançados de "raciocínio" de IA, como O1-Pro da OpenAI e o R1 da Deepseek, estão apenas gerenciando pontuações entre 1% e 1,3%. Enquanto isso, modelos poderosos que não são racha como GPT-4.5, Claude 3,7 sonetos e flash Gemini 2.0 estão pairando em torno da marca de 1%.

Os testes ARC-AGI desafiam sistemas de IA com problemas semelhantes a quebra-cabeça, exigindo que eles identifiquem padrões visuais em grades de quadrados de cores diferentes e geram a grade correta de "resposta". Esses problemas foram projetados para testar a capacidade de uma IA de se adaptar a novos desafios invisíveis.

Para estabelecer uma linha de base humana, a Fundação do Prêmio da ARC fez com que mais de 400 pessoas fizessem o teste Arc-Agi-2. Em média, esses "painéis" de seres humanos alcançaram uma taxa de sucesso de 60%, superando significativamente os modelos de IA.

Uma pergunta de amostra do Arc-agi-.
François Chollet levou a X para afirmar que o ARC-Agi-2 é uma medida mais precisa da verdadeira inteligência de um modelo de IA em comparação com seu antecessor, o ARC-AGI-1. Os testes da ARC Prize Foundation foram projetados para avaliar se uma IA pode aprender com eficiência novas habilidades além de seus dados de treinamento.

Chollet enfatizou que o ARC-Agi-2 impede que os modelos de IA dependam do poder de computação "Força Bruta" para resolver problemas, uma falha que ele reconheceu no primeiro teste. Para abordar isso, o ARC-Agi-2 apresenta uma métrica de eficiência e requer modelos para interpretar padrões em tempo real, em vez de depender da memorização.

Em uma postagem no blog, o co-fundador da Arc Prize Foundation, Greg Kamradt, enfatizou que a inteligência não é apenas resolver problemas ou obter pontuações altas. "A eficiência com que esses recursos são adquiridos e implantados é um componente crucial e definidor", escreveu ele. "A pergunta principal que está sendo feita não é apenas: 'A IA pode adquirir [a] habilidade para resolver uma tarefa?' Mas também, 'a que eficiência ou custo?' "

O ARC-AGI-1 permaneceu invicto por cerca de cinco anos até dezembro de 2024, quando o modelo de raciocínio avançado do OpenAI, O3, superou todos os outros modelos de IA e combinou o desempenho humano. No entanto, o sucesso da O3 no ARC-AGI-1 teve um custo significativo. A versão do modelo O3 do OpenAI, O3 (Low), que obteve impressionantes 75,7% no ARC-AGI-1, conseguiu apenas 4% em relação ao ARC-Agi-2, usando US $ 200 em poder de computação por tarefa.

Comparação do desempenho do modelo de AI da fronteira no Arc-Agi-1 e Arc-agi-.
A introdução do ARC-Agi-2 ocorre em um momento em que muitos no setor de tecnologia estão pedindo novos benchmarks insaturados para medir o progresso da IA. Thomas Wolf, co-fundador da Hugging Face, disse recentemente ao TechCrunch que a indústria da IA ​​carece de testes suficientes para medir os principais traços de inteligência geral artificial, como a criatividade.

Juntamente com o novo benchmark, a Fundação do Prêmio da ARC anunciou o concurso do prêmio ARC 2025, desafiando os desenvolvedores a obter uma precisão de 85% no teste ARC-Agi-2, enquanto gasta apenas US $ 0,42 por tarefa.

Artigo relacionado
Openai反击:起诉Elon Musk涉嫌努力破坏AI竞争对手 Openai反击:起诉Elon Musk涉嫌努力破坏AI竞争对手 Openai对其联合创始人Elon Musk及其竞争的AI公司Xai发起了激烈的法律反击。在他们正在进行的争执的戏剧性升级中,Openai指责马斯克发动了一场“无情”和“恶意”运动,破坏了他帮助创办的公司。根据法院D
加速回报定律解释了:AGI开发途径 加速回报定律解释了:AGI开发途径 在最近的一次采访中,埃隆·马斯克(Elon Musk)分享了他对人工通用情报(AGI)的时间表的乐观观点(AGI),并指出它可能是 *“ 3至6年” *。同样,Google DeepMind的首席执行官Demis Hassabis在《华尔街日报》的《一切事物》上表达了
埃里克·施密特(Eric Sc​​hmidt)反对阿吉·曼哈顿(Agi Manhattan)项目 埃里克·施密特(Eric Sc​​hmidt)反对阿吉·曼哈顿(Agi Manhattan)项目 在周三发布的一份政策文件中,前Google首席执行官埃里克·施密特(Eric Sc​​hmidt)以及Scale AI首席执行官Alexandr Wang和AI安全总监Dan Hendrycks中心和AI安全总监Dan Hendrycks中心,建议不要发起曼哈顿项目风格的计划,以开发AI Systems,以“超级人类”的智慧开发AI System
Comentários (35)
0/200
StephenMartinez
StephenMartinez 10 de Abril de 2025 à48 15:27:48 GMT

The new AGI test from the Arc Prize Foundation is seriously tough! It's great to see AI being pushed to its limits, but man, it's humbling to see how many models can't crack it. François Chollet's work is always pushing the envelope. Keep at it, AI devs!

StevenSanchez
StevenSanchez 10 de Abril de 2025 à48 15:27:48 GMT

Arc Prize Foundationの新しいAGIテストは本当に難しいですね!AIが限界まで押し上げられるのは素晴らしいですが、多くのモデルがこれを解けないのを見るのは謙虚な気持ちになります。フランソワ・ショレの仕事はいつも新しい領域を開拓しています。頑張ってください、AI開発者たち!

AndrewHernández
AndrewHernández 10 de Abril de 2025 à48 15:27:48 GMT

Arc Prize Foundation의 새로운 AGI 테스트는 정말 어렵네요! AI가 한계까지 밀어붙여지는 것은 멋지지만, 많은 모델이 이것을 풀지 못하는 것을 보는 것은 겸손해지게 합니다. 프랑수아 쇼레의 작업은 항상 새로운 영역을 개척하고 있습니다. 계속 노력하세요, AI 개발자들!

BrianGarcia
BrianGarcia 10 de Abril de 2025 à48 15:27:48 GMT

O novo teste de AGI da Arc Prize Foundation é seriamente difícil! É ótimo ver a IA sendo levada ao seu limite, mas cara, é humilhante ver quantos modelos não conseguem resolvê-lo. O trabalho de François Chollet está sempre expandindo os limites. Continuem assim, desenvolvedores de IA!

GeorgeEvans
GeorgeEvans 10 de Abril de 2025 à48 15:27:48 GMT

¡El nuevo test de AGI de la Fundación Arc Prize es seriamente difícil! Es genial ver cómo se empuja a la IA hasta sus límites, pero hombre, es humilde ver cuántos modelos no pueden resolverlo. El trabajo de François Chollet siempre está empujando el sobre. ¡Sigan adelante, desarrolladores de IA!

StevenLopez
StevenLopez 11 de Abril de 2025 à46 00:18:46 GMT

This ARC-AGI-2 test is seriously tough! I tried it with a bunch of AI models and most of them just couldn't handle it. It's cool to see how it challenges the limits of AI, but man, it's frustrating when even the smart ones fail. Maybe next time, right?

De volta ao topo
OR