새로운 AGI 테스트는 도전적인 것으로 판명되고 대다수의 AI 모델
2025년 4월 10일
WillPerez
37
유명한 AI 연구원 인 François Chollet이 공동 설립 한 Arc Prize Foundation은 최근 블로그 게시물에서 ARC-AGI-2라는 새로운 벤치 마크를 공개했습니다. 이 테스트는 AI의 일반적인 지능의 경계를 넓히는 것을 목표로하며, 지금까지 대부분의 AI 모델에 대해 균열을 일으키기 어려운 견과류임을 입증하고 있습니다.
Arc Prize Leaderboard에 따르면, OpenAi의 O1-Pro 및 DeepSeek의 R1과 같은 Advanced "Ociding"AI 모델조차도 1%에서 1.3% 사이의 점수 만 관리하고 있습니다. 한편, GPT-4.5, Claude 3.7 Sonnet 및 Gemini 2.0 플래시와 같은 강력한 비 합리적 모델은 1% 마크 주위에 떠오르고 있습니다.
ARC-AGI 테스트는 퍼즐과 같은 문제가있는 AI 시스템에 도전하여 다른 색상 사각형의 그리드에서 시각적 패턴을 식별하고 올바른 "답변"그리드를 생성해야합니다. 이러한 문제는 AI가 보이지 않는 새로운 도전에 적응하는 능력을 테스트하도록 설계되었습니다.
인간 기준선을 설립하기 위해 Arc Prize Foundation은 400 명 이상의 사람들이 ARC-AGI-2 테스트를 수행했습니다. 평균적으로, 인간의 이러한 "패널"은 60%의 성공률을 달성하여 AI 모델보다 훨씬 성능이 우수했습니다.

ARC-AGI-2.IMAGE 크레딧의 샘플 질문 : 아크 상 François Chollet은 ARC-AGI-2가 전임자 인 ARC-AGI-1과 비교하여 AI 모델의 실제 지능을보다 정확한 척도라고 주장하기 위해 X를 가져갔습니다. ARC Prize Foundation의 테스트는 AI가 교육 데이터를 넘어서 새로운 기술을 효율적으로 배울 수 있는지 평가하도록 설계되었습니다.
Chollet은 ARC-AGI-2가 AI 모델이 "Brute Force"컴퓨팅 파워에 의존하여 첫 번째 테스트에서 인정 한 결함 인 문제를 해결하는 것을 방지한다고 강조했습니다. 이를 해결하기 위해 ARC-AGI-2는 효율성 메트릭을 소개하고 모델은 암기에 의존하기보다는 즉시 패턴을 해석해야합니다.
ARC Prize Foundation의 공동 창립자 인 Greg Kamradt는 블로그 게시물에서 인텔리전스는 문제를 해결하거나 높은 점수를 얻는 것에 관한 것이 아니라고 강조했습니다. "이러한 기능을 획득하고 배포하는 효율성은 중요한 구성 요소"라고 그는 썼다. "핵심 질문은 단지 'AI가 작업을 해결하기 위해 [] 기술을 얻을 수 있습니까?' 또한 '어떤 효율성이나 비용으로?' "
ARC-AGI-1은 OpenAi의 고급 추론 모델 O3가 다른 모든 AI 모델을 능가하고 인간의 성능을 일치시킬 때까지 2024 년 12 월까지 약 5 년 동안 무패를 유지했습니다. 그러나 ARC-AGI-1에 대한 O3의 성공은 상당한 비용으로 이루어졌습니다. ARC-AGI-1에서 인상적인 75.7%를 기록한 OpenAi의 O3 모델 인 O3 (LOW)의 버전은 작업 당 200 달러 상당의 컴퓨팅 파워를 사용하여 ARC-AGI-2에서 4% 만 관리했습니다.

ARC-AGI-1 및 ARC-AGI-2.IMAGE 크레딧의 프론티어 AI 모델 성능 비교 : 아크 상 ARC-AGI-2의 도입은 기술 산업의 많은 사람들이 AI 진행 상황을 측정하기위한 새로운 불포화 벤치 마크를 요구하는시기에 발생합니다. Hugging Face의 공동 설립자 인 Thomas Wolf는 최근 AI 산업이 창의성과 같은 인공 일반 정보의 주요 특성을 측정하기에 충분한 테스트가 부족하다고 TechCrunch에 말했다.
새로운 벤치 마크와 함께 Arc Prize Foundation은 ARC Prize 2025 콘테스트를 발표하여 개발자가 ARC-AGI-2 테스트에서 85% 정확도를 달성하고 작업 당 $ 0.42를 지출하도록 도전했습니다.
관련 기사
Openai स्ट्राइक्स बैक: एआई प्रतियोगी को कम करने के लिए कथित प्रयासों के लिए एलोन मस्क ने कहा
Openai ने अपने सह-संस्थापक, एलोन मस्क और उनकी प्रतिस्पर्धी AI कंपनी, XAI के खिलाफ एक भयंकर कानूनी पलटवार लॉन्च किया है। अपने चल रहे झगड़े के एक नाटकीय वृद्धि में, ओपनई ने कस्तूरी पर आरोप लगाया कि वह उस कंपनी को कम करने में मदद करने के लिए एक "अथक" और "दुर्भावनापूर्ण" अभियान को छेड़ने का आरोप लगाता है। अदालत के अनुसार डी
रिटर्न में तेजी लाने का कानून समझाया गया: एजीआई विकास का मार्ग
हाल ही में एक साक्षात्कार में, एलोन मस्क ने आर्टिफिशियल जनरल इंटेलिजेंस (एजीआई) के आगमन के लिए समयरेखा पर अपने आशावादी दृष्टिकोण को साझा किया, यह बताते हुए कि यह *"3 से 6 साल" *के रूप में जल्द ही हो सकता है। इसी तरह, Google के दीपमाइंड के सीईओ, डेमिस हसबिस ने वॉल स्ट्रीट जर्नल के फ्यूचर ऑफ एवरीथिंग फेस्टी में व्यक्त किया
एरिक श्मिट ने एजीआई मैनहट्टन प्रोजेक्ट का विरोध किया
बुधवार को जारी एक पॉलिसी पेपर में, Google के पूर्व सीईओ एरिक श्मिट ने स्केल एआई के सीईओ अलेक्जेंड्र वांग और एआई सुरक्षा निदेशक डैन हेंड्रिक के लिए सेंटर के साथ, अमेरिका के खिलाफ सलाह दी कि "अलौकिक" के साथ एआई सिस्टम विकसित करने के लिए एक मैनहट्टन प्रोजेक्ट-स्टाइल पहल शुरू की।
의견 (35)
0/200
StephenMartinez
2025년 4월 10일 오후 3시 27분 48초 GMT
The new AGI test from the Arc Prize Foundation is seriously tough! It's great to see AI being pushed to its limits, but man, it's humbling to see how many models can't crack it. François Chollet's work is always pushing the envelope. Keep at it, AI devs!
0
StevenSanchez
2025년 4월 10일 오후 3시 27분 48초 GMT
Arc Prize Foundationの新しいAGIテストは本当に難しいですね!AIが限界まで押し上げられるのは素晴らしいですが、多くのモデルがこれを解けないのを見るのは謙虚な気持ちになります。フランソワ・ショレの仕事はいつも新しい領域を開拓しています。頑張ってください、AI開発者たち!
0
AndrewHernández
2025년 4월 10일 오후 3시 27분 48초 GMT
Arc Prize Foundation의 새로운 AGI 테스트는 정말 어렵네요! AI가 한계까지 밀어붙여지는 것은 멋지지만, 많은 모델이 이것을 풀지 못하는 것을 보는 것은 겸손해지게 합니다. 프랑수아 쇼레의 작업은 항상 새로운 영역을 개척하고 있습니다. 계속 노력하세요, AI 개발자들!
0
BrianGarcia
2025년 4월 10일 오후 3시 27분 48초 GMT
O novo teste de AGI da Arc Prize Foundation é seriamente difícil! É ótimo ver a IA sendo levada ao seu limite, mas cara, é humilhante ver quantos modelos não conseguem resolvê-lo. O trabalho de François Chollet está sempre expandindo os limites. Continuem assim, desenvolvedores de IA!
0
GeorgeEvans
2025년 4월 10일 오후 3시 27분 48초 GMT
¡El nuevo test de AGI de la Fundación Arc Prize es seriamente difícil! Es genial ver cómo se empuja a la IA hasta sus límites, pero hombre, es humilde ver cuántos modelos no pueden resolverlo. El trabajo de François Chollet siempre está empujando el sobre. ¡Sigan adelante, desarrolladores de IA!
0
StevenLopez
2025년 4월 11일 오전 12시 18분 46초 GMT
This ARC-AGI-2 test is seriously tough! I tried it with a bunch of AI models and most of them just couldn't handle it. It's cool to see how it challenges the limits of AI, but man, it's frustrating when even the smart ones fail. Maybe next time, right?
0






유명한 AI 연구원 인 François Chollet이 공동 설립 한 Arc Prize Foundation은 최근 블로그 게시물에서 ARC-AGI-2라는 새로운 벤치 마크를 공개했습니다. 이 테스트는 AI의 일반적인 지능의 경계를 넓히는 것을 목표로하며, 지금까지 대부분의 AI 모델에 대해 균열을 일으키기 어려운 견과류임을 입증하고 있습니다.
Arc Prize Leaderboard에 따르면, OpenAi의 O1-Pro 및 DeepSeek의 R1과 같은 Advanced "Ociding"AI 모델조차도 1%에서 1.3% 사이의 점수 만 관리하고 있습니다. 한편, GPT-4.5, Claude 3.7 Sonnet 및 Gemini 2.0 플래시와 같은 강력한 비 합리적 모델은 1% 마크 주위에 떠오르고 있습니다.
ARC-AGI 테스트는 퍼즐과 같은 문제가있는 AI 시스템에 도전하여 다른 색상 사각형의 그리드에서 시각적 패턴을 식별하고 올바른 "답변"그리드를 생성해야합니다. 이러한 문제는 AI가 보이지 않는 새로운 도전에 적응하는 능력을 테스트하도록 설계되었습니다.
인간 기준선을 설립하기 위해 Arc Prize Foundation은 400 명 이상의 사람들이 ARC-AGI-2 테스트를 수행했습니다. 평균적으로, 인간의 이러한 "패널"은 60%의 성공률을 달성하여 AI 모델보다 훨씬 성능이 우수했습니다.
Chollet은 ARC-AGI-2가 AI 모델이 "Brute Force"컴퓨팅 파워에 의존하여 첫 번째 테스트에서 인정 한 결함 인 문제를 해결하는 것을 방지한다고 강조했습니다. 이를 해결하기 위해 ARC-AGI-2는 효율성 메트릭을 소개하고 모델은 암기에 의존하기보다는 즉시 패턴을 해석해야합니다.
ARC Prize Foundation의 공동 창립자 인 Greg Kamradt는 블로그 게시물에서 인텔리전스는 문제를 해결하거나 높은 점수를 얻는 것에 관한 것이 아니라고 강조했습니다. "이러한 기능을 획득하고 배포하는 효율성은 중요한 구성 요소"라고 그는 썼다. "핵심 질문은 단지 'AI가 작업을 해결하기 위해 [] 기술을 얻을 수 있습니까?' 또한 '어떤 효율성이나 비용으로?' "
ARC-AGI-1은 OpenAi의 고급 추론 모델 O3가 다른 모든 AI 모델을 능가하고 인간의 성능을 일치시킬 때까지 2024 년 12 월까지 약 5 년 동안 무패를 유지했습니다. 그러나 ARC-AGI-1에 대한 O3의 성공은 상당한 비용으로 이루어졌습니다. ARC-AGI-1에서 인상적인 75.7%를 기록한 OpenAi의 O3 모델 인 O3 (LOW)의 버전은 작업 당 200 달러 상당의 컴퓨팅 파워를 사용하여 ARC-AGI-2에서 4% 만 관리했습니다.
새로운 벤치 마크와 함께 Arc Prize Foundation은 ARC Prize 2025 콘테스트를 발표하여 개발자가 ARC-AGI-2 테스트에서 85% 정확도를 달성하고 작업 당 $ 0.42를 지출하도록 도전했습니다.



The new AGI test from the Arc Prize Foundation is seriously tough! It's great to see AI being pushed to its limits, but man, it's humbling to see how many models can't crack it. François Chollet's work is always pushing the envelope. Keep at it, AI devs!




Arc Prize Foundationの新しいAGIテストは本当に難しいですね!AIが限界まで押し上げられるのは素晴らしいですが、多くのモデルがこれを解けないのを見るのは謙虚な気持ちになります。フランソワ・ショレの仕事はいつも新しい領域を開拓しています。頑張ってください、AI開発者たち!




Arc Prize Foundation의 새로운 AGI 테스트는 정말 어렵네요! AI가 한계까지 밀어붙여지는 것은 멋지지만, 많은 모델이 이것을 풀지 못하는 것을 보는 것은 겸손해지게 합니다. 프랑수아 쇼레의 작업은 항상 새로운 영역을 개척하고 있습니다. 계속 노력하세요, AI 개발자들!




O novo teste de AGI da Arc Prize Foundation é seriamente difícil! É ótimo ver a IA sendo levada ao seu limite, mas cara, é humilhante ver quantos modelos não conseguem resolvê-lo. O trabalho de François Chollet está sempre expandindo os limites. Continuem assim, desenvolvedores de IA!




¡El nuevo test de AGI de la Fundación Arc Prize es seriamente difícil! Es genial ver cómo se empuja a la IA hasta sus límites, pero hombre, es humilde ver cuántos modelos no pueden resolverlo. El trabajo de François Chollet siempre está empujando el sobre. ¡Sigan adelante, desarrolladores de IA!




This ARC-AGI-2 test is seriously tough! I tried it with a bunch of AI models and most of them just couldn't handle it. It's cool to see how it challenges the limits of AI, but man, it's frustrating when even the smart ones fail. Maybe next time, right?












