lựa chọn
Trang chủ Tin tức Thử nghiệm AGI mới chứng minh đầy thách thức, phần lớn các mô hình AI

Thử nghiệm AGI mới chứng minh đầy thách thức, phần lớn các mô hình AI

ngày phát hành ngày phát hành Ngày 10 tháng 4 năm 2025
Tác giả Tác giả WillPerez
quan điểm quan điểm 37

Quỹ giải thưởng ARC, được đồng sáng lập bởi nhà nghiên cứu AI nổi tiếng François Chollet, gần đây đã tiết lộ một chuẩn mực mới có tên ARC-AGI-2 trong một bài đăng trên blog. Thử nghiệm này nhằm mục đích đẩy các ranh giới của trí thông minh chung của AI, và cho đến nay, nó chứng tỏ là một hạt khó khăn để bẻ khóa đối với hầu hết các mô hình AI.

Theo Bảng xếp hạng giải thưởng ARC, thậm chí các mô hình AI "Lý luận" nâng cao như O1-Pro và R1 của Openai và Deepseek chỉ quản lý điểm từ 1% đến 1,3%. Trong khi đó, các mô hình không hợp lý mạnh mẽ như GPT-4.5, Claude 3.7 Sonnet và Gemini 2.0 Flash đang lơ lửng xung quanh mốc 1%.

Các thử nghiệm ARC-AGI thách thức các hệ thống AI với các vấn đề giống như câu đố, yêu cầu chúng phải xác định các mẫu hình ảnh trong các lưới của các hình vuông màu khác nhau và tạo ra lưới "trả lời" chính xác. Những vấn đề này được thiết kế để kiểm tra khả năng thích nghi với những thách thức mới, chưa từng thấy của AI.

Để thiết lập một cơ sở của con người, Quỹ Giải thưởng ARC đã có hơn 400 người làm bài kiểm tra ARC-AGI-2. Trung bình, các "bảng" của con người đã đạt được tỷ lệ thành công 60%, vượt trội đáng kể so với các mô hình AI.

Một câu hỏi mẫu từ ARC-AGI-2.Image Tín dụng: Giải thưởng ARC
François Chollet đã đến X để tuyên bố rằng ARC-AGI-2 là thước đo chính xác hơn về trí thông minh thực sự của mô hình AI so với người tiền nhiệm của nó, ARC-AGI-1. Các bài kiểm tra của Quỹ ARC được thiết kế để đánh giá liệu AI có thể học hiệu quả các kỹ năng mới ngoài dữ liệu đào tạo của mình hay không.

Chollet nhấn mạnh rằng ARC-AGI-2 ngăn các mô hình AI dựa vào sức mạnh tính toán "vũ lực" để giải quyết các vấn đề, một lỗ hổng mà ông thừa nhận trong thử nghiệm đầu tiên. Để giải quyết vấn đề này, ARC-AGI-2 giới thiệu một số liệu hiệu quả và yêu cầu các mô hình giải thích các mẫu trên con ruồi thay vì dựa vào ghi nhớ.

Trong một bài đăng trên blog, người đồng sáng lập ARC Prize Foundation, Greg Kamradt nhấn mạnh rằng trí thông minh không chỉ là giải quyết các vấn đề hoặc đạt được điểm số cao. "Hiệu quả mà các khả năng đó được thu thập và triển khai là một thành phần quan trọng, xác định", ông viết. "Câu hỏi cốt lõi đang được đặt ra không chỉ là, 'Ai có thể có được [kỹ năng] để giải quyết một nhiệm vụ?' Nhưng cũng vậy, 'với hiệu quả hay chi phí nào?' "

ARC-AGI-1 vẫn bất bại trong khoảng năm năm cho đến tháng 12 năm 2024, khi mô hình lý luận nâng cao của Openai, O3, đã vượt qua tất cả các mô hình AI khác và phù hợp với hiệu suất của con người. Tuy nhiên, thành công của O3 trên ARC-AGI-1 có chi phí đáng kể. Phiên bản của mô hình O3 của Openai, O3 (thấp), đạt 75,7% ấn tượng trên ARC-AGI-1, chỉ quản lý 4% trên ARC-AGI-2, sử dụng công suất điện toán trị giá 200 đô la cho mỗi nhiệm vụ.

So sánh hiệu suất mô hình AI của Frontier trên ARC-AGI-1 và ARC-AGI-2.Image Tín dụng: Giải thưởng ARC
Việc giới thiệu ARC-AGI-2 diễn ra vào thời điểm mà nhiều người trong ngành công nghệ đang kêu gọi các điểm chuẩn mới, không bão hòa để đo lường tiến trình AI. Thomas Wolf, đồng sáng lập của Hugging Face, gần đây đã nói với TechCrunch rằng ngành công nghiệp AI thiếu các bài kiểm tra đầy đủ để đo lường các đặc điểm chính của trí thông minh nhân tạo, như sáng tạo.

Bên cạnh điểm chuẩn mới, Quỹ ARC Prize đã công bố cuộc thi ARC Action 2025, thách thức các nhà phát triển đạt được độ chính xác 85% trong thử nghiệm ARC-AGI-2 trong khi chỉ chi 0,42 đô la cho mỗi nhiệm vụ.

Bài viết liên quan
Openai स्ट्राइक्स बैक: एआई प्रतियोगी को कम करने के लिए कथित प्रयासों के लिए एलोन मस्क ने कहा Openai स्ट्राइक्स बैक: एआई प्रतियोगी को कम करने के लिए कथित प्रयासों के लिए एलोन मस्क ने कहा Openai ने अपने सह-संस्थापक, एलोन मस्क और उनकी प्रतिस्पर्धी AI कंपनी, XAI के खिलाफ एक भयंकर कानूनी पलटवार लॉन्च किया है। अपने चल रहे झगड़े के एक नाटकीय वृद्धि में, ओपनई ने कस्तूरी पर आरोप लगाया कि वह उस कंपनी को कम करने में मदद करने के लिए एक "अथक" और "दुर्भावनापूर्ण" अभियान को छेड़ने का आरोप लगाता है। अदालत के अनुसार डी
रिटर्न में तेजी लाने का कानून समझाया गया: एजीआई विकास का मार्ग रिटर्न में तेजी लाने का कानून समझाया गया: एजीआई विकास का मार्ग हाल ही में एक साक्षात्कार में, एलोन मस्क ने आर्टिफिशियल जनरल इंटेलिजेंस (एजीआई) के आगमन के लिए समयरेखा पर अपने आशावादी दृष्टिकोण को साझा किया, यह बताते हुए कि यह *"3 से 6 साल" *के रूप में जल्द ही हो सकता है। इसी तरह, Google के दीपमाइंड के सीईओ, डेमिस हसबिस ने वॉल स्ट्रीट जर्नल के फ्यूचर ऑफ एवरीथिंग फेस्टी में व्यक्त किया
एरिक श्मिट ने एजीआई मैनहट्टन प्रोजेक्ट का विरोध किया एरिक श्मिट ने एजीआई मैनहट्टन प्रोजेक्ट का विरोध किया बुधवार को जारी एक पॉलिसी पेपर में, Google के पूर्व सीईओ एरिक श्मिट ने स्केल एआई के सीईओ अलेक्जेंड्र वांग और एआई सुरक्षा निदेशक डैन हेंड्रिक के लिए सेंटर के साथ, अमेरिका के खिलाफ सलाह दी कि "अलौकिक" के साथ एआई सिस्टम विकसित करने के लिए एक मैनहट्टन प्रोजेक्ट-स्टाइल पहल शुरू की।
Nhận xét (35)
0/200
StephenMartinez
StephenMartinez 15:27:48 GMT Ngày 10 tháng 4 năm 2025

The new AGI test from the Arc Prize Foundation is seriously tough! It's great to see AI being pushed to its limits, but man, it's humbling to see how many models can't crack it. François Chollet's work is always pushing the envelope. Keep at it, AI devs!

StevenSanchez
StevenSanchez 15:27:48 GMT Ngày 10 tháng 4 năm 2025

Arc Prize Foundationの新しいAGIテストは本当に難しいですね!AIが限界まで押し上げられるのは素晴らしいですが、多くのモデルがこれを解けないのを見るのは謙虚な気持ちになります。フランソワ・ショレの仕事はいつも新しい領域を開拓しています。頑張ってください、AI開発者たち!

AndrewHernández
AndrewHernández 15:27:48 GMT Ngày 10 tháng 4 năm 2025

Arc Prize Foundation의 새로운 AGI 테스트는 정말 어렵네요! AI가 한계까지 밀어붙여지는 것은 멋지지만, 많은 모델이 이것을 풀지 못하는 것을 보는 것은 겸손해지게 합니다. 프랑수아 쇼레의 작업은 항상 새로운 영역을 개척하고 있습니다. 계속 노력하세요, AI 개발자들!

BrianGarcia
BrianGarcia 15:27:48 GMT Ngày 10 tháng 4 năm 2025

O novo teste de AGI da Arc Prize Foundation é seriamente difícil! É ótimo ver a IA sendo levada ao seu limite, mas cara, é humilhante ver quantos modelos não conseguem resolvê-lo. O trabalho de François Chollet está sempre expandindo os limites. Continuem assim, desenvolvedores de IA!

GeorgeEvans
GeorgeEvans 15:27:48 GMT Ngày 10 tháng 4 năm 2025

¡El nuevo test de AGI de la Fundación Arc Prize es seriamente difícil! Es genial ver cómo se empuja a la IA hasta sus límites, pero hombre, es humilde ver cuántos modelos no pueden resolverlo. El trabajo de François Chollet siempre está empujando el sobre. ¡Sigan adelante, desarrolladores de IA!

StevenLopez
StevenLopez 00:18:46 GMT Ngày 11 tháng 4 năm 2025

This ARC-AGI-2 test is seriously tough! I tried it with a bunch of AI models and most of them just couldn't handle it. It's cool to see how it challenges the limits of AI, but man, it's frustrating when even the smart ones fail. Maybe next time, right?

Quay lại đầu
OR