소식 Gaia는 Arc-agi 이상의 True Intelligence를 찾기 위해 새로운 벤치 마크를 소개합니다.

Gaia는 Arc-agi 이상의 True Intelligence를 찾기 위해 새로운 벤치 마크를 소개합니다.

2025년 5월 2일
MatthewCarter
0

지능은 어디에나 있지만, 그것을 측정하는 것은 맨손으로 구름을 잡으려고하는 것처럼 정확하게 느껴집니다. 우리는 대학 입학 시험과 같은 테스트와 벤치 마크를 사용하여 대략적인 아이디어를 얻습니다. 매년 학생들은이 테스트를 위해 삐걱 거리며 때로는 완벽한 100%를 기록합니다. 그러나 그 완벽한 점수는 그들이 모두 같은 수준의 지능을 가지고 있거나 정신적 잠재력의 절정에 도달했다는 것을 의미합니까? 물론. 이러한 벤치 마크는 단지 대략적인 추정치이며 누군가의 진정한 능력에 대한 정확한 지표는 아닙니다.

생성 AI의 세계에서 MMLU (Massive Multitask Langu 그들은 쉽게 비교할 수 있지만, 전체 지능형 기능을 실제로 캡처하지는 않습니다.

예를 들어 Claude 3.5 Sonnet 및 GPT-4.5를 가져 가십시오. 그들은 MMLU에서 비슷하게 점수를 매길 수 있으며, 그들이 동등하다는 것을 시사합니다. 그러나 실제로이 모델을 사용하는 사람은 실제 성능이 상당히 다를 수 있다는 것을 알고 있습니다.

AI에서 '지능'을 측정한다는 것은 무엇을 의미합니까?

일반적인 추론과 창의적 문제 해결에 대한 모델을 테스트하도록 설계된 ARC-AGI 벤치 마크가 최근 출시되면서 AI에서 "지능"을 측정하는 것이 무엇을 의미하는지에 대한 신선한 토론이있었습니다. 모든 사람이 아직 Arc-Agi에 뛰어들 수있는 기회는 없었지만, 업계는 이것과 다른 새로운 테스트 접근법에 대해 윙윙 거리고 있습니다. 모든 벤치 마크에는 자리가 있으며 Arc-Agi는 올바른 방향으로 나아가는 단계입니다.

또 다른 흥미 진진한 발전은 '인류의 마지막 시험'입니다. '인류의 마지막 시험'은 3,000 개의 동료 검토 된 다단계 질문이 여러 분야에 걸쳐있는 포괄적 인 벤치 마크입니다. AI 시스템을 전문가 수준의 추론으로 추진하려는 것은 야심 찬 노력입니다. 초기 결과는 급속한 진전을 보여 주며 OpenAI는 출시 후 불과 한 달 만에 26.6% 점수를 기록한 것으로 알려졌다. 그러나 다른 벤치 마크와 마찬가지로, 실제 AI 애플리케이션에 필수적인 실용적이고 도구 사용 기술이 아니라 진공 상태의 지식과 추론에 중점을 둡니다.

예를 들어, "딸기"에서 "r"을 계산하거나 3.8에서 3.1111을 비교하는 것과 같은 간단한 작업으로 일부 최고 모델이 어떻게 어려움을 겪고 있는지 알아보십시오. 어린이 또는 기본 계산기조차도 피할 수있는 이러한 오류는 벤치 마크 성공과 실제 신뢰성 사이의 격차를 강조합니다. 인텔리전스는 단순히 테스트에 관한 것이 아니라는 것을 상기시켜줍니다. 일상적인 논리를 쉽게 탐색하는 것입니다.

AI 기능 측정을위한 새로운 표준

AI 기능 측정을위한 새로운 표준

AI 모델이 발전함에 따라 전통적인 벤치 마크의 한계가 더욱 분명해졌습니다. 예를 들어, GPT-4는 도구가 장착 될 때 GAIA 벤치 마크에서 더 복잡한 실제 작업에서 객관식 테스트에서 높은 점수를 얻음에도 불구하고 약 15% 만 점수를 매 깁니다.

벤치 마크 성능과 실제 기능 사이의 불일치는 AI 시스템이 연구소에서 비즈니스 응용 프로그램으로 전환함에 따라 점점 더 문제가되고 있습니다. 기존의 벤치 마크는 모델이 정보를 얼마나 잘 회상 할 수 있는지 테스트하지만 종종 데이터 수집, 코드 실행, 정보 분석 및 다양한 도메인에서 솔루션을 만드는 기능과 같은 인텔리전스의 주요 측면을 간과합니다.

AI 평가에서 상당한 변화를 나타내는 새로운 벤치 마크 인 Gaia를 입력하십시오. GAIA에는 메타-페어, 메타 게나이, Huggingf 이 질문들은 웹 브라우징, 멀티 모달 이해, 코드 실행, 파일 처리 및 복잡한 추론을 포함하여 실제 AI 응용 프로그램에 필수적인 광범위한 기술을 테스트합니다.

레벨 1 질문은 일반적으로 인간이 해결하기 위해 약 5 단계와 하나의 도구가 필요합니다. 레벨 2 질문에는 5 ~ 10 단계와 다중 도구가 필요하며 레벨 3 질문은 최대 50 단계와 도구를 요구할 수 있습니다. 이 구조는 솔루션이 종종 여러 행동과 도구를 포함하는 실제 비즈니스 문제의 복잡성을 반영합니다.

AI 모델은 단순한 복잡성보다는 유연성에 중점을 두어 GAIA에 대해 75%정확도를 달성했으며, Microsoft의 Magnetic-1 (38%) 및 Google의 Langfun 에이전트 (49%)와 같은 업계 리더를 능가했습니다. 이 성공은 시청각 이해 및 추론을위한 특수 모델을 혼합하여 Anthropic의 Sonnet 3.5를 주요 모델로 사용하는 것입니다.

AI 평가의 이러한 변화는 업계에서 더 넓은 추세를 반영합니다. 우리는 여러 도구와 워크 플로를 관리 할 수있는 AI 에이전트로 독립형 SaaS 응용 프로그램에서 멀어지게합니다. 기업이 복잡한 다중 단계 작업을 해결하기 위해 AI에 점점 더 의존함에 따라 Gaia와 같은 벤치 마크는 기존의 객관식 테스트보다 더 관련성있는 기능 측정을 제공합니다.

AI 평가의 미래는 고립 된 지식 테스트에 관한 것이 아닙니다. 문제 해결 능력에 대한 포괄적 인 평가에 관한 것입니다. GAIA는 AI 기능을 측정하기위한 새로운 벤치 마크를 설정합니다. 하나는 AI 배포의 실제 문제 및 기회와 더 잘 맞습니다.

Sri Ambati는 H2O.AI의 창립자이자 CEO입니다.

관련 기사
AI初创公司获得了750万美元的革命性,以彻底改变美国2400万企业的商业保险 AI初创公司获得了750万美元的革命性,以彻底改变美国2400万企业的商业保险 1Fort是一家纽约的初创公司,已获得了750万美元的种子资金,以彻底改变小型企业如何通过其AI驱动的平台获得商业保险。随着2024年的200%月份收入增长惊人的200%,1折扣将彻底改革过时的手动流程
Meta捍卫Llama 4版本,引用Bug作为混合质量报告的原因 Meta捍卫Llama 4版本,引用Bug作为混合质量报告的原因 在周末,Facebook,Instagram,WhatsApp和Quest VR背后的强大力量Meta通过揭露其最新的AI语言模型Llama 4。不仅是一个,而且引入了三个新版本,每个版本都具有增强功能,这要归功于“ Architecturs” Architecturs”
Google在企业的Android Studio中推出Gemini,使开发人员更容易设计工作应用 Google在企业的Android Studio中推出Gemini,使开发人员更容易设计工作应用 苹果公司可能仍会统治美国智能手机市场,但是Google的Android OS以其灵活性和负担能力赢得了企业和企业的赢得。 Stratix最近的一项调查显示,现在有60%的公司设备在Android Tech上运行。 Google并没有停止那里;他们开始了
의견 (0)
0/200
Back to Top
OR