옵션
소식
Gaia는 Arc-agi 이상의 True Intelligence를 찾기 위해 새로운 벤치 마크를 소개합니다.

Gaia는 Arc-agi 이상의 True Intelligence를 찾기 위해 새로운 벤치 마크를 소개합니다.

2025년 5월 2일
65

지능은 어디에나 있지만, 그것을 측정하는 것은 맨손으로 구름을 잡으려고하는 것처럼 정확하게 느껴집니다. 우리는 대학 입학 시험과 같은 테스트와 벤치 마크를 사용하여 대략적인 아이디어를 얻습니다. 매년 학생들은이 테스트를 위해 삐걱 거리며 때로는 완벽한 100%를 기록합니다. 그러나 그 완벽한 점수는 그들이 모두 같은 수준의 지능을 가지고 있거나 정신적 잠재력의 절정에 도달했다는 것을 의미합니까? 물론. 이러한 벤치 마크는 단지 대략적인 추정치이며 누군가의 진정한 능력에 대한 정확한 지표는 아닙니다.

생성 AI의 세계에서 MMLU (Massive Multitask Langu 그들은 쉽게 비교할 수 있지만, 전체 지능형 기능을 실제로 캡처하지는 않습니다.

예를 들어 Claude 3.5 Sonnet 및 GPT-4.5를 가져 가십시오. 그들은 MMLU에서 비슷하게 점수를 매길 수 있으며, 그들이 동등하다는 것을 시사합니다. 그러나 실제로이 모델을 사용하는 사람은 실제 성능이 상당히 다를 수 있다는 것을 알고 있습니다.

AI에서 '지능'을 측정한다는 것은 무엇을 의미합니까?

일반적인 추론과 창의적 문제 해결에 대한 모델을 테스트하도록 설계된 ARC-AGI 벤치 마크가 최근 출시되면서 AI에서 "지능"을 측정하는 것이 무엇을 의미하는지에 대한 신선한 토론이있었습니다. 모든 사람이 아직 Arc-Agi에 뛰어들 수있는 기회는 없었지만, 업계는 이것과 다른 새로운 테스트 접근법에 대해 윙윙 거리고 있습니다. 모든 벤치 마크에는 자리가 있으며 Arc-Agi는 올바른 방향으로 나아가는 단계입니다.

또 다른 흥미 진진한 발전은 '인류의 마지막 시험'입니다. '인류의 마지막 시험'은 3,000 개의 동료 검토 된 다단계 질문이 여러 분야에 걸쳐있는 포괄적 인 벤치 마크입니다. AI 시스템을 전문가 수준의 추론으로 추진하려는 것은 야심 찬 노력입니다. 초기 결과는 급속한 진전을 보여 주며 OpenAI는 출시 후 불과 한 달 만에 26.6% 점수를 기록한 것으로 알려졌다. 그러나 다른 벤치 마크와 마찬가지로, 실제 AI 애플리케이션에 필수적인 실용적이고 도구 사용 기술이 아니라 진공 상태의 지식과 추론에 중점을 둡니다.

예를 들어, "딸기"에서 "r"을 계산하거나 3.8에서 3.1111을 비교하는 것과 같은 간단한 작업으로 일부 최고 모델이 어떻게 어려움을 겪고 있는지 알아보십시오. 어린이 또는 기본 계산기조차도 피할 수있는 이러한 오류는 벤치 마크 성공과 실제 신뢰성 사이의 격차를 강조합니다. 인텔리전스는 단순히 테스트에 관한 것이 아니라는 것을 상기시켜줍니다. 일상적인 논리를 쉽게 탐색하는 것입니다.

AI 기능 측정을위한 새로운 표준

AI 기능 측정을위한 새로운 표준

AI 모델이 발전함에 따라 전통적인 벤치 마크의 한계가 더욱 분명해졌습니다. 예를 들어, GPT-4는 도구가 장착 될 때 GAIA 벤치 마크에서 더 복잡한 실제 작업에서 객관식 테스트에서 높은 점수를 얻음에도 불구하고 약 15% 만 점수를 매 깁니다.

벤치 마크 성능과 실제 기능 사이의 불일치는 AI 시스템이 연구소에서 비즈니스 응용 프로그램으로 전환함에 따라 점점 더 문제가되고 있습니다. 기존의 벤치 마크는 모델이 정보를 얼마나 잘 회상 할 수 있는지 테스트하지만 종종 데이터 수집, 코드 실행, 정보 분석 및 다양한 도메인에서 솔루션을 만드는 기능과 같은 인텔리전스의 주요 측면을 간과합니다.

AI 평가에서 상당한 변화를 나타내는 새로운 벤치 마크 인 Gaia를 입력하십시오. GAIA에는 메타-페어, 메타 게나이, Huggingf 이 질문들은 웹 브라우징, 멀티 모달 이해, 코드 실행, 파일 처리 및 복잡한 추론을 포함하여 실제 AI 응용 프로그램에 필수적인 광범위한 기술을 테스트합니다.

레벨 1 질문은 일반적으로 인간이 해결하기 위해 약 5 단계와 하나의 도구가 필요합니다. 레벨 2 질문에는 5 ~ 10 단계와 다중 도구가 필요하며 레벨 3 질문은 최대 50 단계와 도구를 요구할 수 있습니다. 이 구조는 솔루션이 종종 여러 행동과 도구를 포함하는 실제 비즈니스 문제의 복잡성을 반영합니다.

AI 모델은 단순한 복잡성보다는 유연성에 중점을 두어 GAIA에 대해 75%정확도를 달성했으며, Microsoft의 Magnetic-1 (38%) 및 Google의 Langfun 에이전트 (49%)와 같은 업계 리더를 능가했습니다. 이 성공은 시청각 이해 및 추론을위한 특수 모델을 혼합하여 Anthropic의 Sonnet 3.5를 주요 모델로 사용하는 것입니다.

AI 평가의 이러한 변화는 업계에서 더 넓은 추세를 반영합니다. 우리는 여러 도구와 워크 플로를 관리 할 수있는 AI 에이전트로 독립형 SaaS 응용 프로그램에서 멀어지게합니다. 기업이 복잡한 다중 단계 작업을 해결하기 위해 AI에 점점 더 의존함에 따라 Gaia와 같은 벤치 마크는 기존의 객관식 테스트보다 더 관련성있는 기능 측정을 제공합니다.

AI 평가의 미래는 고립 된 지식 테스트에 관한 것이 아닙니다. 문제 해결 능력에 대한 포괄적 인 평가에 관한 것입니다. GAIA는 AI 기능을 측정하기위한 새로운 벤치 마크를 설정합니다. 하나는 AI 배포의 실제 문제 및 기회와 더 잘 맞습니다.

Sri Ambati는 H2O.AI의 창립자이자 CEO입니다.

관련 기사
谷歌AI躍升內幕:Gemini 2.5 思維更深、表達更智能且編碼更快 谷歌AI躍升內幕:Gemini 2.5 思維更深、表達更智能且編碼更快 谷歌朝著通用AI助手的願景邁進一步在今年的Google I/O大會上,該公司揭示了其Gemini 2.5系列的重大升級,特別是在多個維度上提升其能力。最新的版本——Gemini 2.5 Flash和2.5 Pro——現在比以往更加聰明和高效。這些進步使谷歌更接近實現其創造通用AI助手的願景,這個助手能夠無縫理解情境、計劃並執行任務。### Gemini 2.
深度認知發布開源AI模型,已名列前茅 深度認知發布開源AI模型,已名列前茅 深度思睿推出革命性的人工智能模型旧金山一家尖端的人工智能研究初创公司深度思睿(Deep Cogito)正式发布了其首批开源大型语言模型(LLMs),命名为思睿v1。这些模型经过微调自Meta的Llama 3.2,具备混合推理能力,能够快速响应或进行内省思考——这一功能让人联想到OpenAI的“o”系列和DeepSeek R1。深度思睿旨在通过在其模型中促进迭
微軟在Build 2025大會上宣布推出超過50款AI工具打造『主動網路』 微軟在Build 2025大會上宣布推出超過50款AI工具打造『主動網路』 微軟於Build大會揭開開放式自主網路願景今天早上,微軟在其年度Build大會上發表了一項大膽宣言:「開放式自主網路」的黎明已經到來。在超過50項公告的廣泛陣容中,這家科技巨頭概述了一項全面策略,將自己置於這個轉型運動的核心位置。從GitHub到Azure,從Windows到Microsoft 365,每條產品線都收到了旨在推動AI代理技術進步的更新。這些代
의견 (0)
0/200
위로 돌아갑니다
OR