opción
Hogar
Noticias
Gaia presenta un nuevo punto de referencia en busca de la verdadera inteligencia más allá de Arc-Agi

Gaia presenta un nuevo punto de referencia en busca de la verdadera inteligencia más allá de Arc-Agi

2 de mayo de 2025
65

La inteligencia está en todas partes, pero medirla con precisión se siente como tratar de atrapar una nube con las manos desnudas. Utilizamos pruebas y puntos de referencia, como los exámenes de ingreso a la universidad, para tener una idea aproximada. Cada año, los estudiantes se agrupan por estas pruebas, a veces incluso anotando un 100%perfecto. ¿Pero esa puntuación perfecta significa que todos poseen el mismo nivel de inteligencia o que han alcanzado el pico de su potencial mental? Por supuesto que no. Estos puntos de referencia son solo estimaciones aproximadas, no indicadores precisos de las verdaderas habilidades de alguien.

En el mundo de la IA generativa, los puntos de referencia como MMLU (comprensión de lenguaje multitarea masivo) han sido la opción para evaluar modelos a través de preguntas de opción múltiple en varios campos académicos. Si bien permiten comparaciones fáciles, realmente no capturan el espectro completo de capacidades inteligentes.

Tome el soneto Claude 3.5 y GPT-4.5, por ejemplo. Podrían anotar de manera similar en MMLU, lo que sugiere que están a la par. Pero cualquiera que haya usado estos modelos sabe que su rendimiento del mundo real puede ser bastante diferente.

¿Qué significa medir la 'inteligencia' en la IA?

Con el reciente lanzamiento del punto de referencia ARC-AGI, diseñado para probar modelos sobre razonamiento general y resolución de problemas creativos, ha habido una nueva ola de discusión sobre lo que significa medir la "inteligencia" en la IA. No todos han tenido la oportunidad de sumergirse en ARC-AGI todavía, pero la industria está zumbando sobre este y otros nuevos enfoques para las pruebas. Cada punto de referencia tiene su lugar, y ARC-AGI es un paso en la dirección correcta.

Otro desarrollo emocionante es el "último examen de la humanidad", un punto de referencia integral con 3.000 preguntas de varios pasos revisadas por pares que abarcan diferentes disciplinas. Es un esfuerzo ambicioso llevar a los sistemas de IA al razonamiento de nivel experto. Los primeros resultados muestran un progreso rápido, con OpenAi, según los informes, alcanzando un puntaje del 26.6% solo un mes después de su lanzamiento. Pero al igual que otros puntos de referencia, se centra principalmente en el conocimiento y el razonamiento en el vacío, no en las habilidades prácticas de uso de herramientas que son vitales para las aplicaciones de IA del mundo real.

Tomemos, por ejemplo, cómo algunos modelos principales luchan con tareas simples como contar las "R" en "Strawberry" o comparar 3.8 a 3.1111. Estos errores, que incluso un niño o una calculadora básica podrían evitar, resaltan la brecha entre el éxito de referencia y la confiabilidad del mundo real. Es un recordatorio de que la inteligencia no se trata solo de realizar pruebas; Se trata de navegar por la lógica cotidiana con facilidad.

El nuevo estándar para medir la capacidad de IA

El nuevo estándar para medir la capacidad de IA

A medida que los modelos de IA han evolucionado, las limitaciones de los puntos de referencia tradicionales se han vuelto más evidentes. Por ejemplo, GPT-4, cuando está equipado con herramientas, solo obtiene aproximadamente un 15% en las tareas más complejas y del mundo real en el punto de referencia GAIA, a pesar de sus altos puntajes en pruebas de opción múltiple.

Esta discrepancia entre el rendimiento de referencia y la capacidad práctica es cada vez más problemática a medida que la transición de los sistemas de IA de los laboratorios de investigación a las aplicaciones comerciales. Los puntos de referencia tradicionales prueban qué tan bien un modelo puede recordar información, pero a menudo pasa por alto aspectos clave de la inteligencia, como la capacidad de recopilar datos, ejecutar código, analizar información y crear soluciones en varios dominios.

Ingrese Gaia, un nuevo punto de referencia que marca un cambio significativo en la evaluación de IA. Desarrollado a través de una colaboración entre equipos de meta-fair, meta-genai, huggingface y autogpt, Gaia incluye 466 preguntas meticulosamente elaboradas en tres niveles de dificultad. Estas preguntas prueban una amplia gama de habilidades esenciales para aplicaciones de IA del mundo real, incluida la navegación web, la comprensión multimodal, la ejecución de código, el manejo de archivos y el razonamiento complejo.

Las preguntas de nivel 1 generalmente requieren aproximadamente 5 pasos y una herramienta para que los humanos resuelvan. Las preguntas de nivel 2 necesitan de 5 a 10 pasos y múltiples herramientas, mientras que las preguntas de nivel 3 pueden exigir hasta 50 pasos y cualquier cantidad de herramientas. Esta estructura refleja la complejidad de los problemas comerciales reales, donde las soluciones a menudo involucran múltiples acciones y herramientas.

Al centrarse en la flexibilidad en lugar de solo la complejidad, un modelo de IA logró una tasa de precisión del 75%en GAIA, superando a los líderes de la industria como Magnetic-1 de Microsoft (38%) y el agente Langfun de Google (49%). Este éxito proviene del uso de una combinación de modelos especializados para la comprensión y el razonamiento audiovisual, con el soneto 3.5 de Anthrope como el modelo principal.

Este cambio en la evaluación de IA refleja una tendencia más amplia en la industria: nos estamos alejando de aplicaciones SaaS independientes hacia agentes de IA que pueden administrar múltiples herramientas y flujos de trabajo. A medida que las empresas dependen cada vez más de la IA para abordar tareas complejas y de varios pasos, los puntos de referencia como GAIA ofrecen una medida de capacidad más relevante que las pruebas tradicionales de opción múltiple.

El futuro de la evaluación de la IA no se trata de pruebas de conocimiento aisladas; Se trata de evaluaciones integrales de la capacidad de resolución de problemas. Gaia establece un nuevo punto de referencia para medir la capacidad de IA, uno que se alinea mejor con los desafíos y oportunidades del mundo real del despliegue de IA.

Sri Ambati es el fundador y CEO de H2O.AI.

Artículo relacionado
谷歌AI躍升內幕:Gemini 2.5 思維更深、表達更智能且編碼更快 谷歌AI躍升內幕:Gemini 2.5 思維更深、表達更智能且編碼更快 谷歌朝著通用AI助手的願景邁進一步在今年的Google I/O大會上,該公司揭示了其Gemini 2.5系列的重大升級,特別是在多個維度上提升其能力。最新的版本——Gemini 2.5 Flash和2.5 Pro——現在比以往更加聰明和高效。這些進步使谷歌更接近實現其創造通用AI助手的願景,這個助手能夠無縫理解情境、計劃並執行任務。### Gemini 2.
深度認知發布開源AI模型,已名列前茅 深度認知發布開源AI模型,已名列前茅 深度思睿推出革命性的人工智能模型旧金山一家尖端的人工智能研究初创公司深度思睿(Deep Cogito)正式发布了其首批开源大型语言模型(LLMs),命名为思睿v1。这些模型经过微调自Meta的Llama 3.2,具备混合推理能力,能够快速响应或进行内省思考——这一功能让人联想到OpenAI的“o”系列和DeepSeek R1。深度思睿旨在通过在其模型中促进迭
微軟在Build 2025大會上宣布推出超過50款AI工具打造『主動網路』 微軟在Build 2025大會上宣布推出超過50款AI工具打造『主動網路』 微軟於Build大會揭開開放式自主網路願景今天早上,微軟在其年度Build大會上發表了一項大膽宣言:「開放式自主網路」的黎明已經到來。在超過50項公告的廣泛陣容中,這家科技巨頭概述了一項全面策略,將自己置於這個轉型運動的核心位置。從GitHub到Azure,從Windows到Microsoft 365,每條產品線都收到了旨在推動AI代理技術進步的更新。這些代
comentario (0)
0/200
Volver arriba
OR