Nuevos conocimientos sobre la eficacia del razonamiento LLM
Una nueva investigación de Microsoft demuestra que las técnicas avanzadas de razonamiento de los grandes modelos lingüísticos no producen mejoras uniformes en los distintos sistemas de IA. Su innovador estudio analizó cómo respondían nueve de los principales modelos básicos a varios enfoques de escalado durante la inferencia.
Evaluación de los métodos de escalado del tiempo de inferencia
El equipo de investigación aplicó una rigurosa metodología de pruebas en tres técnicas de escalado distintas:
La inducción tradicional de la cadena de pensamiento
Generación paralela de respuestas con agregación
Refinamiento secuencial mediante bucles de retroalimentación
Marco experimental para evaluar el rendimiento del razonamiento
Ocho evaluaciones comparativas exhaustivas proporcionaron escenarios de prueba desafiantes en disciplinas como las matemáticas, el razonamiento científico, la resolución de problemas complejos y el análisis espacial. Varias evaluaciones presentaban niveles de dificultad graduados para examinar cómo se escala el rendimiento con la complejidad del problema.
Descubrimientos clave sobre el rendimiento en razonamiento
La exhaustiva evaluación arrojó varios datos fundamentales para los profesionales de la IA:
El aumento del rendimiento de las técnicas de escalado varía drásticamente según la arquitectura del modelo y el ámbito de la tarea.
Las respuestas más largas no se correlacionan sistemáticamente con mejores soluciones.
Los costes de cálculo fluctúan de forma impredecible incluso para consultas idénticas.
En ocasiones, los modelos tradicionales pueden igualar a los modelos de razonamiento especializados mediante un amplio escalado.
Los mecanismos de verificación son prometedores para mejorar la eficiencia
Rendimiento frente a coste computacional en distintos modelos y tareas
Implicaciones prácticas para el desarrollo de la IA
Estas conclusiones tienen importantes implicaciones para la aplicación de la IA en las empresas:
La previsibilidad de los costes se perfila como un reto importante, ya que el uso de tokens muestra una gran variabilidad incluso para las respuestas correctas. "Los desarrolladores necesitan modelos con patrones de cálculo coherentes", señala Besmira Nushi, investigadora de Microsoft.
La investigación también identifica la longitud de la respuesta como un indicador potencial de la confianza del modelo, ya que las respuestas excesivamente largas suelen indicar soluciones incorrectas más allá de ciertos umbrales.
Patrones de escalado de inferencias en el rendimiento de GPT-4o
El futuro de los sistemas de razonamiento eficientes
El estudio destaca varias direcciones prometedoras para el desarrollo futuro:
"Los mecanismos de verificación podrían transformar nuestra forma de abordar los problemas de razonamiento", explica Nushi, y sugiere que los sistemas de validación empresarial existentes podrían adaptarse a las aplicaciones de IA. Esta integración permitiría a las interfaces de lenguaje natural aprovechar la lógica de validación especializada.
La investigación subraya la creciente necesidad de soluciones que equilibren la precisión del razonamiento con unos costes computacionales predecibles a medida que los sistemas de IA asumen tareas cada vez más complejas en el mundo real.
Al hacer clic en "Aceptar todos los cookies", usted acepta el almacenamiento de cookies en su dispositivo para mejorar la navegación por el sitio, analizar el uso del sitio y ayudar en nuestros esfuerzos de marketing.Política de privacidad Aviso
Al visitar cualquier sitio web, este puede almacenar o recuperar información en su navegador, principalmente en forma de cookies. Esta información puede referirse a usted, sus preferencias o su dispositivo y se usa principalmente para que el sitio funcione como espera. Por lo general, la información no lo identifica directamente, pero puede brindarle una experiencia web más personalizada. Debido a que respetamos su derecho a la privacidad, puede optar por no permitir algunos tipos de cookies. Haga clic en los diferentes títulos de categoría para obtener más información y cambiar nuestros ajustes predeterminados. Sin embargo, bloquear algunos tipos de cookies puede afectar su experiencia en el sitio y los servicios que podemos ofrecer. Política de privacidadDeclaración
Gestionar preferencias
Cookie estrictamente necesario
Siempre activo
Estos cookies son necesarios para que el sitio web funcione y no pueden ser desactivados en nuestros sistemas. Por lo general, solo se establecen en respuesta a acciones que realice usted que equivalen a una solicitud de servicios, como configurar sus preferencias de privacidad, iniciar sesión o completar formularios. Puede configurar su navegador para bloquear estos cookies o alertarle sobre ellos, pero algunas partes del sitio no funcionarán luego. Estos cookies no almacenan ninguna información que permita identificar personalmente.