opción
Hogar
Noticias
Avance de escala de IA cuestionado por expertos

Avance de escala de IA cuestionado por expertos

10 de abril de 2025
97

Avance de escala de IA cuestionado por expertos

Ha habido cierto revuelo en las redes sociales sobre investigadores que descubrieron una nueva "ley de escalado" de IA, pero los expertos lo toman con escepticismo. Las leyes de escalado de IA, más bien guías informales, muestran cómo los modelos de IA mejoran al añadir más datos y potencia computacional. Hasta hace aproximadamente un año, la gran tendencia era el "pre-entrenamiento": entrenar modelos más grandes con conjuntos de datos más grandes. Eso sigue siendo relevante, pero ahora hay dos leyes de escalado más: el escalado post-entrenamiento, que se centra en ajustar el comportamiento de un modelo, y el escalado en tiempo de prueba, que implica usar más potencia computacional durante la inferencia para mejorar las capacidades de "razonamiento" de un modelo (piensa en modelos como R1).

Recientemente, investigadores de Google y UC Berkeley publicaron un artículo que algunos en línea llaman una cuarta ley: la "búsqueda en tiempo de inferencia". Este método hace que el modelo genere múltiples respuestas posibles a una consulta al mismo tiempo y luego elija la mejor. Los investigadores afirman que puede mejorar el rendimiento de un modelo antiguo, como Google's Gemini 1.5 Pro, para superar al modelo de "razonamiento" o1-preview de OpenAI en pruebas de ciencia y matemáticas.

Eric Zhao, becario de doctorado de Google y coautor del artículo, compartió en X que, al muestrear aleatoriamente 200 respuestas y permitir que el modelo se autoverifique, Gemini 1.5 – al que llamó en broma un "modelo antiguo de principios de 2024" – podría superar a o1-preview e incluso acercarse a o1. Señaló que la autoverificación se vuelve más fácil a medida que se escala, lo cual es algo contraintuitivo pero interesante.

Pero no todos están convencidos. Matthew Guzdial, investigador de IA y profesor asistente en la Universidad de Alberta, dijo a TechCrunch que este enfoque funciona mejor cuando tienes una forma sólida de evaluar las respuestas. Sin embargo, la mayoría de las preguntas no son tan claras. Dijo: "Si no podemos escribir código para definir lo que queremos, no podemos usar la búsqueda [en tiempo de inferencia]. Para algo como la interacción lingüística general, no podemos hacer esto... Generalmente no es un gran enfoque para resolver la mayoría de los problemas."

Zhao respondió diciendo que su artículo en realidad examina casos en los que no hay una forma clara de evaluar las respuestas, y el modelo debe resolverlo por sí mismo. Argumentó que la brecha entre tener una forma clara de evaluar y no tenerla puede reducirse al escalar.

Mike Cook, investigador en King's College London, apoyó la opinión de Guzdial, diciendo que la búsqueda en tiempo de inferencia no mejora realmente el razonamiento del modelo. Es más bien una solución para la tendencia del modelo a cometer errores con confianza. Señaló que si tu modelo falla el 5% de las veces, revisar 200 intentos debería facilitar la detección de esos errores.

Esta noticia podría ser un poco decepcionante para la industria de la IA, que siempre está buscando formas de mejorar el "razonamiento" de los modelos sin gastar una fortuna. Como señalaron los autores del artículo, los modelos de razonamiento pueden acumular miles de dólares en costos computacionales solo para resolver un problema matemático.

Parece que la búsqueda de nuevas técnicas de escalado está lejos de terminar.

Actualizado el 20/3 a las 5:12 a.m. Pacífico: Se agregaron comentarios del coautor del estudio Eric Zhao, quien discrepa con la evaluación de un investigador independiente que criticó el trabajo.

Artículo relacionado
Estudio de Microsoft Revela Limitaciones de Modelos de IA en Depuración de Software Estudio de Microsoft Revela Limitaciones de Modelos de IA en Depuración de Software Modelos de IA de OpenAI, Anthropic y otros laboratorios líderes de IA se utilizan cada vez más para tareas de codificación. El CEO de Google, Sundar Pichai, señaló en octubre que la IA genera el 25% d
Soluciones impulsadas por IA podrían reducir significativamente las emisiones globales de carbono Soluciones impulsadas por IA podrían reducir significativamente las emisiones globales de carbono Un estudio reciente de la London School of Economics y Systemiq revela que la inteligencia artificial podría reducir sustancialmente las emisiones globales de carbono sin sacrificar las comodidades mo
Nuevo Estudio Revela Cuántos Datos Memorizan Realmente los LLMs Nuevo Estudio Revela Cuántos Datos Memorizan Realmente los LLMs ¿Cuánto Memorizan Realmente los Modelos de IA? Nueva Investigación Revela Ideas SorprendentesTodos sabemos que los modelos de lenguaje grandes (LLMs) como ChatGPT, Claude y Gemini se entrenan con enor
comentario (35)
0/200
DanielThomas
DanielThomas 24 de abril de 2025 01:49:41 GMT+02:00

AI 스케일링 돌파구는 멋지게 들리지만, 전문가들은 회의적이에요. 🤔 이제 뭘 믿어야 할지 모르겠어요. 그냥 과대광고일까요? 지켜볼게요, 하지만 기대는 하지 않을게요. 😴

BenRoberts
BenRoberts 23 de abril de 2025 20:12:49 GMT+02:00

This AI scaling law thing sounds cool, but it's hard to get excited when experts are so skeptical. It's like they're saying, 'Sure, it's interesting, but let's not get carried away.' I guess we'll see if it's the real deal or just another hype train. 🤔

PatrickMartinez
PatrickMartinez 21 de abril de 2025 21:31:56 GMT+02:00

Essa história de lei de escalabilidade de IA parece legal, mas é difícil se empolgar quando os especialistas são tão céticos. Parece que eles estão dizendo, 'Sim, é interessante, mas não vamos nos empolgar muito'. Vamos ver se é verdade ou só mais um hype. 🤔

JohnYoung
JohnYoung 20 de abril de 2025 02:36:43 GMT+02:00

AI 스케일링 법칙에 대한 소식은 흥미롭지만, 전문가들이 회의적이라서 흥분하기 어려워. '재미있지만 너무 기대하지 마세요'라는 느낌이야. 실제로 어떻게 될지 지켜봐야겠네. 🤔

HaroldMoore
HaroldMoore 17 de abril de 2025 13:24:24 GMT+02:00

AIのスケーリングブレイクスルーは面白そうだけど、専門家は懐疑的。🤔 もう何を信じればいいのかわからない。ただの誇大広告かも?注目はするけど、期待はしないよ。😴

AlbertLee
AlbertLee 16 de abril de 2025 17:25:29 GMT+02:00

El avance en la escala de IA suena genial, pero todavía no lo compro. Es todo un hype en las redes sociales, pero los expertos son escépticos. Esperaré más pruebas sólidas antes de subirme al carro. 🤔

Volver arriba
OR