La IA ZeroSearch de Alibaba reduce los costes de formación en un 88% gracias al aprendizaje autónomo

ZeroSearch de Alibaba: Un cambio en la eficiencia del entrenamiento de IA
Los investigadores del Grupo Alibaba han sido pioneros en un método innovador que podría revolucionar la forma en que los sistemas de inteligencia artificial aprenden a recuperar información, evitando por completo las costosas API de los motores de búsqueda comerciales. Su tecnología ZeroSearch permite a grandes modelos lingüísticos cultivar sofisticadas capacidades de búsqueda a través de entornos simulados en lugar de interacciones convencionales con motores de búsqueda durante las fases de entrenamiento.
"El aprendizaje por refuerzo tradicional requiere amplias solicitudes de búsqueda que acumulan importantes costes de API y dificultan la escalabilidad", explican los investigadores en su artículo arXiv recién publicado. "ZeroSearch representa un marco de aprendizaje por refuerzo rentable que mejora las capacidades de búsqueda LLM independientes de los motores de búsqueda reales".
Mecánica del entrenamiento sin búsqueda
Los métodos actuales de entrenamiento de IA se enfrentan a dos limitaciones principales: la calidad inconsistente de los documentos de los motores de búsqueda comerciales durante los ciclos de entrenamiento, y los gastos prohibitivos de los volúmenes masivos de llamadas API a servicios como Google Search.
ZeroSearch aplica un enfoque innovador en dos fases:
- El ajuste supervisado inicial convierte un LLM en un módulo de generación de documentos.
- El refuerzo avanzado basado en el currículo varía progresivamente la calidad de la salida
"Nuestro descubrimiento fundamental revela que los LLM preentrenados poseen de forma inherente suficiente conocimiento del mundo para generar documentos contextualmente apropiados", señalan los investigadores. "La principal diferencia entre los resultados de la búsqueda simulada y la real son las diferencias de estilo textual, más que las lagunas sustanciales de contenido".
Las pruebas de rendimiento muestran ventajas significativas
Pruebas rigurosas en siete conjuntos de datos distintos de respuesta a preguntas demostraron la ventaja competitiva de ZeroSearch:
- 7B modelos de parámetros igualaron la precisión de la Búsqueda de Google
- 14B configuraciones de parámetros superaron el rendimiento de búsqueda comercial
Las implicaciones económicas son especialmente sorprendentes:
- Entrenamiento tradicional con 64.000 consultas: 586,70 $ a través de SerpAPI
- Equivalente a ZeroSearch: 70,80 $ utilizando cuatro GPU A100
- Reducción total de costes: 88
"Estos resultados validan los LLM como sustitutos viables de los motores de búsqueda convencionales en implementaciones de aprendizaje por refuerzo", concluye el equipo de investigación.
Implicaciones más amplias para el desarrollo de la IA
ZeroSearch supone un cambio de paradigma en las metodologías de entrenamiento de la inteligencia artificial al demostrar el desarrollo autónomo de capacidades sin dependencias de herramientas externas.
La tecnología promete varios impactos transformadores:
- Democratización de costes: Reduce las barreras financieras para las startups al eliminar las costosas dependencias de API.
- Control del entrenamiento: Permite una regulación precisa de las entradas de información durante el desarrollo del modelo
- Flexibilidad arquitectónica: Compatible con las principales familias de modelos, como Qwen-2.5 y LLaMA-3.2.
Alibaba ha puesto a disposición del público la implementación completa -incluidas las bases de código, los conjuntos de datos de entrenamiento y los modelos preentrenados- a través de los repositorios GitHub y Hugging Face.
Esta innovación prefigura un panorama emergente de desarrollo de IA en el que las capacidades avanzadas surgen a través de una simulación sofisticada en lugar de depender de servicios externos. A medida que maduren estas técnicas de entrenamiento autosuficientes, podrían remodelar sustancialmente las actuales dependencias del ecosistema tecnológico de las API de las principales plataformas.
Artículo relacionado
Los principales laboratorios de IA advierten de que la humanidad está perdiendo el control sobre la comprensión de los sistemas de IA
En una muestra de unidad sin precedentes, investigadores de OpenAI, Google DeepMind, Anthropic y Meta han dejado de lado sus diferencias competitivas para lanzar una advertencia colectiva sobre el des
Actualización de la IA de Anthropic: Claude ahora busca en todo el espacio de trabajo de Google al instante
La importante actualización de hoy de Anthropic transforma a Claude de un asistente de IA en lo que la empresa denomina un "verdadero colaborador virtual", introduciendo innovadoras capacidades de inv
¿La personalización de la IA mejora la realidad o la distorsiona? Análisis de los riesgos ocultos
La civilización humana ya ha sido testigo de revoluciones cognitivas: la escritura a mano externalizó la memoria, las calculadoras automatizaron el cálculo, los sistemas GPS sustituyeron a la orientac
comentario (0)
0/200
ZeroSearch de Alibaba: Un cambio en la eficiencia del entrenamiento de IA
Los investigadores del Grupo Alibaba han sido pioneros en un método innovador que podría revolucionar la forma en que los sistemas de inteligencia artificial aprenden a recuperar información, evitando por completo las costosas API de los motores de búsqueda comerciales. Su tecnología ZeroSearch permite a grandes modelos lingüísticos cultivar sofisticadas capacidades de búsqueda a través de entornos simulados en lugar de interacciones convencionales con motores de búsqueda durante las fases de entrenamiento.
"El aprendizaje por refuerzo tradicional requiere amplias solicitudes de búsqueda que acumulan importantes costes de API y dificultan la escalabilidad", explican los investigadores en su artículo arXiv recién publicado. "ZeroSearch representa un marco de aprendizaje por refuerzo rentable que mejora las capacidades de búsqueda LLM independientes de los motores de búsqueda reales".
Mecánica del entrenamiento sin búsqueda
Los métodos actuales de entrenamiento de IA se enfrentan a dos limitaciones principales: la calidad inconsistente de los documentos de los motores de búsqueda comerciales durante los ciclos de entrenamiento, y los gastos prohibitivos de los volúmenes masivos de llamadas API a servicios como Google Search.
ZeroSearch aplica un enfoque innovador en dos fases:
- El ajuste supervisado inicial convierte un LLM en un módulo de generación de documentos.
- El refuerzo avanzado basado en el currículo varía progresivamente la calidad de la salida
"Nuestro descubrimiento fundamental revela que los LLM preentrenados poseen de forma inherente suficiente conocimiento del mundo para generar documentos contextualmente apropiados", señalan los investigadores. "La principal diferencia entre los resultados de la búsqueda simulada y la real son las diferencias de estilo textual, más que las lagunas sustanciales de contenido".
Las pruebas de rendimiento muestran ventajas significativas
Pruebas rigurosas en siete conjuntos de datos distintos de respuesta a preguntas demostraron la ventaja competitiva de ZeroSearch:
- 7B modelos de parámetros igualaron la precisión de la Búsqueda de Google
- 14B configuraciones de parámetros superaron el rendimiento de búsqueda comercial
Las implicaciones económicas son especialmente sorprendentes:
- Entrenamiento tradicional con 64.000 consultas: 586,70 $ a través de SerpAPI
- Equivalente a ZeroSearch: 70,80 $ utilizando cuatro GPU A100
- Reducción total de costes: 88
"Estos resultados validan los LLM como sustitutos viables de los motores de búsqueda convencionales en implementaciones de aprendizaje por refuerzo", concluye el equipo de investigación.
Implicaciones más amplias para el desarrollo de la IA
ZeroSearch supone un cambio de paradigma en las metodologías de entrenamiento de la inteligencia artificial al demostrar el desarrollo autónomo de capacidades sin dependencias de herramientas externas.
La tecnología promete varios impactos transformadores:
- Democratización de costes: Reduce las barreras financieras para las startups al eliminar las costosas dependencias de API.
- Control del entrenamiento: Permite una regulación precisa de las entradas de información durante el desarrollo del modelo
- Flexibilidad arquitectónica: Compatible con las principales familias de modelos, como Qwen-2.5 y LLaMA-3.2.
Alibaba ha puesto a disposición del público la implementación completa -incluidas las bases de código, los conjuntos de datos de entrenamiento y los modelos preentrenados- a través de los repositorios GitHub y Hugging Face.
Esta innovación prefigura un panorama emergente de desarrollo de IA en el que las capacidades avanzadas surgen a través de una simulación sofisticada en lugar de depender de servicios externos. A medida que maduren estas técnicas de entrenamiento autosuficientes, podrían remodelar sustancialmente las actuales dependencias del ecosistema tecnológico de las API de las principales plataformas.












