Google reduce 10.000 veces los costes de formación en IA

Hogar

Noticias

13 de noviembre de 2025

HenryLopez

En el sector de la inteligencia artificial existe una paradoja fundamental. Mientras que las máquinas pueden manejar datos a una escala sin precedentes, el propio proceso de aprendizaje sigue siendo sorprendentemente ineficiente, enfrentándose a menudo al problema de los rendimientos decrecientes. Los métodos convencionales de aprendizaje automático requieren enormes conjuntos de datos meticulosamente etiquetados cuya producción puede llevar años y millones de dólares. Por lo general, estos métodos se basan en el principio de que a mayor cantidad de datos, mejores modelos de inteligencia artificial. Sin embargo, los investigadores de Google acaban de desvelar un nuevo enfoque que cuestiona este supuesto tan arraigado, demostrando que se puede conseguir un rendimiento comparable de la IA con hasta 10.000 veces menos datos de entrenamiento. Este avance puede cambiar radicalmente nuestro enfoque de la IA. Este artículo profundiza en cómo el equipo de Google ha alcanzado este hito, sus posibles implicaciones futuras y los retos y oportunidades que nos esperan.

El reto de los macrodatos en la IA

Durante décadas, la estrategia de la industria de la IA se ha regido por el mantra "más datos equivale a mejor IA". Los modelos lingüísticos masivos, como el GPT-4, se entrenan con billones de tokens de texto. Este enfoque de uso intensivo de datos supone un gran obstáculo para las organizaciones que carecen de grandes recursos o de conjuntos de datos únicos. En primer lugar, el coste de la anotación humana es considerable. Los expertos en etiquetado cobran honorarios elevados, y la gran cantidad de datos necesarios hace que los proyectos tengan un coste prohibitivo. En segundo lugar, gran parte de los datos recopilados suelen ser repetitivos y no contribuyen de forma significativa al proceso de aprendizaje. El enfoque tradicional también se tambalea cuando cambian los requisitos. Cada vez que se actualizan las políticas o aparecen nuevas formas de contenido problemático, las empresas se ven obligadas a reiniciar el proceso de etiquetado desde el principio, iniciando un ciclo continuo y costoso de adquisición de datos y reentrenamiento del modelo.

Afrontar los retos de Big Data con el aprendizaje activo

Una estrategia reconocida para abordar estos problemas de datos es la aplicación del aprendizaje activo. Esta técnica depende de un meticuloso proceso de selección que señala los ejemplos de entrenamiento más valiosos para que los revisores humanos los etiqueten. El concepto central es que los modelos aprenden de forma más eficaz a partir de los ejemplos que les resultan más difíciles, en lugar de ingerir pasivamente todos los puntos de datos disponibles. A diferencia de los métodos tradicionales de IA que dependen de grandes conjuntos de datos, el aprendizaje activo adopta una postura más táctica al concentrarse en recopilar sólo las muestras más informativas. Esta estrategia ayuda a evitar la ineficacia de etiquetar datos obvios o redundantes que ofrecen un valor mínimo al modelo. En su lugar, el aprendizaje activo se centra en los casos extremos y los casos inciertos que tienen un potencial significativo para mejorar el rendimiento del modelo.

Al dirigir el esfuerzo de los expertos hacia estos ejemplos críticos, el aprendizaje activo permite a los modelos aprender más rápida y eficazmente con muchos menos puntos de datos. Esta metodología tiene el potencial de resolver tanto el cuello de botella de los datos como las ineficiencias inherentes al aprendizaje automático convencional.

El enfoque de aprendizaje activo de Google

El equipo de investigación de Google ha aplicado con éxito este marco. Su novedosa técnica de aprendizaje activo demuestra que unos ejemplos meticulosamente seleccionados y de alta calidad pueden sustituir eficazmente a enormes volúmenes de datos etiquetados. Por ejemplo, su investigación indica que los modelos entrenados con menos de 500 ejemplos etiquetados por expertos rindieron tan bien, o incluso superaron, a los sistemas entrenados con 100.000 etiquetas estándar.

El proceso funciona a través de lo que Google denomina un sistema "LLM-as-Scout". Un gran modelo lingüístico examina primero cantidades ingentes de datos sin etiquetar y señala los casos en los que sus predicciones son más inciertas. Estos casos límite representan los escenarios precisos en los que el modelo requiere la intervención humana para afinar su toma de decisiones. El procedimiento comienza con un modelo inicial que etiqueta grandes conjuntos de datos mediante preguntas sencillas. A continuación, el sistema agrupa los ejemplos según sus clasificaciones previstas y señala las áreas en las que el modelo parece confundir las distintas categorías. Estas agrupaciones superpuestas revelan los puntos exactos en los que el juicio humano experto puede aportar el mayor valor.

La metodología se centra específicamente en pares de ejemplos muy similares pero con etiquetas diferentes. Estos casos límite son los escenarios exactos en los que la pericia humana es más crítica. Al centrar los esfuerzos de etiquetado de los expertos en estos ejemplos confusos, el sistema consigue una eficacia extraordinaria.

Calidad sobre cantidad

La investigación revela una idea fundamental sobre la calidad de los datos que contradice una creencia muy extendida en la IA. Demuestra que las etiquetas de los expertos, con su gran precisión y coherencia, superan de forma fiable a las anotaciones a gran escala realizadas por crowdsourcing. El equipo cuantificó este resultado mediante la Kappa de Cohen, una medida estadística que evalúa en qué medida las predicciones del modelo coinciden con el consenso de los expertos, más allá de lo que produciría el azar. En las pruebas de Google, los anotadores expertos obtuvieron puntuaciones Kappa de Cohen superiores a 0,8, lo que supera con creces los niveles que se alcanzan normalmente mediante crowdsourcing.

Esta coherencia superior permite a los modelos aprender eficazmente a partir de un número mucho menor de ejemplos. En las evaluaciones realizadas con Gemini Nano-1 y Nano-2, los modelos alcanzaron o superaron la alineación de los expertos con sólo 250-450 ejemplos cuidadosamente elegidos, frente a las aproximadamente 100.000 etiquetas aleatorias obtenidas mediante crowdsourcing, lo que supone una reducción de entre tres y cuatro órdenes de magnitud. Las ventajas, sin embargo, van más allá del simple uso de menos datos. Los modelos entrenados con esta técnica suelen superar el rendimiento de los entrenados con métodos convencionales. En el caso de tareas complejas y modelos de mayor tamaño, el aumento del rendimiento alcanzó entre un 55% y un 65% por encima de la línea de base, lo que indica una alineación más sólida y fiable con los expertos en políticas.

Por qué es importante este avance

Este avance llega en un momento crucial para el sector de la IA. A medida que los modelos se hacen más grandes y complejos, la estrategia tradicional de simplemente aumentar los datos de entrenamiento se ha vuelto cada vez más insostenible. El impacto medioambiental de la formación de modelos enormes sigue aumentando, y las barreras económicas de entrada siguen siendo formidables para muchas organizaciones.

El método de Google aborda varios retos del sector a la vez. La disminución radical de los costes de etiquetado hace que el desarrollo de la IA sea más factible para organizaciones y grupos de investigación más pequeños. Los ciclos de iteración más rápidos permiten una rápida adaptación a la evolución de los requisitos, lo que es crucial en áreas de rápida evolución como la moderación de contenidos y la ciberseguridad.

El planteamiento también tiene implicaciones más amplias para la seguridad y fiabilidad de la IA. Al concentrarse en los casos en los que los modelos son más inciertos, la técnica descubre de forma natural posibles puntos de fallo y casos límite. Este proceso da lugar a sistemas más robustos que conocen mejor sus propias limitaciones.

Implicaciones más amplias para el desarrollo de la IA

Este avance sugiere que podríamos estar entrando en una nueva era del desarrollo de la IA en la que la eficiencia prima sobre la escala. La filosofía convencional de "cuanto más grande, mejor" en relación con los datos de entrenamiento puede verse sustituida por métodos más refinados que hagan hincapié en la calidad de los datos y la selección estratégica.

Las consecuencias medioambientales por sí solas son considerables. El entrenamiento de grandes modelos de IA exige actualmente inmensos recursos computacionales y energía. Si pueden obtenerse resultados similares con una cantidad de datos drásticamente menor, la huella de carbono del desarrollo de la IA podría reducirse sustancialmente.

El efecto democratizador podría ser igualmente significativo. Los equipos de investigación y las organizaciones más pequeñas que antes no podían financiar iniciativas de recopilación masiva de datos tienen ahora una vía viable para desarrollar sistemas de IA competitivos. Este avance podría acelerar la innovación e introducir puntos de vista más diversos en el campo de la IA.

Limitaciones y consideraciones

A pesar de sus prometedores resultados, la metodología tropieza con varios obstáculos prácticos. La necesidad de contar con anotadores expertos que puedan alcanzar puntuaciones Kappa de Cohen superiores a 0,8 puede restringir su uso en campos con conocimientos limitados o normas poco claras. La investigación se centra principalmente en tareas de clasificación y aplicaciones de seguridad de contenidos. Queda por ver si pueden conseguirse mejoras espectaculares similares para otras tareas de IA como la generación de lenguaje o el razonamiento complejo.

La naturaleza iterativa del aprendizaje activo también añade complejidad en comparación con los métodos tradicionales de procesamiento por lotes. Las organizaciones deben establecer nuevos flujos de trabajo e infraestructuras para soportar los ciclos continuos de consulta y respuesta que facilitan el perfeccionamiento continuo de los modelos.

Es probable que en el futuro se investiguen métodos automatizados para mantener la calidad de las anotaciones a nivel de experto y crear versiones de la técnica básica específicas para cada ámbito. La integración de los principios del aprendizaje activo con otros métodos de eficiencia, como el ajuste de parámetros, podría mejorar aún más el rendimiento.

Conclusión

La investigación de Google demuestra que los datos específicos de alta calidad pueden superar a los conjuntos de datos masivos. Al concentrar los esfuerzos de etiquetado únicamente en los ejemplos más valiosos, redujeron los requisitos de datos de entrenamiento hasta 10.000 veces y, al mismo tiempo, mejoraron el rendimiento. Esta estrategia reduce costes, acelera el desarrollo, disminuye el impacto medioambiental y amplía el acceso a la IA avanzada. Representa un gran paso hacia un desarrollo más eficiente y sostenible de la IA.

Artículo relacionado

El principal inversor de Suno: eliminar las publicaciones no tapará el agujero de la demanda por derechos de autor La tan esperada plataforma de generación musical con IA, Suno, se enfrenta a una dura batalla por los derechos de autor, y un comentario sincero de su principal inversor podría haber proporcionado a l

Claude Opus 4.7 sale al mercado apostando por la fiabilidad por encima de la inteligencia Anthropic ha mantenido un ritmo frenético este año, lanzando nuevas funciones casi cada dos días. El tan esperado Claude Opus 4.7 acaba de salir oficialmente al mercado y, curiosamente, Anthropic fue

Haier lanza el robot exoesqueleto deportivo con IA más ligero del mundo, con un peso de tan solo 1,75 kg El Grupo Haier ha presentado el robot exoesqueleto con inteligencia artificial más ligero del mundo para el deporte: el Haier Exoskeleton Robot W3. Este lanzamiento establece un nuevo récord del secto

Recomendaciones de temas especiales relacionados

Creación de cómics

Los mejores generadores de IA para manga shonen: crea secuencias de acción trepidantes y efectos de energía

Descubre los mejores generadores de IA para manga shonen de 2026 en XIX.AI. Nuestra lista, cuidadosamente seleccionada y con las mejores valoraciones, incluye potentes herramientas para crear secuencias de acción trepidantes y efectos energéticos dinámicos. Compara las opciones gratuitas con las de pago mediante pruebas reales. ¡Libera tu potencial creativo y empieza a crear manga épico hoy mismo!

15 herramientas

xix.ai

Negocio

Los mejores gestores de gastos con IA: escanea recibos y clasifica automáticamente los gastos de la empresa

Los mejores gestores de gastos con IA de 2026: las herramientas mejor valoradas para escanear recibos y clasificar automáticamente los gastos de la empresa. Descubre soluciones potentes y revolucionarias para una gestión de gastos sin esfuerzo, un seguimiento financiero preciso y un cumplimiento normativo optimizado. Nuestra comparativa, seleccionada y actualizada semanalmente, entre opciones gratuitas y de pago te ayuda a encontrar la que mejor se adapta a tus necesidades. Aprovecha al máximo las ventajas de la IA con las recomendaciones de los expertos de XIX.AI.

10 herramientas

xix.ai

Negocio

Las mejores herramientas de selección de personal basadas en IA: filtrar currículos y automatizar la programación de entrevistas con los candidatos

Descubre las mejores herramientas de selección de personal basadas en IA de 2026 en XIX.AI. Nuestra lista, cuidadosamente seleccionada, incluye soluciones potentes y revolucionarias para la selección de currículos y la automatización de la programación de entrevistas con los candidatos. Compara las opciones gratuitas con las de pago gracias a pruebas reales y a clasificaciones que se actualizan semanalmente. ¡Encuentra tu asistente de selección de personal ideal y optimiza tu proceso de selección hoy mismo!

10 herramientas

xix.ai

Productividad

Entrenadores personales de bienestar y concentración basados en IA: controla el agotamiento y aumenta tus niveles de energía mental

Descubre los mejores entrenadores personales de bienestar y concentración basados en IA de 2026 en XIX.AI. Nuestras clasificaciones, cuidadosamente seleccionadas, incluyen herramientas revolucionarias y de primera categoría para gestionar el agotamiento y potenciar la energía mental. Compara las opciones gratuitas con las de pago gracias a información basada en casos reales. Descubre hoy mismo el camino hacia la máxima productividad y el bienestar.

10 herramientas

xix.ai

chatbot

Los mejores chatbots románticos con IA: crea relaciones duraderas con personalidades coherentes

Descubre los mejores chatbots románticos con IA de 2026 para establecer relaciones auténticas y duraderas. Nuestra lista seleccionada incluye personalidades sólidas y coherentes, comparativas entre versiones gratuitas y de pago, y pruebas en situaciones reales. Encuentra a tu compañero ideal y empieza a construir tu relación hoy mismo en XIX.AI.

10 herramientas

xix.ai

Educación y aprendizaje

Los mejores mentores en ciencia de datos y IA: dominan SQL, Pandas y flujos de trabajo de aprendizaje automático.

Descubra a los mejores mentores en ciencia de datos y AI de 2026 para dominar SQL, Pandas y flujos de trabajo de aprendizaje automático. Explore nuestra selección cuidadosamente seleccionada y altamente valorada en XIX.AI para obtener orientación poderosa que cambie completamente la situación. Compare las opciones gratuitas con las pagadas y obtenga información basada en casos reales. Desbloquee su dominio de la ciencia de datos hoy mismo.

10 herramientas

xix.ai

comentario (2)

0/500

Inicie sesión primero

RoyMartínez

23 de mayo de 2026 14:00:21 GMT+02:00

Also die Kosten um das 10.000-fache zu senken? Das klingt fast zu gut, um wahr zu sein. Google hat da wohl einen echten Durchbruch geschafft. Wenn das stimmt, könnte das die ganze KI-Entwicklung demokratisieren. Kleine Startups hätten dann plötzlich eine Chance. Aber ich frage mich, ob das nur für bestimmte Modelle oder Trainingsmethoden funktioniert. Die Details wären spannend! 🤔

BruceWalker

12 de mayo de 2026 18:00:09 GMT+02:00

Google這效率提升太驚人了！訓練成本降一萬倍，以後AI開發門檻會低很多吧？不過資料中心能耗問題還是得關注，希望別只顧速度忽略永續性 🌱

Noticias principales

AI Builder y Power Automate Revolucionan la Sumarización de Documentos Los anfitriones de AI del podcast Notebooklm ahora están disponibles para entrevistas China presenta su robot humanoide nacional y sus estándares de inteligencia incorporada Los datos de Ramp revelan un estancamiento en la adopción de la IA por parte de las empresas Guía de creación de arte con el creador de imágenes de Bing Aprende a crear música de IA usando tu voz: un tutorial de Suno paso a paso iMyFone MagicMic: Revisión y Tutorial de Cambio de Voz AI en Tiempo Real Generadores de Video AI Top de 2025: Pika Labs vs Alternativas DeepSeek V4 surge como un revolucionario sistema de IA multimodal Embodied Intelligence presenta la primera norma del sector para frenar el crecimiento descontrolado

Más

Presentado