opción
Hogar
Noticias
AI Scholars otorgó el premio Turing por técnica detrás de la victoria de ajedrez de Alphago

AI Scholars otorgó el premio Turing por técnica detrás de la victoria de ajedrez de Alphago

18 de abril de 2025
128

AI Scholars otorgó el premio Turing por técnica detrás de la victoria de ajedrez de Alphago

En la última década, la inteligencia artificial nos ha deslumbrado con sus avances, particularmente a través de una técnica en la que las computadoras toman decisiones aleatorias y aprenden de los resultados. Este método, conocido como aprendizaje por refuerzo, ha sido fundamental para lograr hazañas notables en la IA.

Toma como ejemplo el programa AlphaZero de Google DeepMind de 2016, que para 2018 había dominado los complejos juegos de ajedrez, shogi y Go. De manera similar, AlphaStar utilizó este enfoque para alcanzar el nivel de "gran maestro" en el videojuego *Starcraft II*. Estos logros destacan el poder del aprendizaje por refuerzo.

El miércoles, el campo celebró un hito significativo cuando dos académicos de IA fueron honrados por su trabajo innovador en el avance del aprendizaje por refuerzo. Andrew G. Barto, profesor emérito de la Universidad de Massachusetts, Amherst, y Richard S. Sutton, profesor de la Universidad de Alberta, Canadá, recibieron el prestigioso Premio Turing 2025 de la Asociación para la Maquinaria de Computación (ACM).

Reconocimiento a los pioneros en el aprendizaje por refuerzo

La ACM elogió a Barto y Sutton por sentar las bases del aprendizaje por refuerzo, afirmando que "introdujeron las ideas principales, construyeron los fundamentos matemáticos y desarrollaron algoritmos importantes." Este galardón, que incluye un premio de $1 millón, es frecuentemente considerado el equivalente en la industria informática a un Premio Nobel.

El aprendizaje por refuerzo puede compararse con un ratón que navega por un laberinto para encontrar queso. El ratón aprende qué caminos conducen al progreso y cuáles a callejones sin salida. De manera similar, los neurocientíficos creen que los seres inteligentes, como los ratones, desarrollan un "modelo interno del mundo" para guiar sus acciones.

Sutton y Barto propusieron que las computadoras también podrían desarrollar tales modelos internos. En el aprendizaje por refuerzo, la computadora recopila datos sobre su entorno —ya sea un laberinto o un tablero de ajedrez— y actúa inicialmente de manera aleatoria. Recibe retroalimentación en forma de recompensas o penalizaciones, lo que le ayuda a estimar los resultados de diferentes acciones. Con base en estas estimaciones, el programa desarrolla una "política" para guiar decisiones futuras, equilibrando la exploración de nuevas acciones con la explotación de las ya conocidas como exitosas.

El papel de la exploración y la explotación

En su esencia, el aprendizaje por refuerzo requiere un delicado equilibrio entre explorar nuevas posibilidades y explotar estrategias conocidas. Ningún enfoque por sí solo es suficiente para el éxito.

Para aquellos interesados en profundizar, el libro de texto de 2018 de Sutton y Barto sobre el tema es un recurso valioso.

Es importante señalar que el término "aprendizaje por refuerzo" a veces se usa de manera diferente por empresas como OpenAI, que emplean el "aprendizaje por refuerzo con retroalimentación humana" (RLHF) para refinar las salidas de modelos de lenguaje grandes como GPT. Sin embargo, esto es distinto del método desarrollado por Sutton y Barto.

El aprendizaje por refuerzo como una teoría del pensamiento

Sutton, quien fue Investigador Distinguido en DeepMind de 2017 a 2023, ha argumentado que el aprendizaje por refuerzo no es solo una técnica, sino una "teoría del pensamiento." Ha expresado preocupación por la falta de una teoría computacional en la IA, afirmando que "el aprendizaje por refuerzo es la primera teoría computacional de la inteligencia."

Más allá de sus aplicaciones técnicas, el aprendizaje por refuerzo también puede arrojar luz sobre la creatividad y el juego libre como expresiones de la inteligencia. Sutton y Barto han destacado el papel del juego en el aprendizaje, sugiriendo que la curiosidad impulsa la exploración. Sutton ha enfatizado que el juego puede implicar establecer metas que no sean inmediatamente útiles, pero que podrían resultar beneficiosas más adelante.

"El juego es algo grande," comentó Sutton, indicando su papel significativo en el contexto más amplio del aprendizaje y la inteligencia.

El viaje del aprendizaje por refuerzo, desde su trabajo fundacional por Barto y Sutton hasta su aplicación en juegos y más allá, continúa empujando los límites de lo que la IA puede lograr.

Artículo relacionado
La aplicación Gemini de Google añade vídeo con IA en tiempo real, Deep Research y nuevas funciones (120 caracteres) La aplicación Gemini de Google añade vídeo con IA en tiempo real, Deep Research y nuevas funciones (120 caracteres) Google desveló importantes mejoras de Gemini AI durante su conferencia para desarrolladores I/O 2025, ampliando las capacidades multimodales, introduciendo modelos de AI de nueva generación y reforzan
Assort Health obtiene 50 millones de dólares para automatizar la comunicación con los pacientes Assort Health obtiene 50 millones de dólares para automatizar la comunicación con los pacientes Assort Health, una empresa emergente especializada en comunicaciones automatizadas con los pacientes para consultas especializadas, ha obtenido aproximadamente 50 millones de dólares en financiación d
Genere fórmulas de Excel al instante con la herramienta de Excel basada en inteligencia artificial Genere fórmulas de Excel al instante con la herramienta de Excel basada en inteligencia artificial Transforme el flujo de trabajo de sus hojas de cálculo con GPTExcel, la solución basada en IA que convierte descripciones en lenguaje natural en fórmulas precisas de Excel y Google Sheets. Esta potent
comentario (12)
0/200
NicholasAdams
NicholasAdams 16 de agosto de 2025 13:00:59 GMT+02:00

This reinforcement learning stuff is wild! AlphaGo beating chess champs? Mind blown 🤯. Makes me wonder how far AI can push human limits—scary but exciting!

GeorgeTaylor
GeorgeTaylor 10 de agosto de 2025 21:00:59 GMT+02:00

Mind-blowing how reinforcement learning led to AlphaGo's chess win! 🤯 Makes me wonder what other games AI will conquer next.

ArthurBrown
ArthurBrown 22 de abril de 2025 00:39:03 GMT+02:00

The AI Scholars Awarded Turing Prize really blew my mind! The way they used reinforcement learning to make AlphaGo win at chess is just genius. It's like watching a sci-fi movie come to life. I wish I understood the tech better, but it's still super cool! 🤓

EdwardTaylor
EdwardTaylor 21 de abril de 2025 06:00:52 GMT+02:00

AlphaGoのチェス勝利の背後にある技術でAI Scholarsがチューリング賞を受賞したのは驚きです!強化学習がAIをこれほどの高みに押し上げたのを見るのは魅力的です。ただ、時々技術的な内容が難しすぎることがありますが、それでも人間の創意工夫の証です。境界を押し広げ続けてください!🧠

WalterSanchez
WalterSanchez 21 de abril de 2025 03:09:05 GMT+02:00

The AI Scholars winning the Turing Prize for the technique behind AlphaGo's chess victory is mind-blowing! It's fascinating to see how reinforcement learning has propelled AI to such heights. The only thing is, it's a bit too technical for me at times, but still, it's a testament to human ingenuity. Keep pushing the boundaries! 🧠

WillieJackson
WillieJackson 20 de abril de 2025 11:42:21 GMT+02:00

¡Los académicos de IA que recibieron el Premio Turing por la técnica detrás de la victoria de AlphaGo en el ajedrez me dejaron asombrado! Usar el aprendizaje por refuerzo para ganar es genial. Me gustaría entender mejor la tecnología, pero aún así es muy cool! 🤓

Volver arriba
OR