選項
首頁
消息
AI學者在Alphago的國際象棋勝利背後獲得了Turing獎的技術

AI學者在Alphago的國際象棋勝利背後獲得了Turing獎的技術

2025-04-18
100

AI學者在Alphago的國際象棋勝利背後獲得了Turing獎的技術

Na década passada, a inteligência artificial nos deslumbrou com seus avanços, principalmente por meio de uma técnica em que os computadores fazem escolhas aleatórias e aprendem com os resultados. Este método, conhecido como Aprendizagem de Reforço, tem sido fundamental para alcançar feitos notáveis ​​na IA.

Pegue o programa AlphaZero do Google Deepmind a partir de 2016, que até 2018 havia dominado os complexos jogos de xadrez, shogi e go. Da mesma forma, o Alphastar usou essa abordagem para atingir o nível "Grandmaster" no videogame *Starcraft II *. Essas realizações destacam o poder do aprendizado de reforço.

Na quarta -feira, o campo comemorou um marco significativo, pois dois estudiosos da IA ​​foram homenageados por seu trabalho inovador no avanço do aprendizado de reforço. Andrew G. Barto, professor emérito da Universidade de Massachusetts, Amherst, e Richard S. Sutton, professor da Universidade de Alberta, Canadá, recebeu o prestigiado 2025 Turing Award da Association for Computing Machinery (ACM).

Reconhecimento de pioneiros no aprendizado de reforço

O ACM elogiou Barto e Sutton por estabelecer as bases para o aprendizado de reforço, afirmando que "introduziram as principais idéias, construíram as fundações matemáticas e desenvolveram algoritmos importantes". Esse elogio, que vem com um prêmio de US $ 1 milhão, é frequentemente visto como o equivalente da indústria de computadores a um prêmio Nobel.

O aprendizado de reforço pode ser comparado a um mouse navegar um labirinto para encontrar queijo. O mouse aprende quais caminhos levam ao progresso e aos quais para becos sem saída. Da mesma forma, os neurocientistas acreditam que os seres inteligentes, como ratos, desenvolvem um "modelo interno do mundo" para orientar suas ações.

Sutton e Barto propuseram que os computadores também pudessem desenvolver esses modelos internos. No aprendizado de reforço, o computador reúne dados sobre seu ambiente - seja um labirinto ou um quadro de xadrez - e inicialmente age aleatoriamente. Recebe feedback na forma de recompensas ou penalidades, o que ajuda a estimar os resultados de diferentes ações. Com base nessas estimativas, o programa desenvolve uma "política" para orientar as decisões futuras, equilibrando a exploração de novas ações com a exploração dos conhecidos bem -sucedidos.

O papel da exploração e exploração

Na sua essência, o aprendizado de reforço requer um delicado equilíbrio entre explorar novas possibilidades e explorar estratégias conhecidas. Nenhuma das abordagens por si só é suficiente para o sucesso.

Para aqueles interessados ​​em mergulhar mais profundamente, o livro didático de Sutton e Barto em 2018 sobre o assunto é um recurso valioso.

Vale a pena notar que o termo "aprendizado de reforço" às vezes é usado de maneira diferente por empresas como o OpenAI, que empregam "aprendizado de reforço com feedback humano" (RLHF) para refinar os resultados de grandes modelos de idiomas como o GPT. No entanto, isso é distinto do método desenvolvido por Sutton e Barto.

Aprendizagem de reforço como uma teoria do pensamento

Sutton, que era um cientista de pesquisa distinto da DeepMind de 2017 a 2023, argumentou que o aprendizado de reforço não é apenas uma técnica, mas uma "teoria do pensamento". Ele expressou preocupação com a falta de uma teoria computacional na IA, afirmando que "o aprendizado de reforço é a primeira teoria computacional da inteligência".

Além de suas aplicações técnicas, o aprendizado de reforço também pode esclarecer a criatividade e o jogo livre como expressões de inteligência. Sutton e Barto destacaram o papel do jogo na aprendizagem, sugerindo que a curiosidade impulsiona a exploração. Sutton enfatizou que o jogo pode envolver a definição de metas que podem não ser imediatamente úteis, mas podem ser benéficas posteriormente.

"O jogo é uma grande coisa", observou Sutton, indicando seu papel significativo no contexto mais amplo de aprendizado e inteligência.

A jornada do aprendizado de reforço, de seu trabalho fundamental de Barto e Sutton até sua aplicação em jogos e além, continua a ultrapassar os limites do que a IA pode alcançar.

相關文章
AI在醫療諮詢中的應用:轉型醫療保健 AI在醫療諮詢中的應用:轉型醫療保健 人工智慧正迅速重塑醫療保健格局,原因顯而易見。技術進步的速度為過去認為不可能的可能性開啟了大門。本文深入探討AI在醫療諮詢中的轉型潛力,探索其如何提升患者照護,同時應對倫理困境與實際挑戰。通過了解AI如何無縫融入醫療系統,我們可以為更優質、更高效的醫療實踐鋪平道路。為何AI在醫療諮詢中重要AI在醫療諮詢中的核心代表了醫療方式的重大進步。這些系統利用機器學習、自然語言處理和數據分析,篩選大量醫療數據
奧拉尼,迪士尼度假村與水療中心:您的家庭終極夏威夷度假 奧拉尼,迪士尼度假村與水療中心:您的家庭終極夏威夷度假 探索奧拉尼:迪士尼風情的夏威夷天堂您是否夢想一個結合迪士尼魔法與夏威夷絕美景色的家庭度假?奧拉尼,位於歐胡島柯奧利納的迪士尼度假村與水療中心正是您的理想選擇。這不是典型的迪士尼目的地;它獨特地融合了放鬆、文化沉浸和迪士尼魅力,打造出夏威夷天堂。從踏入奧拉尼的那一刻起,您將感受到溫暖的阿羅哈精神和迪士尼一貫的卓越服務。度假村的設計巧妙融入夏威夷傳統與藝術,營造出寧靜而迷人的氛圍。奧拉尼體驗:不僅僅是
Airbnb在美國悄然推出AI客服機器人 Airbnb在美國悄然推出AI客服機器人 Airbnb將AI驅動的客服提升至新高度上個月,在Airbnb的第一季度財報電話會議上,執行長布萊恩·切斯基宣布,該公司在美國已開始推出AI驅動的客服機器人。從去年Airbnb透露正在測試這項技術(僅限於特定查詢)到現在,已經歷了一段旅程。如今,切斯基自豪地表示,50%的美國Airbnb用戶已使用AI機器人滿足客服需求。展望未來,切斯基確認公司計劃本月在美國全國範圍內擴展此功能。他強調AI在提升客
評論 (10)
0/200
WalterSanchez
WalterSanchez 2025-04-21 08:00:00

The AI Scholars winning the Turing Prize for the technique behind AlphaGo's chess victory is mind-blowing! It's fascinating to see how reinforcement learning has propelled AI to such heights. The only thing is, it's a bit too technical for me at times, but still, it's a testament to human ingenuity. Keep pushing the boundaries! 🧠

EdwardTaylor
EdwardTaylor 2025-04-21 08:00:00

AlphaGoのチェス勝利の背後にある技術でAI Scholarsがチューリング賞を受賞したのは驚きです!強化学習がAIをこれほどの高みに押し上げたのを見るのは魅力的です。ただ、時々技術的な内容が難しすぎることがありますが、それでも人間の創意工夫の証です。境界を押し広げ続けてください!🧠

AndrewGarcía
AndrewGarcía 2025-04-19 08:00:00

Os AI Scholars ganharem o Prêmio Turing pela técnica por trás da vitória do AlphaGo no xadrez é impressionante! É fascinante ver como o aprendizado por reforço impulsionou a IA a tais alturas. A única coisa é que às vezes é um pouco técnico demais para mim, mas ainda assim, é um testemunho da engenhosidade humana. Continue expandindo os limites! 🧠

DouglasHarris
DouglasHarris 2025-04-19 08:00:00

एआई स्कॉलर्स को अल्फागो की शतरंज की जीत के पीछे की तकनीक के लिए ट्यूरिंग पुरस्कार मिलना मन को उड़ा देने वाला है! यह देखना रोमांचक है कि कैसे रीइनफोर्समेंट लर्निंग ने एआई को ऐसी ऊंचाइयों तक पहुंचाया है। एकमात्र बात यह है कि कभी-कभी यह मेरे लिए थोड़ा बहुत तकनीकी हो जाता है, लेकिन फिर भी, यह मानवीय सृजनशीलता का प्रमाण है। सीमाओं को धक्का देते रहें! 🧠

BruceMiller
BruceMiller 2025-04-20 08:00:00

Les AI Scholars remportant le Prix Turing pour la technique derrière la victoire aux échecs d'AlphaGo est époustouflant ! C'est fascinant de voir comment l'apprentissage par renforcement a propulsé l'IA à de tels sommets. La seule chose, c'est que c'est parfois un peu trop technique pour moi, mais c'est tout de même un témoignage de l'ingéniosité humaine. Continuez à repousser les limites ! 🧠

ArthurBrown
ArthurBrown 2025-04-22 08:00:00

The AI Scholars Awarded Turing Prize really blew my mind! The way they used reinforcement learning to make AlphaGo win at chess is just genius. It's like watching a sci-fi movie come to life. I wish I understood the tech better, but it's still super cool! 🤓

回到頂部
OR