옵션
소식
AI 학자들은 Alphago의 체스 승리 뒤에 기술로 튜링 상을 수상했습니다.

AI 학자들은 Alphago의 체스 승리 뒤에 기술로 튜링 상을 수상했습니다.

2025년 4월 18일
100

AI 학자들은 Alphago의 체스 승리 뒤에 기술로 튜링 상을 수상했습니다.

Na década passada, a inteligência artificial nos deslumbrou com seus avanços, principalmente por meio de uma técnica em que os computadores fazem escolhas aleatórias e aprendem com os resultados. Este método, conhecido como Aprendizagem de Reforço, tem sido fundamental para alcançar feitos notáveis ​​na IA.

Pegue o programa AlphaZero do Google Deepmind a partir de 2016, que até 2018 havia dominado os complexos jogos de xadrez, shogi e go. Da mesma forma, o Alphastar usou essa abordagem para atingir o nível "Grandmaster" no videogame *Starcraft II *. Essas realizações destacam o poder do aprendizado de reforço.

Na quarta -feira, o campo comemorou um marco significativo, pois dois estudiosos da IA ​​foram homenageados por seu trabalho inovador no avanço do aprendizado de reforço. Andrew G. Barto, professor emérito da Universidade de Massachusetts, Amherst, e Richard S. Sutton, professor da Universidade de Alberta, Canadá, recebeu o prestigiado 2025 Turing Award da Association for Computing Machinery (ACM).

Reconhecimento de pioneiros no aprendizado de reforço

O ACM elogiou Barto e Sutton por estabelecer as bases para o aprendizado de reforço, afirmando que "introduziram as principais idéias, construíram as fundações matemáticas e desenvolveram algoritmos importantes". Esse elogio, que vem com um prêmio de US $ 1 milhão, é frequentemente visto como o equivalente da indústria de computadores a um prêmio Nobel.

O aprendizado de reforço pode ser comparado a um mouse navegar um labirinto para encontrar queijo. O mouse aprende quais caminhos levam ao progresso e aos quais para becos sem saída. Da mesma forma, os neurocientistas acreditam que os seres inteligentes, como ratos, desenvolvem um "modelo interno do mundo" para orientar suas ações.

Sutton e Barto propuseram que os computadores também pudessem desenvolver esses modelos internos. No aprendizado de reforço, o computador reúne dados sobre seu ambiente - seja um labirinto ou um quadro de xadrez - e inicialmente age aleatoriamente. Recebe feedback na forma de recompensas ou penalidades, o que ajuda a estimar os resultados de diferentes ações. Com base nessas estimativas, o programa desenvolve uma "política" para orientar as decisões futuras, equilibrando a exploração de novas ações com a exploração dos conhecidos bem -sucedidos.

O papel da exploração e exploração

Na sua essência, o aprendizado de reforço requer um delicado equilíbrio entre explorar novas possibilidades e explorar estratégias conhecidas. Nenhuma das abordagens por si só é suficiente para o sucesso.

Para aqueles interessados ​​em mergulhar mais profundamente, o livro didático de Sutton e Barto em 2018 sobre o assunto é um recurso valioso.

Vale a pena notar que o termo "aprendizado de reforço" às vezes é usado de maneira diferente por empresas como o OpenAI, que empregam "aprendizado de reforço com feedback humano" (RLHF) para refinar os resultados de grandes modelos de idiomas como o GPT. No entanto, isso é distinto do método desenvolvido por Sutton e Barto.

Aprendizagem de reforço como uma teoria do pensamento

Sutton, que era um cientista de pesquisa distinto da DeepMind de 2017 a 2023, argumentou que o aprendizado de reforço não é apenas uma técnica, mas uma "teoria do pensamento". Ele expressou preocupação com a falta de uma teoria computacional na IA, afirmando que "o aprendizado de reforço é a primeira teoria computacional da inteligência".

Além de suas aplicações técnicas, o aprendizado de reforço também pode esclarecer a criatividade e o jogo livre como expressões de inteligência. Sutton e Barto destacaram o papel do jogo na aprendizagem, sugerindo que a curiosidade impulsiona a exploração. Sutton enfatizou que o jogo pode envolver a definição de metas que podem não ser imediatamente úteis, mas podem ser benéficas posteriormente.

"O jogo é uma grande coisa", observou Sutton, indicando seu papel significativo no contexto mais amplo de aprendizado e inteligência.

A jornada do aprendizado de reforço, de seu trabalho fundamental de Barto e Sutton até sua aplicação em jogos e além, continua a ultrapassar os limites do que a IA pode alcançar.

관련 기사
의료 자문에서의 AI: 의료 혁신 의료 자문에서의 AI: 의료 혁신 인공지능은 의료 환경을 빠르게 변화시키고 있으며, 그 이유를 이해하기 어렵지 않다. 기술 발전의 속도는 이전에는 불가능하다고 여겨졌던 가능성을 열었다. 이 기사는 의료 자문에서 AI의 혁신적 잠재력을 탐구하며, 환자 치료를 개선하면서 윤리적 딜레마와 실제적 도전 과제를 다룬다. AI가 의료 시스템에 원활히 통합되는 방식을 이해함으로써 더 나은, 더 효율적인
Aulani, Disney's Resort & Spa: 가족을 위한 궁극의 하와이 휴양지 Aulani, Disney's Resort & Spa: 가족을 위한 궁극의 하와이 휴양지 Aulani 발견: 디즈니의 매력을 더한 하와이 낙원디즈니의 마법과 하와이의 멋진 아름다움이 결합된 가족 휴가를 꿈꾸고 있나요? 오아후 코 올리나에 위치한 Aulani, Disney Resort & Spa를 만나보세요. 이곳은 전형적인 디즈니 목적지가 아닙니다. 휴식, 문화 몰입, 그리고 디즈니의 매력이 하와이 낙원에 완벽히 어우러진 독특한 장소입니다. A
Airbnb가 미국에서 조용히 AI 고객 서비스 봇을 출시하다 Airbnb가 미국에서 조용히 AI 고객 서비스 봇을 출시하다 Airbnb가 AI 기반 고객 서비스를 새로운 차원으로 끌어올리다지난 달, Airbnb의 1분기 실적 발표에서 CEO 브라이언 체스키는 미국에서 AI 기반 고객 서비스 봇을 출시하기 시작했다고 밝혔다. 작년에 Airbnb가 이 기술을 특정 문의에 대해 테스트하고 있다고 밝힌 이후로 많은 발전이 있었다. 오늘날 체스키는 미국 내 Airbnb 사용자 50%가
의견 (10)
0/200
WalterSanchez
WalterSanchez 2025년 4월 21일 오전 12시 0분 0초 GMT

The AI Scholars winning the Turing Prize for the technique behind AlphaGo's chess victory is mind-blowing! It's fascinating to see how reinforcement learning has propelled AI to such heights. The only thing is, it's a bit too technical for me at times, but still, it's a testament to human ingenuity. Keep pushing the boundaries! 🧠

EdwardTaylor
EdwardTaylor 2025년 4월 21일 오전 12시 0분 0초 GMT

AlphaGoのチェス勝利の背後にある技術でAI Scholarsがチューリング賞を受賞したのは驚きです!強化学習がAIをこれほどの高みに押し上げたのを見るのは魅力的です。ただ、時々技術的な内容が難しすぎることがありますが、それでも人間の創意工夫の証です。境界を押し広げ続けてください!🧠

AndrewGarcía
AndrewGarcía 2025년 4월 19일 오전 12시 0분 0초 GMT

Os AI Scholars ganharem o Prêmio Turing pela técnica por trás da vitória do AlphaGo no xadrez é impressionante! É fascinante ver como o aprendizado por reforço impulsionou a IA a tais alturas. A única coisa é que às vezes é um pouco técnico demais para mim, mas ainda assim, é um testemunho da engenhosidade humana. Continue expandindo os limites! 🧠

DouglasHarris
DouglasHarris 2025년 4월 19일 오전 12시 0분 0초 GMT

एआई स्कॉलर्स को अल्फागो की शतरंज की जीत के पीछे की तकनीक के लिए ट्यूरिंग पुरस्कार मिलना मन को उड़ा देने वाला है! यह देखना रोमांचक है कि कैसे रीइनफोर्समेंट लर्निंग ने एआई को ऐसी ऊंचाइयों तक पहुंचाया है। एकमात्र बात यह है कि कभी-कभी यह मेरे लिए थोड़ा बहुत तकनीकी हो जाता है, लेकिन फिर भी, यह मानवीय सृजनशीलता का प्रमाण है। सीमाओं को धक्का देते रहें! 🧠

BruceMiller
BruceMiller 2025년 4월 20일 오전 12시 0분 0초 GMT

Les AI Scholars remportant le Prix Turing pour la technique derrière la victoire aux échecs d'AlphaGo est époustouflant ! C'est fascinant de voir comment l'apprentissage par renforcement a propulsé l'IA à de tels sommets. La seule chose, c'est que c'est parfois un peu trop technique pour moi, mais c'est tout de même un témoignage de l'ingéniosité humaine. Continuez à repousser les limites ! 🧠

ArthurBrown
ArthurBrown 2025년 4월 22일 오전 12시 0분 0초 GMT

The AI Scholars Awarded Turing Prize really blew my mind! The way they used reinforcement learning to make AlphaGo win at chess is just genius. It's like watching a sci-fi movie come to life. I wish I understood the tech better, but it's still super cool! 🤓

위로 돌아갑니다
OR