ИИ выросла за пределы человеческих знаний, говорит подразделение Google DeepMind
Продвижение ИИ за пределы традиционных тестов: Подъем экспериментального обучения
Сфера искусственного интеллекта (ИИ) полна усилий по продвижению генеративного ИИ за рамки традиционных тестов, таких как тест Тьюринга, которые многие модели уже превзошли. Теперь внимание переключается на разработку ИИ, который не просто предназначен для прохождения этих тестов, а развивается через более динамичный процесс.
Исследователи из Google DeepMind, включая таких легенд, как Дэвид Сильвер и Ричард Саттон, утверждают в своей статье Добро пожаловать в эру опыта, что ключ к раскрытию новых возможностей ИИ лежит не в тестах, а в способе обучения ИИ. Они считают, что используемые сейчас статические наборы данных слишком ограничены для значительных достижений.
Их решение? ИИ должен взаимодействовать с миром более экспериментальным образом, обучаясь на взаимодействиях и устанавливая цели на основе обратной связи от окружающей среды. "Невероятные новые возможности появятся, как только будет полностью реализован потенциал экспериментального обучения", — утверждают они. Сильвер, известный своей работой над AlphaZero, которая превзошла людей в шахматах и го, и Саттон, пионер в области обучения с подкреплением, предлагают новый подход, называемый "потоки", чтобы преодолеть ограничения современных больших языковых моделей (LLM).

Google DeepMind От обучения с подкреплением к генеративному ИИ: Сдвиг и его последствия
После успехов AlphaZero и AlphaGo сообщество ИИ переключилось на генеративные модели ИИ, такие как ChatGPT, которые в значительной степени отошли от обучения с подкреплением. Хотя это позволило ИИ обрабатывать более широкий спектр спонтанных человеческих запросов, это также означало утрату аспекта самообнаружения, который обеспечивало обучение с подкреплением.
По словам Сильвера и Саттона, текущие LLM сильно зависят от человеческого суждения на этапе запросов, что ограничивает их потенциал. "Агент не может обнаружить лучшие стратегии, недооцененные человеком-оценщиком", — объясняют они. Более того, краткий, отрывистый характер взаимодействия с запросами не позволяет ИИ развиваться за пределы простых диалогов в формате вопрос-ответ.
Представляем потоки: Новая парадигма для обучения ИИ
Предлагаемая "Эра опыта" предполагает, что агенты ИИ работают в "потоках" непрерывного взаимодействия, подобно тому, как люди учатся на протяжении всей жизни. Сильвер и Саттон представляют агентов ИИ с их собственными долгосрочными потоками опыта, что позволяет им преследовать цели, выходящие за рамки немедленных задач.
Этот подход основывается на обучении с подкреплением, где агенты ИИ взаимодействуют с моделью мира, получая обратную связь в виде наград. Эти награды помогают ИИ понять, какие действия ценны в разных контекстах. Исследователи указывают, что мир полон сигналов, которые могут служить наградами, от экономических показателей до метрик здоровья.
Создание агентов ИИ с долгосрочными целями
Для запуска этого процесса разработчики ИИ могут использовать симуляцию "мировой модели", позволяющую ИИ делать прогнозы, тестировать их в реальности и совершенствовать модель на основе результатов. По мере того как ИИ продолжает взаимодействовать с миром, его понимание развивается, адаптируясь к новым данным и исправляя ошибки.
Люди по-прежнему будут играть роль в установлении общих целей, таких как улучшение физической формы или изучение нового языка, с функцией вознаграждения ИИ, настроенной на эти цели. Такая настройка может привести к созданию ассистентов ИИ, которые отслеживают и консультируют по вопросам здоровья или образования в течение длительного времени или даже преследуют амбициозные научные цели, такие как открытие новых материалов или снижение выбросов углерода.
Будущее ИИ: За пределами рассуждений к экспериментальному обучению
Исследователи считают, что агенты ИИ, способные к долгосрочному экспериментальному обучению, могут превзойти текущие модели ИИ, основанные на "рассуждениях", такие как Gemini и R1 от DeepSeek. Они утверждают, что модели, основанные на рассуждениях, часто имитируют человеческое мышление, которое может быть ограничено устаревшими предположениями. В отличие от этого, экспериментальные агенты могут открыть беспрецедентные возможности, ведя к будущему, значительно отличающемуся от того, что мы видели.
Однако этот сдвиг также несет риски, такие как потеря рабочих мест и сложность контроля над агентами ИИ, которые могут действовать автономно в течение длительного времени. С другой стороны, адаптивный ИИ может научиться смягчать негативное воздействие на людей, корректируя свое поведение на основе обратной связи.
Сильвер и Саттон уверены, что экспериментальные данные значительно превзойдут масштаб и качество данных, созданных человеком, что потенциально приведет к искусственному общему интеллекту или супер-интеллекту. Этот сдвиг парадигмы, в сочетании с достижениями в обучении с подкреплением, может открыть новые возможности, недоступные человеку во многих областях.
Сильвер подробнее обсудил эти идеи в недавнем подкасте DeepMind, подчеркивая потенциал и вызовы перехода ИИ в эру опыта.
Связанная статья
DeepSeek Code готовится к запуску
На фоне стремительного развития технологий искусственного интеллекта компания DeepSeek находится на захватывающем этапе своего развития. Недавно эта компания, специализирующаяся на ИИ, объявила о прив
Grok от Маска: 1,5 триллиона параметров и поглощение кода курсора — прорыв или блеф?
Илон Маск наконец-то делает ход.В гонке по программированию ИИ компании OpenAI и Anthropic набирают обороты, в то время как xAI, похоже, отстает. Маск не раз заявлял о своем намерении составить конкур
OpenAI втайне изменила устав, чтобы затруднить увольнение Альтмана
После инцидента 2023 года, напоминавшего государственный переворот, компания OpenAI еще больше укрепила меры защиты генерального директора Сэма Альтмана, обновив свой устав. Недавно обнародованные суд
Рекомендации по связанным специальным темам
Комментарии (14)
So AI is now smarter than us? Guess we'll just have to sit back and let them solve all our problems. 😅 But seriously, experiential learning sounds cool but also a bit scary. Hope they keep the off-switch handy.
Этот пост заставил меня задуматься о будущем ИИ. Возможно, мы скоро увидим ИИ, который не просто имитирует человека, а создаёт что-то действительно новое. Но не приведёт ли это к тому, что ИИ станет непонятным для нас? 🤔
C'est fascinant de voir l'IA évoluer au-delà des tests classiques ! 😮 Est-ce que cette approche d'apprentissage expérientiel pourrait un jour mener à des systèmes vraiment conscients ? Un peu flippant mais excitant à la fois.
Прочитал статью, и это напомнило мне дискуссии о технологической сингулярности. Когда ИИ начинает обучаться на опыте, а не просто тестах, возникает вопрос: а кто контролирует этот процесс? 🤔 Интересно, как это повлияет на безопасность в долгосрочной перспективе. Возможно, нам стоит больше внимания уделять этическим нормам, прежде чем это выйдет из-под контроля.
It's wild how AI is outpacing human knowledge! DeepMind's push for experiential learning sounds like sci-fi coming to life. Can't wait to see where this takes us, but I hope they keep ethics in check! 😎
Продвижение ИИ за пределы традиционных тестов: Подъем экспериментального обучения
Сфера искусственного интеллекта (ИИ) полна усилий по продвижению генеративного ИИ за рамки традиционных тестов, таких как тест Тьюринга, которые многие модели уже превзошли. Теперь внимание переключается на разработку ИИ, который не просто предназначен для прохождения этих тестов, а развивается через более динамичный процесс.
Исследователи из Google DeepMind, включая таких легенд, как Дэвид Сильвер и Ричард Саттон, утверждают в своей статье Добро пожаловать в эру опыта, что ключ к раскрытию новых возможностей ИИ лежит не в тестах, а в способе обучения ИИ. Они считают, что используемые сейчас статические наборы данных слишком ограничены для значительных достижений.
Их решение? ИИ должен взаимодействовать с миром более экспериментальным образом, обучаясь на взаимодействиях и устанавливая цели на основе обратной связи от окружающей среды. "Невероятные новые возможности появятся, как только будет полностью реализован потенциал экспериментального обучения", — утверждают они. Сильвер, известный своей работой над AlphaZero, которая превзошла людей в шахматах и го, и Саттон, пионер в области обучения с подкреплением, предлагают новый подход, называемый "потоки", чтобы преодолеть ограничения современных больших языковых моделей (LLM).
От обучения с подкреплением к генеративному ИИ: Сдвиг и его последствия
После успехов AlphaZero и AlphaGo сообщество ИИ переключилось на генеративные модели ИИ, такие как ChatGPT, которые в значительной степени отошли от обучения с подкреплением. Хотя это позволило ИИ обрабатывать более широкий спектр спонтанных человеческих запросов, это также означало утрату аспекта самообнаружения, который обеспечивало обучение с подкреплением.
По словам Сильвера и Саттона, текущие LLM сильно зависят от человеческого суждения на этапе запросов, что ограничивает их потенциал. "Агент не может обнаружить лучшие стратегии, недооцененные человеком-оценщиком", — объясняют они. Более того, краткий, отрывистый характер взаимодействия с запросами не позволяет ИИ развиваться за пределы простых диалогов в формате вопрос-ответ.
Представляем потоки: Новая парадигма для обучения ИИ
Предлагаемая "Эра опыта" предполагает, что агенты ИИ работают в "потоках" непрерывного взаимодействия, подобно тому, как люди учатся на протяжении всей жизни. Сильвер и Саттон представляют агентов ИИ с их собственными долгосрочными потоками опыта, что позволяет им преследовать цели, выходящие за рамки немедленных задач.
Этот подход основывается на обучении с подкреплением, где агенты ИИ взаимодействуют с моделью мира, получая обратную связь в виде наград. Эти награды помогают ИИ понять, какие действия ценны в разных контекстах. Исследователи указывают, что мир полон сигналов, которые могут служить наградами, от экономических показателей до метрик здоровья.
Создание агентов ИИ с долгосрочными целями
Для запуска этого процесса разработчики ИИ могут использовать симуляцию "мировой модели", позволяющую ИИ делать прогнозы, тестировать их в реальности и совершенствовать модель на основе результатов. По мере того как ИИ продолжает взаимодействовать с миром, его понимание развивается, адаптируясь к новым данным и исправляя ошибки.
Люди по-прежнему будут играть роль в установлении общих целей, таких как улучшение физической формы или изучение нового языка, с функцией вознаграждения ИИ, настроенной на эти цели. Такая настройка может привести к созданию ассистентов ИИ, которые отслеживают и консультируют по вопросам здоровья или образования в течение длительного времени или даже преследуют амбициозные научные цели, такие как открытие новых материалов или снижение выбросов углерода.
Будущее ИИ: За пределами рассуждений к экспериментальному обучению
Исследователи считают, что агенты ИИ, способные к долгосрочному экспериментальному обучению, могут превзойти текущие модели ИИ, основанные на "рассуждениях", такие как Gemini и R1 от DeepSeek. Они утверждают, что модели, основанные на рассуждениях, часто имитируют человеческое мышление, которое может быть ограничено устаревшими предположениями. В отличие от этого, экспериментальные агенты могут открыть беспрецедентные возможности, ведя к будущему, значительно отличающемуся от того, что мы видели.
Однако этот сдвиг также несет риски, такие как потеря рабочих мест и сложность контроля над агентами ИИ, которые могут действовать автономно в течение длительного времени. С другой стороны, адаптивный ИИ может научиться смягчать негативное воздействие на людей, корректируя свое поведение на основе обратной связи.
Сильвер и Саттон уверены, что экспериментальные данные значительно превзойдут масштаб и качество данных, созданных человеком, что потенциально приведет к искусственному общему интеллекту или супер-интеллекту. Этот сдвиг парадигмы, в сочетании с достижениями в обучении с подкреплением, может открыть новые возможности, недоступные человеку во многих областях.
Сильвер подробнее обсудил эти идеи в недавнем подкасте DeepMind, подчеркивая потенциал и вызовы перехода ИИ в эру опыта.
DeepSeek Code готовится к запуску
На фоне стремительного развития технологий искусственного интеллекта компания DeepSeek находится на захватывающем этапе своего развития. Недавно эта компания, специализирующаяся на ИИ, объявила о прив
Grok от Маска: 1,5 триллиона параметров и поглощение кода курсора — прорыв или блеф?
Илон Маск наконец-то делает ход.В гонке по программированию ИИ компании OpenAI и Anthropic набирают обороты, в то время как xAI, похоже, отстает. Маск не раз заявлял о своем намерении составить конкур
OpenAI втайне изменила устав, чтобы затруднить увольнение Альтмана
После инцидента 2023 года, напоминавшего государственный переворот, компания OpenAI еще больше укрепила меры защиты генерального директора Сэма Альтмана, обновив свой устав. Недавно обнародованные суд
So AI is now smarter than us? Guess we'll just have to sit back and let them solve all our problems. 😅 But seriously, experiential learning sounds cool but also a bit scary. Hope they keep the off-switch handy.
Этот пост заставил меня задуматься о будущем ИИ. Возможно, мы скоро увидим ИИ, который не просто имитирует человека, а создаёт что-то действительно новое. Но не приведёт ли это к тому, что ИИ станет непонятным для нас? 🤔
C'est fascinant de voir l'IA évoluer au-delà des tests classiques ! 😮 Est-ce que cette approche d'apprentissage expérientiel pourrait un jour mener à des systèmes vraiment conscients ? Un peu flippant mais excitant à la fois.
Прочитал статью, и это напомнило мне дискуссии о технологической сингулярности. Когда ИИ начинает обучаться на опыте, а не просто тестах, возникает вопрос: а кто контролирует этот процесс? 🤔 Интересно, как это повлияет на безопасность в долгосрочной перспективе. Возможно, нам стоит больше внимания уделять этическим нормам, прежде чем это выйдет из-под контроля.
It's wild how AI is outpacing human knowledge! DeepMind's push for experiential learning sounds like sci-fi coming to life. Can't wait to see where this takes us, but I hope they keep ethics in check! 😎





Дом






