Самообучающиеся агенты ИИ для преобразования веб-опыта: Руководство по подготовке

В своей новой работе известные исследователи искусственного интеллекта Дэвид Сильвер и Ричард Саттон утверждают, что искусственный интеллект вступает в преобразующую "Эру опыта". Они полагают, что системы ИИ будут все больше выходить за рамки зависимости от данных, предоставляемых человеком, а вместо этого будут развиваться за счет прямого взаимодействия с миром и сбора данных из него.
Хотя статья является концептуальной и перспективной, ее выводы имеют непосредственное отношение к предприятиям, планирующим разработку и интеграцию будущих агентов и систем ИИ.
И Сильвер, и Саттон - авторитетные ученые с историей точных прогнозов относительно траектории развития ИИ. Их прозорливость видна в самых передовых современных системах ИИ. В своем влиятельном эссе "Горький урок", опубликованном в 2019 году, пионер технологии обучения с подкреплением Саттон утверждал, что наиболее значительные долгосрочные прорывы в области ИИ неизменно связаны с масштабированием поиска и обучения общего назначения с помощью массивных вычислений, а не с внедрением сложных человеческих знаний.
Дэвид Сильвер, главный научный сотрудник DeepMind, сыграл ведущую роль в разработке AlphaGo, AlphaZero и AlphaStar - основных вех в глубоком обучении с подкреплением. Он также стал соавтором работы 2021 года, в которой утверждалось, что обучение с подкреплением в сочетании с хорошо продуманным сигналом вознаграждения может в конечном итоге привести к созданию высокоразвитого ИИ.
Самые сложные современные большие языковые модели (БЯМ) служат примером этих двух концепций. Волна мощных LLM со времен GPT-3 в основном опиралась на масштабирование вычислительной мощности и данных для поглощения огромных знаний. Более поздние модели рассуждений, такие как DeepSeek-R1, демонстрируют, что обучение с подкреплением и простым сигналом вознаграждения достаточно для приобретения сложных способностей рассуждения.
Что такое "Эра опыта"?
Эра опыта" основывается на концепциях, которые отстаивали Саттон и Сильвер, но теперь они контекстуализированы с учетом последних достижений в области ИИ. Авторы отмечают, что "темпы прогресса, обусловленные исключительно контролируемым обучением на основе человеческих данных, заметно замедляются, что свидетельствует о необходимости нового подхода".
Этот новый подход требует свежего источника данных, генерируемого таким образом, чтобы он постоянно улучшался по мере роста способностей агента. "Этого можно достичь, позволив агентам постоянно учиться на собственном опыте, то есть на данных, которые генерируются агентом, взаимодействующим со своим окружением", - объясняют Саттон и Сильвер. Они утверждают, что со временем "опыт станет доминирующим средством совершенствования и в конечном итоге затмит масштаб человеческих данных, используемых в современных системах".
По мнению авторов, будущие системы ИИ "преодолеют ограничения человеко-ориентированных систем ИИ" не только за счет обучения на основе опытных данных, но и по четырем ключевым параметрам:
- Потоки: Вместо того чтобы действовать в изолированных эпизодах, агенты ИИ будут "иметь свой собственный поток опыта, который, как и у людей, развивается в течение длительного времени". Это позволит осуществлять долгосрочное планирование и постепенную адаптацию поведения. Первые признаки этого проявляются в системах ИИ с обширными контекстными окнами и архитектурами памяти, которые постоянно обновляются при взаимодействии с пользователем.
- Действия и наблюдения: Выходя за пределы действий и наблюдений, основанных на привилегиях человека, агенты эпохи опыта будут действовать автономно в реальном мире. Мы видим это в агентных системах, которые взаимодействуют с внешними приложениями и ресурсами с помощью таких инструментов, как компьютерное управление и протокол модельного контекста (MCP).
- Вознаграждения: В то время как современные системы обучения с подкреплением в значительной степени зависят от разработанных человеком функций вознаграждения, будущие агенты ИИ должны создавать свои собственные динамические функции вознаграждения. Они будут развиваться со временем, согласуя предпочтения пользователя с реальной обратной связью от действий и наблюдений агента. Первые саморазрабатывающиеся системы вознаграждения, такие как DrEureka от Nvidia, дают представление о будущем.
- Планирование и рассуждения: Современные модели рассуждений часто разрабатываются для имитации человеческого мышления. Авторы предполагают, что "наверняка существуют более эффективные механизмы мышления, использующие нечеловеческие языки, которые могут, например, использовать символические, распределенные, непрерывные или дифференцируемые вычисления". Агенты ИИ должны взаимодействовать с миром, используя наблюдаемые данные для проверки, уточнения и обновления своих рассуждений при построении внутренней модели мира.
Концепция адаптации агентов ИИ с помощью обучения с подкреплением не нова, но исторически такие агенты были ограничены жестко контролируемыми средами, такими как настольные игры. Теперь агенты, способные ориентироваться в сложных условиях, таких как операционные компьютеры, в сочетании с прогрессом в области обучения с подкреплением, готовы преодолеть эти ограничения, ускорив переход к эре опыта.
Что это значит для предприятия?
Важное замечание в статье Саттона и Сильвера, касающееся реальных приложений, гласит: "Агент может использовать "дружественные человеку" действия и наблюдения, такие как пользовательские интерфейсы, которые естественным образом облегчают общение и сотрудничество с пользователем. Агент также может предпринимать "удобные для машины" действия, которые выполняют код и вызывают API, позволяя агенту действовать автономно для достижения своих целей".
Эра опыта подразумевает, что разработчики должны создавать приложения как для человеческих пользователей, так и для агентов ИИ. Удобные для машин действия требуют безопасных и доступных API, доступных напрямую или через такие интерфейсы, как MCP. Это также предполагает создание агентов, которых можно обнаружить с помощью таких протоколов, как Agent2Agent от Google. Разработка API и агентских интерфейсов, предоставляющих доступ как к действиям, так и к наблюдениям, позволит агентам постепенно рассуждать и учиться на основе взаимодействия с вашим программным обеспечением.
Если концепция Саттона и Сильвера воплотится в жизнь, миллиарды агентов со временем будут работать в Интернете, а затем и в физическом мире, выполняя поставленные задачи. Их поведение и требования будут кардинально отличаться от человеческих пользователей. Создание методов взаимодействия с агентами будет иметь решающее значение для эффективного использования будущих систем ИИ и снижения потенциальных рисков.
"Опираясь на основы RL и адаптируя ее основные принципы к вызовам новой эпохи, мы сможем раскрыть весь потенциал автономного обучения и проложить путь к действительно сверхчеловеческому интеллекту", - заключают Саттон и Сильвер.
Компания DeepMind отказалась предоставить дополнительные комментарии для этой статьи.
Связанная статья
WordPress.com теперь позволяет ИИ-ботам создавать и публиковать посты, а также выполнять другие задачи
WordPress.com, популярная платформа для веб-хостинга и публикации контента, теперь внедряет ИИ-агентов — шаг, который может кардинально изменить облик и функциональность Интернета. В пятницу компания
Kakao Mobility представляет план развития автономного вождения 4-го уровня с использованием физического ИИ
Компания Kakao Mobility планирует самостоятельно разрабатывать технологии автономного вождения 4-го уровня в рамках своей стратегии «физического ИИ».На конференции World IT Show 2026, прошедшей в сеу
Барри Диллер: доверие к Сэму Альтману теряет значение по мере приближения эры общей искусственной интеллигенции
Миллиардер и медиа-магнат Барри Диллер не считает генерального директора OpenAI Сэма Альтмана недостойным доверия, несмотря на недавние сообщения, свидетельствующие об обратном. Выступая на этой недел
Рекомендации по связанным специальным темам
Комментарии (0)

В своей новой работе известные исследователи искусственного интеллекта Дэвид Сильвер и Ричард Саттон утверждают, что искусственный интеллект вступает в преобразующую "Эру опыта". Они полагают, что системы ИИ будут все больше выходить за рамки зависимости от данных, предоставляемых человеком, а вместо этого будут развиваться за счет прямого взаимодействия с миром и сбора данных из него.
Хотя статья является концептуальной и перспективной, ее выводы имеют непосредственное отношение к предприятиям, планирующим разработку и интеграцию будущих агентов и систем ИИ.
И Сильвер, и Саттон - авторитетные ученые с историей точных прогнозов относительно траектории развития ИИ. Их прозорливость видна в самых передовых современных системах ИИ. В своем влиятельном эссе "Горький урок", опубликованном в 2019 году, пионер технологии обучения с подкреплением Саттон утверждал, что наиболее значительные долгосрочные прорывы в области ИИ неизменно связаны с масштабированием поиска и обучения общего назначения с помощью массивных вычислений, а не с внедрением сложных человеческих знаний.
Дэвид Сильвер, главный научный сотрудник DeepMind, сыграл ведущую роль в разработке AlphaGo, AlphaZero и AlphaStar - основных вех в глубоком обучении с подкреплением. Он также стал соавтором работы 2021 года, в которой утверждалось, что обучение с подкреплением в сочетании с хорошо продуманным сигналом вознаграждения может в конечном итоге привести к созданию высокоразвитого ИИ.
Самые сложные современные большие языковые модели (БЯМ) служат примером этих двух концепций. Волна мощных LLM со времен GPT-3 в основном опиралась на масштабирование вычислительной мощности и данных для поглощения огромных знаний. Более поздние модели рассуждений, такие как DeepSeek-R1, демонстрируют, что обучение с подкреплением и простым сигналом вознаграждения достаточно для приобретения сложных способностей рассуждения.
Что такое "Эра опыта"?
Эра опыта" основывается на концепциях, которые отстаивали Саттон и Сильвер, но теперь они контекстуализированы с учетом последних достижений в области ИИ. Авторы отмечают, что "темпы прогресса, обусловленные исключительно контролируемым обучением на основе человеческих данных, заметно замедляются, что свидетельствует о необходимости нового подхода".
Этот новый подход требует свежего источника данных, генерируемого таким образом, чтобы он постоянно улучшался по мере роста способностей агента. "Этого можно достичь, позволив агентам постоянно учиться на собственном опыте, то есть на данных, которые генерируются агентом, взаимодействующим со своим окружением", - объясняют Саттон и Сильвер. Они утверждают, что со временем "опыт станет доминирующим средством совершенствования и в конечном итоге затмит масштаб человеческих данных, используемых в современных системах".
По мнению авторов, будущие системы ИИ "преодолеют ограничения человеко-ориентированных систем ИИ" не только за счет обучения на основе опытных данных, но и по четырем ключевым параметрам:
- Потоки: Вместо того чтобы действовать в изолированных эпизодах, агенты ИИ будут "иметь свой собственный поток опыта, который, как и у людей, развивается в течение длительного времени". Это позволит осуществлять долгосрочное планирование и постепенную адаптацию поведения. Первые признаки этого проявляются в системах ИИ с обширными контекстными окнами и архитектурами памяти, которые постоянно обновляются при взаимодействии с пользователем.
- Действия и наблюдения: Выходя за пределы действий и наблюдений, основанных на привилегиях человека, агенты эпохи опыта будут действовать автономно в реальном мире. Мы видим это в агентных системах, которые взаимодействуют с внешними приложениями и ресурсами с помощью таких инструментов, как компьютерное управление и протокол модельного контекста (MCP).
- Вознаграждения: В то время как современные системы обучения с подкреплением в значительной степени зависят от разработанных человеком функций вознаграждения, будущие агенты ИИ должны создавать свои собственные динамические функции вознаграждения. Они будут развиваться со временем, согласуя предпочтения пользователя с реальной обратной связью от действий и наблюдений агента. Первые саморазрабатывающиеся системы вознаграждения, такие как DrEureka от Nvidia, дают представление о будущем.
- Планирование и рассуждения: Современные модели рассуждений часто разрабатываются для имитации человеческого мышления. Авторы предполагают, что "наверняка существуют более эффективные механизмы мышления, использующие нечеловеческие языки, которые могут, например, использовать символические, распределенные, непрерывные или дифференцируемые вычисления". Агенты ИИ должны взаимодействовать с миром, используя наблюдаемые данные для проверки, уточнения и обновления своих рассуждений при построении внутренней модели мира.
Концепция адаптации агентов ИИ с помощью обучения с подкреплением не нова, но исторически такие агенты были ограничены жестко контролируемыми средами, такими как настольные игры. Теперь агенты, способные ориентироваться в сложных условиях, таких как операционные компьютеры, в сочетании с прогрессом в области обучения с подкреплением, готовы преодолеть эти ограничения, ускорив переход к эре опыта.
Что это значит для предприятия?
Важное замечание в статье Саттона и Сильвера, касающееся реальных приложений, гласит: "Агент может использовать "дружественные человеку" действия и наблюдения, такие как пользовательские интерфейсы, которые естественным образом облегчают общение и сотрудничество с пользователем. Агент также может предпринимать "удобные для машины" действия, которые выполняют код и вызывают API, позволяя агенту действовать автономно для достижения своих целей".
Эра опыта подразумевает, что разработчики должны создавать приложения как для человеческих пользователей, так и для агентов ИИ. Удобные для машин действия требуют безопасных и доступных API, доступных напрямую или через такие интерфейсы, как MCP. Это также предполагает создание агентов, которых можно обнаружить с помощью таких протоколов, как Agent2Agent от Google. Разработка API и агентских интерфейсов, предоставляющих доступ как к действиям, так и к наблюдениям, позволит агентам постепенно рассуждать и учиться на основе взаимодействия с вашим программным обеспечением.
Если концепция Саттона и Сильвера воплотится в жизнь, миллиарды агентов со временем будут работать в Интернете, а затем и в физическом мире, выполняя поставленные задачи. Их поведение и требования будут кардинально отличаться от человеческих пользователей. Создание методов взаимодействия с агентами будет иметь решающее значение для эффективного использования будущих систем ИИ и снижения потенциальных рисков.
"Опираясь на основы RL и адаптируя ее основные принципы к вызовам новой эпохи, мы сможем раскрыть весь потенциал автономного обучения и проложить путь к действительно сверхчеловеческому интеллекту", - заключают Саттон и Сильвер.
Компания DeepMind отказалась предоставить дополнительные комментарии для этой статьи.
WordPress.com теперь позволяет ИИ-ботам создавать и публиковать посты, а также выполнять другие задачи
WordPress.com, популярная платформа для веб-хостинга и публикации контента, теперь внедряет ИИ-агентов — шаг, который может кардинально изменить облик и функциональность Интернета. В пятницу компания
Барри Диллер: доверие к Сэму Альтману теряет значение по мере приближения эры общей искусственной интеллигенции
Миллиардер и медиа-магнат Барри Диллер не считает генерального директора OpenAI Сэма Альтмана недостойным доверия, несмотря на недавние сообщения, свидетельствующие об обратном. Выступая на этой недел





Дом






