Самообучающиеся агенты ИИ для преобразования веб-опыта: Руководство по подготовке

Дом

Новости

19 ноября 2025 г.

CarlLopez

# ai # Data # deepmind # api # LLMs

Самообучающиеся агенты ИИ для преобразования веб-опыта: Руководство по подготовке

В своей новой работе известные исследователи искусственного интеллекта Дэвид Сильвер и Ричард Саттон утверждают, что искусственный интеллект вступает в преобразующую "Эру опыта". Они полагают, что системы ИИ будут все больше выходить за рамки зависимости от данных, предоставляемых человеком, а вместо этого будут развиваться за счет прямого взаимодействия с миром и сбора данных из него.

Хотя статья является концептуальной и перспективной, ее выводы имеют непосредственное отношение к предприятиям, планирующим разработку и интеграцию будущих агентов и систем ИИ.

И Сильвер, и Саттон - авторитетные ученые с историей точных прогнозов относительно траектории развития ИИ. Их прозорливость видна в самых передовых современных системах ИИ. В своем влиятельном эссе "Горький урок", опубликованном в 2019 году, пионер технологии обучения с подкреплением Саттон утверждал, что наиболее значительные долгосрочные прорывы в области ИИ неизменно связаны с масштабированием поиска и обучения общего назначения с помощью массивных вычислений, а не с внедрением сложных человеческих знаний.

Дэвид Сильвер, главный научный сотрудник DeepMind, сыграл ведущую роль в разработке AlphaGo, AlphaZero и AlphaStar - основных вех в глубоком обучении с подкреплением. Он также стал соавтором работы 2021 года, в которой утверждалось, что обучение с подкреплением в сочетании с хорошо продуманным сигналом вознаграждения может в конечном итоге привести к созданию высокоразвитого ИИ.

Самые сложные современные большие языковые модели (БЯМ) служат примером этих двух концепций. Волна мощных LLM со времен GPT-3 в основном опиралась на масштабирование вычислительной мощности и данных для поглощения огромных знаний. Более поздние модели рассуждений, такие как DeepSeek-R1, демонстрируют, что обучение с подкреплением и простым сигналом вознаграждения достаточно для приобретения сложных способностей рассуждения.

Что такое "Эра опыта"?

Эра опыта" основывается на концепциях, которые отстаивали Саттон и Сильвер, но теперь они контекстуализированы с учетом последних достижений в области ИИ. Авторы отмечают, что "темпы прогресса, обусловленные исключительно контролируемым обучением на основе человеческих данных, заметно замедляются, что свидетельствует о необходимости нового подхода".

Этот новый подход требует свежего источника данных, генерируемого таким образом, чтобы он постоянно улучшался по мере роста способностей агента. "Этого можно достичь, позволив агентам постоянно учиться на собственном опыте, то есть на данных, которые генерируются агентом, взаимодействующим со своим окружением", - объясняют Саттон и Сильвер. Они утверждают, что со временем "опыт станет доминирующим средством совершенствования и в конечном итоге затмит масштаб человеческих данных, используемых в современных системах".

По мнению авторов, будущие системы ИИ "преодолеют ограничения человеко-ориентированных систем ИИ" не только за счет обучения на основе опытных данных, но и по четырем ключевым параметрам:

Потоки: Вместо того чтобы действовать в изолированных эпизодах, агенты ИИ будут "иметь свой собственный поток опыта, который, как и у людей, развивается в течение длительного времени". Это позволит осуществлять долгосрочное планирование и постепенную адаптацию поведения. Первые признаки этого проявляются в системах ИИ с обширными контекстными окнами и архитектурами памяти, которые постоянно обновляются при взаимодействии с пользователем.
Действия и наблюдения: Выходя за пределы действий и наблюдений, основанных на привилегиях человека, агенты эпохи опыта будут действовать автономно в реальном мире. Мы видим это в агентных системах, которые взаимодействуют с внешними приложениями и ресурсами с помощью таких инструментов, как компьютерное управление и протокол модельного контекста (MCP).
Вознаграждения: В то время как современные системы обучения с подкреплением в значительной степени зависят от разработанных человеком функций вознаграждения, будущие агенты ИИ должны создавать свои собственные динамические функции вознаграждения. Они будут развиваться со временем, согласуя предпочтения пользователя с реальной обратной связью от действий и наблюдений агента. Первые саморазрабатывающиеся системы вознаграждения, такие как DrEureka от Nvidia, дают представление о будущем.
Планирование и рассуждения: Современные модели рассуждений часто разрабатываются для имитации человеческого мышления. Авторы предполагают, что "наверняка существуют более эффективные механизмы мышления, использующие нечеловеческие языки, которые могут, например, использовать символические, распределенные, непрерывные или дифференцируемые вычисления". Агенты ИИ должны взаимодействовать с миром, используя наблюдаемые данные для проверки, уточнения и обновления своих рассуждений при построении внутренней модели мира.

Концепция адаптации агентов ИИ с помощью обучения с подкреплением не нова, но исторически такие агенты были ограничены жестко контролируемыми средами, такими как настольные игры. Теперь агенты, способные ориентироваться в сложных условиях, таких как операционные компьютеры, в сочетании с прогрессом в области обучения с подкреплением, готовы преодолеть эти ограничения, ускорив переход к эре опыта.

Что это значит для предприятия?

Важное замечание в статье Саттона и Сильвера, касающееся реальных приложений, гласит: "Агент может использовать "дружественные человеку" действия и наблюдения, такие как пользовательские интерфейсы, которые естественным образом облегчают общение и сотрудничество с пользователем. Агент также может предпринимать "удобные для машины" действия, которые выполняют код и вызывают API, позволяя агенту действовать автономно для достижения своих целей".

Эра опыта подразумевает, что разработчики должны создавать приложения как для человеческих пользователей, так и для агентов ИИ. Удобные для машин действия требуют безопасных и доступных API, доступных напрямую или через такие интерфейсы, как MCP. Это также предполагает создание агентов, которых можно обнаружить с помощью таких протоколов, как Agent2Agent от Google. Разработка API и агентских интерфейсов, предоставляющих доступ как к действиям, так и к наблюдениям, позволит агентам постепенно рассуждать и учиться на основе взаимодействия с вашим программным обеспечением.

Если концепция Саттона и Сильвера воплотится в жизнь, миллиарды агентов со временем будут работать в Интернете, а затем и в физическом мире, выполняя поставленные задачи. Их поведение и требования будут кардинально отличаться от человеческих пользователей. Создание методов взаимодействия с агентами будет иметь решающее значение для эффективного использования будущих систем ИИ и снижения потенциальных рисков.

"Опираясь на основы RL и адаптируя ее основные принципы к вызовам новой эпохи, мы сможем раскрыть весь потенциал автономного обучения и проложить путь к действительно сверхчеловеческому интеллекту", - заключают Саттон и Сильвер.

Компания DeepMind отказалась предоставить дополнительные комментарии для этой статьи.

Связанная статья

WordPress.com теперь позволяет ИИ-ботам создавать и публиковать посты, а также выполнять другие задачи WordPress.com, популярная платформа для веб-хостинга и публикации контента, теперь внедряет ИИ-агентов — шаг, который может кардинально изменить облик и функциональность Интернета. В пятницу компания

Kakao Mobility представляет план развития автономного вождения 4-го уровня с использованием физического ИИ Компания Kakao Mobility планирует самостоятельно разрабатывать технологии автономного вождения 4-го уровня в рамках своей стратегии «физического ИИ».На конференции World IT Show 2026, прошедшей в сеу

Барри Диллер: доверие к Сэму Альтману теряет значение по мере приближения эры общей искусственной интеллигенции Миллиардер и медиа-магнат Барри Диллер не считает генерального директора OpenAI Сэма Альтмана недостойным доверия, несмотря на недавние сообщения, свидетельствующие об обратном. Выступая на этой недел

Рекомендации по связанным специальным темам

Бизнес

Лучшие приложения для учета расходов на базе ИИ: сканируйте чеки и автоматически классифицируйте корпоративные расходы

Лучшие программы для учета расходов с ИИ 2026 года: самые популярные инструменты для сканирования чеков и автоматической классификации корпоративных расходов. Откройте для себя мощные, революционные решения для удобного управления расходами, точного финансового мониторинга и оптимизации соблюдения нормативных требований. Наш тщательно составленный и еженедельно обновляемый обзор бесплатных и платных вариантов поможет вам найти идеальный вариант. Воспользуйтесь преимуществами ИИ с помощью рекомендаций экспертов XIX.AI.

10 инструментов

xix.ai

Бизнес

Лучшие инструменты для подбора персонала с помощью ИИ: отбор резюме и автоматизация планирования собеседований с кандидатами

Откройте для себя 20 лучших инструментов для рекрутинга на базе ИИ 2026 года на сайте XIX.AI. В нашем тщательно составленном списке представлены мощные, революционные решения для отбора резюме и автоматизации планирования собеседований с кандидатами. Сравните бесплатные и платные варианты с помощью реальных тестов и еженедельно обновляемого рейтинга. Найдите своего идеального помощника по подбору персонала и оптимизируйте процесс рекрутинга уже сегодня!

10 инструментов

xix.ai

Производительность

Персональные тренеры по благополучию и концентрации на базе ИИ: борьба с выгоранием и повышение уровня умственной энергии

Откройте для себя лучших в 2026 году ИИ-тренеров по личному благополучию и концентрации внимания на сайте XIX.AI. В нашем тщательно составленном рейтинге представлены высокооцененные, революционные инструменты для борьбы с выгоранием и повышения умственной энергии. Сравните бесплатные и платные варианты с помощью реальных отзывов. Откройте для себя путь к максимальной продуктивности и благополучию уже сегодня.

10 инструментов

xix.ai

чат-бот

Лучшие романтические чат-боты на базе ИИ: постройте долгосрочные отношения с помощью чат-ботов с устойчивой индивидуальностью

Откройте для себя лучшие романтические чат-боты с искусственным интеллектом 2026 года, которые помогут вам построить искренние и долгосрочные отношения. В нашем тщательно составленном списке вы найдете чат-ботов с яркими и последовательными личностями, сравнение бесплатных и платных версий, а также результаты реальных тестов. Найдите своего идеального спутника и начните строить отношения уже сегодня на XIX.AI.

10 инструментов

xix.ai

Образование и обучение

Лучшие наставники в области искусственного интеллекта и науки о данных: мастерство работы с SQL, библиотекой Pandas и рабочими процессами машинного обучения

Откройте для себя 20 лучших наставников в области искусственного интеллекта и науки о данных на 2026 год, которые помогут вам овладеть SQL, Pandas и рабочими процессами машинного обучения. Изучите наш тщательно отобранный список на сайте XIX.AI – здесь вы найдете эффективные рекомендации, способные изменить ход ваших работ. Сравните бесплатные и платные варианты с примерами из реальной практики. Освоите науку о данных уже сегодня.

10 инструментов

xix.ai

чат-бот

Лучшие тренажеры по флирту и общению на базе ИИ: повышайте свою харизму и уверенность в себе в режиме реального времени

Откройте для себя 20 лучших тренажеров по флирту и общению с ИИ на сайте XIX.AI. Наша тщательно подобранная подборка самых популярных инструментов поможет вам развить коммуникабельность и уверенность в себе в режиме реального времени. Ознакомьтесь с незаменимыми инструментами, которые кардинально изменят вашу жизнь, — с сравнением бесплатных и платных версий и еженедельно обновляемым рейтингом. Раскройте свой коммуникативный потенциал уже сегодня.

10 инструментов

xix.ai