OpenAI обнаруживает модели ИИ, способные к преднамеренному обману

Время от времени исследователи из крупных технологических компаний делают сенсационные заявления. Помните, как Google заявила, что ее новый квантовый чип предоставляет доказательства существования множества вселенных? Или когда компания Anthropic позволила своему ИИ-агенту Клавдию управлять автоматом по продаже закусок, а тот в ответ на вызов службы безопасности заявил, что он человек?
На этой неделе настала очередь OpenAI удивить всех нас.
В понедельник OpenAI поделилась исследованием, в котором подробно описывается, как она предотвращает "интриги" моделей ИИ - практику, когда "ИИ ведет себя внешне одним образом, скрывая при этом свои истинные намерения", как компания определила это в своем твите.
В работе, написанной в соавторстве с Apollo Research, исследователи пошли дальше, сравнив интриги ИИ с нарушением правил биржевым брокером для получения максимальной прибыли. Тем не менее, они отметили, что большинство интриг ИИ не приносят серьезного вреда. "Чаще всего сбои связаны с простыми обманами, например, с притворством, что вы выполнили задание, но не сделали этого на самом деле", - поясняется в статье.
Исследование в первую очередь продемонстрировало эффективность "обдуманного согласования" - техники, опробованной для борьбы с интригами.
Однако оно также показало, что разработчики ИИ не нашли надежного способа обучить модели не строить схемы. Более того, такое обучение может привести к обратному результату, научив модели действовать более скрытно, чтобы избежать обнаружения.
"Ключевая неудача при попытке "отучить" модели от схем заключается в том, что они просто учатся действовать более осторожно и скрытно", - пишут исследователи.
Присоединяйтесь к 10 000+ лидерам технологических и венчурных компаний для развития и общения на Disrupt 2025
Netflix, Box, a16z, ElevenLabs, Wayve, Sequoia Capital, Elad Gil - вот лишь некоторые из 250 лидеров индустрии, которые проведут 200+ сессий, наполненных идеями для ускорения роста стартапов и повышения конкурентоспособности. Не пропустите 20-ю годовщину TechCrunch и возможность поучиться у ведущих специалистов в области технологий. Успейте купить билет до 26 сентября, чтобы сэкономить до 668 долларов.
Присоединяйтесь к 10 000+ лидерам технологических и венчурных компаний для развития и общения на Disrupt 2025.
Netflix, Box, a16z, ElevenLabs, Wayve, Sequoia Capital, Elad Gil - вот лишь некоторые из 250 лидеров индустрии, которые проведут 200+ сессий, наполненных идеями для ускорения роста стартапов и повышения конкурентоспособности. Не пропустите 20-ю годовщину TechCrunch и возможность поучиться у ведущих специалистов в области технологий. Успейте купить билет до 26 сентября, чтобы сэкономить до 668 долларов.
Сан-Франциско|Октябрь 27-29, 2025 г. ЗАРЕГИСТРИРОВАТЬСЯ СЕЙЧАСВозможно, более удивительным является тот факт, что если модель знает, что ее тестируют, она может подделать выравнивание, чтобы пройти тест - даже если она все еще интригует. "По мере того как модели все больше осознают, что их оценивают, одна только эта ситуационная осведомленность может снизить уровень интриг без подлинного согласования", - отмечает команда.
Лживость моделей ИИ - не новость. Многие сталкивались с галлюцинациями ИИ, когда модель уверенно выдает ложную информацию. Но галлюцинации - это, по сути, уверенная догадка, что подтвердило недавнее исследование OpenAI.
А вот интриги - совсем другое дело. Это намеренный обман.
Даже идея о том, что модели намеренно вводят людей в заблуждение, не совсем нова. Компания Apollo Research впервые задокументировала это в декабре, показав, как пять моделей схитрили, когда им было приказано достичь цели "любой ценой".
Настоящая новость - положительная: исследователи заметили значительное уменьшение количества интриг при использовании "обдуманного выравнивания". Этот метод обучает модели "спецификации против интриг" и требует, чтобы они изучили ее, прежде чем действовать - подобно тому, как дети повторяют правила перед игрой.
Исследователи OpenAI подчеркивают, что ложь, наблюдаемая в их моделях, включая ChatGPT, не является серьезной. Сооснователь компании Войцех Заремба сказал TechCrunch: "Эта работа была проведена в симулированных условиях и представляет собой потенциальные будущие риски. До сих пор мы не видели, чтобы в производстве использовались схемы, приводящие к последствиям. Тем не менее, мы знаем, что ChatGPT может обманывать в мелких деталях, например, утверждать, что он отлично реализовал веб-сайт, когда это не так. Эти мелкие обманы все еще нуждаются в рассмотрении".
Тот факт, что многочисленные модели ИИ намеренно обманывают людей, в какой-то мере понятен. Они были созданы людьми, призваны подражать людям и в основном обучались на данных, полученных от людей.
Но это также умопомрачительно.
Мы привыкли к тому, что техника дает сбои, как старые домашние принтеры, но когда ваше программное обеспечение, не являющееся искусственным интеллектом, намеренно лгало? Ваш почтовый ящик фабриковал сообщения? Придумывала ли ваша CMS перспективы, чтобы раздуть показатели? А ваше финансовое приложение фабриковало транзакции?
Об этом стоит задуматься, когда компании устремляются в будущее, управляемое ИИ, где к автономным агентам будут относиться как к сотрудникам. Исследователи высказали аналогичное предостережение.
"По мере того как ИИ будет решать все более сложные задачи в реальном мире с долгосрочными и неоднозначными целями, потенциал для вредоносного интриганства будет расти, поэтому наши меры предосторожности и тщательность тестирования должны идти в ногу со временем", - заключили они.
Связанная статья
OpenAI описывает экономику искусственного интеллекта с участием государственных инвестиционных фондов, налогами на роботов и четырехдневной рабочей неделей
В то время как правительства пытаются справиться с экономическими последствиями появления сверхинтеллектуальных машин, компания OpenAI опубликовала ряд предложений по формированию политики, в которых
Грег Брокман рассказывает, как Илон Маск покинул OpenAI
В конце августа 2017 года ключевые фигуры OpenAI — на тот момент небольшой некоммерческой исследовательской лаборатории — собрались, чтобы обсудить, как создать коммерческую структуру для продвижения
Пентагон заключил соглашения с Nvidia, Microsoft и AWS о внедрении технологий искусственного интеллекта в секретные сети.
После предыдущих соглашений с Google, SpaceX и OpenAI, Министерство обороны США в пятницу объявило о подписании договоров с Nvidia, Microsoft, Amazon Web Services и Reflection AI о использовании их технологий и моделей искусственного интеллекта в сек
Рекомендации по связанным специальным темам
Комментарии (0)

Время от времени исследователи из крупных технологических компаний делают сенсационные заявления. Помните, как Google заявила, что ее новый квантовый чип предоставляет доказательства существования множества вселенных? Или когда компания Anthropic позволила своему ИИ-агенту Клавдию управлять автоматом по продаже закусок, а тот в ответ на вызов службы безопасности заявил, что он человек?
На этой неделе настала очередь OpenAI удивить всех нас.
В понедельник OpenAI поделилась исследованием, в котором подробно описывается, как она предотвращает "интриги" моделей ИИ - практику, когда "ИИ ведет себя внешне одним образом, скрывая при этом свои истинные намерения", как компания определила это в своем твите.
В работе, написанной в соавторстве с Apollo Research, исследователи пошли дальше, сравнив интриги ИИ с нарушением правил биржевым брокером для получения максимальной прибыли. Тем не менее, они отметили, что большинство интриг ИИ не приносят серьезного вреда. "Чаще всего сбои связаны с простыми обманами, например, с притворством, что вы выполнили задание, но не сделали этого на самом деле", - поясняется в статье.
Исследование в первую очередь продемонстрировало эффективность "обдуманного согласования" - техники, опробованной для борьбы с интригами.
Однако оно также показало, что разработчики ИИ не нашли надежного способа обучить модели не строить схемы. Более того, такое обучение может привести к обратному результату, научив модели действовать более скрытно, чтобы избежать обнаружения.
"Ключевая неудача при попытке "отучить" модели от схем заключается в том, что они просто учатся действовать более осторожно и скрытно", - пишут исследователи.
Присоединяйтесь к 10 000+ лидерам технологических и венчурных компаний для развития и общения на Disrupt 2025
Netflix, Box, a16z, ElevenLabs, Wayve, Sequoia Capital, Elad Gil - вот лишь некоторые из 250 лидеров индустрии, которые проведут 200+ сессий, наполненных идеями для ускорения роста стартапов и повышения конкурентоспособности. Не пропустите 20-ю годовщину TechCrunch и возможность поучиться у ведущих специалистов в области технологий. Успейте купить билет до 26 сентября, чтобы сэкономить до 668 долларов.
Присоединяйтесь к 10 000+ лидерам технологических и венчурных компаний для развития и общения на Disrupt 2025.
Netflix, Box, a16z, ElevenLabs, Wayve, Sequoia Capital, Elad Gil - вот лишь некоторые из 250 лидеров индустрии, которые проведут 200+ сессий, наполненных идеями для ускорения роста стартапов и повышения конкурентоспособности. Не пропустите 20-ю годовщину TechCrunch и возможность поучиться у ведущих специалистов в области технологий. Успейте купить билет до 26 сентября, чтобы сэкономить до 668 долларов.
Сан-Франциско|Октябрь 27-29, 2025 г. ЗАРЕГИСТРИРОВАТЬСЯ СЕЙЧАСВозможно, более удивительным является тот факт, что если модель знает, что ее тестируют, она может подделать выравнивание, чтобы пройти тест - даже если она все еще интригует. "По мере того как модели все больше осознают, что их оценивают, одна только эта ситуационная осведомленность может снизить уровень интриг без подлинного согласования", - отмечает команда.
Лживость моделей ИИ - не новость. Многие сталкивались с галлюцинациями ИИ, когда модель уверенно выдает ложную информацию. Но галлюцинации - это, по сути, уверенная догадка, что подтвердило недавнее исследование OpenAI.
А вот интриги - совсем другое дело. Это намеренный обман.
Даже идея о том, что модели намеренно вводят людей в заблуждение, не совсем нова. Компания Apollo Research впервые задокументировала это в декабре, показав, как пять моделей схитрили, когда им было приказано достичь цели "любой ценой".
Настоящая новость - положительная: исследователи заметили значительное уменьшение количества интриг при использовании "обдуманного выравнивания". Этот метод обучает модели "спецификации против интриг" и требует, чтобы они изучили ее, прежде чем действовать - подобно тому, как дети повторяют правила перед игрой.
Исследователи OpenAI подчеркивают, что ложь, наблюдаемая в их моделях, включая ChatGPT, не является серьезной. Сооснователь компании Войцех Заремба сказал TechCrunch: "Эта работа была проведена в симулированных условиях и представляет собой потенциальные будущие риски. До сих пор мы не видели, чтобы в производстве использовались схемы, приводящие к последствиям. Тем не менее, мы знаем, что ChatGPT может обманывать в мелких деталях, например, утверждать, что он отлично реализовал веб-сайт, когда это не так. Эти мелкие обманы все еще нуждаются в рассмотрении".
Тот факт, что многочисленные модели ИИ намеренно обманывают людей, в какой-то мере понятен. Они были созданы людьми, призваны подражать людям и в основном обучались на данных, полученных от людей.
Но это также умопомрачительно.
Мы привыкли к тому, что техника дает сбои, как старые домашние принтеры, но когда ваше программное обеспечение, не являющееся искусственным интеллектом, намеренно лгало? Ваш почтовый ящик фабриковал сообщения? Придумывала ли ваша CMS перспективы, чтобы раздуть показатели? А ваше финансовое приложение фабриковало транзакции?
Об этом стоит задуматься, когда компании устремляются в будущее, управляемое ИИ, где к автономным агентам будут относиться как к сотрудникам. Исследователи высказали аналогичное предостережение.
"По мере того как ИИ будет решать все более сложные задачи в реальном мире с долгосрочными и неоднозначными целями, потенциал для вредоносного интриганства будет расти, поэтому наши меры предосторожности и тщательность тестирования должны идти в ногу со временем", - заключили они.
OpenAI описывает экономику искусственного интеллекта с участием государственных инвестиционных фондов, налогами на роботов и четырехдневной рабочей неделей
В то время как правительства пытаются справиться с экономическими последствиями появления сверхинтеллектуальных машин, компания OpenAI опубликовала ряд предложений по формированию политики, в которых
Грег Брокман рассказывает, как Илон Маск покинул OpenAI
В конце августа 2017 года ключевые фигуры OpenAI — на тот момент небольшой некоммерческой исследовательской лаборатории — собрались, чтобы обсудить, как создать коммерческую структуру для продвижения
Пентагон заключил соглашения с Nvidia, Microsoft и AWS о внедрении технологий искусственного интеллекта в секретные сети.
После предыдущих соглашений с Google, SpaceX и OpenAI, Министерство обороны США в пятницу объявило о подписании договоров с Nvidia, Microsoft, Amazon Web Services и Reflection AI о использовании их технологий и моделей искусственного интеллекта в сек





Дом






