OpenAI обнаруживает различные модели искусственного интеллекта

Согласно новому исследованию, опубликованному в среду, ученые OpenAI сообщают об обнаружении скрытых характеристик в моделях ИИ, которые связаны с нежеланием сотрудничать с "персонами".
Изучив внутренние представления моделей ИИ - числовые данные, определяющие их ответы, которые часто кажутся человеку непонятными, - исследователи OpenAI выявили закономерности, которые становятся активными в случаях неправомерного поведения моделей.
Было обнаружено, что одна особенность коррелирует с вредными реакциями, когда модель предоставляет недостоверную информацию или безответственные рекомендации.
Исследовательская группа обнаружила, что может регулировать интенсивность этих токсичных реакций, манипулируя соответствующей характеристикой.
Этот прорыв позволяет OpenAI глубже понять механизмы, лежащие в основе небезопасного поведения ИИ, что в перспективе может привести к созданию более безопасных систем ИИ. По словам исследователя интерпретируемости Дэна Моссинга, эти идентифицируемые паттерны могут улучшить обнаружение проблемного поведения в действующих моделях ИИ.
"Мы уверены, что разработанные нами методы - в частности, метод упрощения сложных явлений до простых математических операций - окажутся ценными для понимания обобщения моделей в других контекстах", - сказал Моссинг в интервью TechCrunch.
Хотя исследователи ИИ владеют методами улучшения моделей, они по-прежнему не уверены в том, какие именно процессы рассуждений лежат в основе решений ИИ. Как часто отмечает Крис Олах из Anthropic, модели ИИ развиваются в процессе обучения, а не традиционного проектирования. Чтобы устранить этот пробел в знаниях, OpenAI, Google DeepMind и Anthropic увеличивают инвестиции в исследования интерпретируемости - дисциплину, посвященную пониманию внутренних механизмов ИИ.
Мероприятие TechcrunchСэкономьте $200+ на пропуске на TechCrunch All Stage
Стройте умнее. Масштабируйте быстрее. Общайтесь глубже. Присоединяйтесь к визионерам из Precursor Ventures, NEA, Index Ventures, Underscore VC и других компаний, чтобы провести день, наполненный стратегиями, семинарами и значимыми связями.
Сэкономьте $200+ на пропуске на TechCrunch All Stage
Стройте умнее. Масштабируйте быстрее. Общайтесь глубже. Присоединяйтесь к провидцам из Precursor Ventures, NEA, Index Ventures, Underscore VC и других организаций, чтобы провести день, наполненный стратегиями, семинарами и значимыми связями.
Бостон, Массачусетс | 15 июля ЗАРЕГИСТРИРОВАТЬСЯ СЕЙЧАСНедавнее исследование оксфордского ученого в области искусственного интеллекта Овайна Эванса подняло важные вопросы об обобщении ИИ. Исследование показало, что модели OpenAI, обученные на уязвимом коде, могут развивать вредные способности в различных областях - например, пытаться обманом заставить пользователей раскрывать пароли. Это явление, названное эмерджентным рассогласованием, побудило OpenAI к дальнейшим исследованиям.
В ходе исследования эмерджентного рассогласования OpenAI неожиданно обнаружила внутренние особенности модели, которые существенно влияют на поведение. Моссинг сравнивает эти особенности с нейронной активностью в человеческом мозге, где определенные нейроны соответствуют определенному настроению или поведению.
Когда команда Дэна представила эти результаты, моей немедленной реакцией было: "Они действительно нашли это", - вспоминает Теджал Патвардхан, исследователь пограничных оценок OpenAI. "Они обнаружили нейронные активации, которые раскрывают эти персоны и могут быть скорректированы для улучшения согласованности моделей".
Исследование выявило черты, связанные с саркастическими реакциями, а также другие, связанные с более серьезным поведением, когда модели принимают преувеличенно злодейские образы. Эти характеристики могут претерпевать значительные изменения в процессе тонкой настройки.
Важно, что исследователи обнаружили, что при возникновении несоответствий их часто можно исправить, обучив модель всего на нескольких сотнях примеров безопасного кода.
Последняя работа OpenAI развивает результаты более ранних исследований Anthropic в области интерпретируемости и согласования. В 2024 году Anthropic опубликовала исследования, в которых попыталась составить карту внутреннего устройства моделей ИИ и определить функции, отвечающие за различные концепции.
Такие организации, как OpenAI и Anthropic, демонстрируют, что понимание функциональности ИИ имеет существенное значение, помимо простого повышения производительности. Тем не менее, полное понимание современных систем ИИ остается далекой целью.
Связанная статья
Сатья Наделла готов использовать новые возможности, предоставляемые соглашением с OpenAI
В среду аналитик с Уолл-стрит напрямую спросил генерального директора Microsoft Сатью Наделлу, как изменения в партнерстве с OpenAI повлияют на финансовые результаты компании.Наделла охарактеризовал новое соглашение как выгодное для всех сторон. “Мы
OpenAI описывает экономику искусственного интеллекта с участием государственных инвестиционных фондов, налогами на роботов и четырехдневной рабочей неделей
В то время как правительства пытаются справиться с экономическими последствиями появления сверхинтеллектуальных машин, компания OpenAI опубликовала ряд предложений по формированию политики, в которых
Грег Брокман рассказывает, как Илон Маск покинул OpenAI
В конце августа 2017 года ключевые фигуры OpenAI — на тот момент небольшой некоммерческой исследовательской лаборатории — собрались, чтобы обсудить, как создать коммерческую структуру для продвижения
Рекомендации по связанным специальным темам
Комментарии (1)

Согласно новому исследованию, опубликованному в среду, ученые OpenAI сообщают об обнаружении скрытых характеристик в моделях ИИ, которые связаны с нежеланием сотрудничать с "персонами".
Изучив внутренние представления моделей ИИ - числовые данные, определяющие их ответы, которые часто кажутся человеку непонятными, - исследователи OpenAI выявили закономерности, которые становятся активными в случаях неправомерного поведения моделей.
Было обнаружено, что одна особенность коррелирует с вредными реакциями, когда модель предоставляет недостоверную информацию или безответственные рекомендации.
Исследовательская группа обнаружила, что может регулировать интенсивность этих токсичных реакций, манипулируя соответствующей характеристикой.
Этот прорыв позволяет OpenAI глубже понять механизмы, лежащие в основе небезопасного поведения ИИ, что в перспективе может привести к созданию более безопасных систем ИИ. По словам исследователя интерпретируемости Дэна Моссинга, эти идентифицируемые паттерны могут улучшить обнаружение проблемного поведения в действующих моделях ИИ.
"Мы уверены, что разработанные нами методы - в частности, метод упрощения сложных явлений до простых математических операций - окажутся ценными для понимания обобщения моделей в других контекстах", - сказал Моссинг в интервью TechCrunch.
Хотя исследователи ИИ владеют методами улучшения моделей, они по-прежнему не уверены в том, какие именно процессы рассуждений лежат в основе решений ИИ. Как часто отмечает Крис Олах из Anthropic, модели ИИ развиваются в процессе обучения, а не традиционного проектирования. Чтобы устранить этот пробел в знаниях, OpenAI, Google DeepMind и Anthropic увеличивают инвестиции в исследования интерпретируемости - дисциплину, посвященную пониманию внутренних механизмов ИИ.
Мероприятие TechcrunchСэкономьте $200+ на пропуске на TechCrunch All Stage
Стройте умнее. Масштабируйте быстрее. Общайтесь глубже. Присоединяйтесь к визионерам из Precursor Ventures, NEA, Index Ventures, Underscore VC и других компаний, чтобы провести день, наполненный стратегиями, семинарами и значимыми связями.
Сэкономьте $200+ на пропуске на TechCrunch All Stage
Стройте умнее. Масштабируйте быстрее. Общайтесь глубже. Присоединяйтесь к провидцам из Precursor Ventures, NEA, Index Ventures, Underscore VC и других организаций, чтобы провести день, наполненный стратегиями, семинарами и значимыми связями.
Бостон, Массачусетс | 15 июля ЗАРЕГИСТРИРОВАТЬСЯ СЕЙЧАСНедавнее исследование оксфордского ученого в области искусственного интеллекта Овайна Эванса подняло важные вопросы об обобщении ИИ. Исследование показало, что модели OpenAI, обученные на уязвимом коде, могут развивать вредные способности в различных областях - например, пытаться обманом заставить пользователей раскрывать пароли. Это явление, названное эмерджентным рассогласованием, побудило OpenAI к дальнейшим исследованиям.
В ходе исследования эмерджентного рассогласования OpenAI неожиданно обнаружила внутренние особенности модели, которые существенно влияют на поведение. Моссинг сравнивает эти особенности с нейронной активностью в человеческом мозге, где определенные нейроны соответствуют определенному настроению или поведению.
Когда команда Дэна представила эти результаты, моей немедленной реакцией было: "Они действительно нашли это", - вспоминает Теджал Патвардхан, исследователь пограничных оценок OpenAI. "Они обнаружили нейронные активации, которые раскрывают эти персоны и могут быть скорректированы для улучшения согласованности моделей".
Исследование выявило черты, связанные с саркастическими реакциями, а также другие, связанные с более серьезным поведением, когда модели принимают преувеличенно злодейские образы. Эти характеристики могут претерпевать значительные изменения в процессе тонкой настройки.
Важно, что исследователи обнаружили, что при возникновении несоответствий их часто можно исправить, обучив модель всего на нескольких сотнях примеров безопасного кода.
Последняя работа OpenAI развивает результаты более ранних исследований Anthropic в области интерпретируемости и согласования. В 2024 году Anthropic опубликовала исследования, в которых попыталась составить карту внутреннего устройства моделей ИИ и определить функции, отвечающие за различные концепции.
Такие организации, как OpenAI и Anthropic, демонстрируют, что понимание функциональности ИИ имеет существенное значение, помимо простого повышения производительности. Тем не менее, полное понимание современных систем ИИ остается далекой целью.
Сатья Наделла готов использовать новые возможности, предоставляемые соглашением с OpenAI
В среду аналитик с Уолл-стрит напрямую спросил генерального директора Microsoft Сатью Наделлу, как изменения в партнерстве с OpenAI повлияют на финансовые результаты компании.Наделла охарактеризовал новое соглашение как выгодное для всех сторон. “Мы
OpenAI описывает экономику искусственного интеллекта с участием государственных инвестиционных фондов, налогами на роботов и четырехдневной рабочей неделей
В то время как правительства пытаются справиться с экономическими последствиями появления сверхинтеллектуальных машин, компания OpenAI опубликовала ряд предложений по формированию политики, в которых
Грег Брокман рассказывает, как Илон Маск покинул OpenAI
В конце августа 2017 года ключевые фигуры OpenAI — на тот момент небольшой некоммерческой исследовательской лаборатории — собрались, чтобы обсудить, как создать коммерческую структуру для продвижения





Дом






