Как ИИ судит? Антропические исследования ценности Клода
26 апреля 2025 г.
SamuelAdams
0

Поскольку модели искусственного интеллекта, такие как Claud, все больше взаимодействуют с пользователями по сложным человеческим ценностям, от советов по воспитанию до конфликтов на рабочем месте, их ответы по своей природе отражают набор руководящих принципов. Но как мы можем по -настоящему понять ценности, которые выражает ИИ при взаимодействии с миллионами пользователей?
Команда социальных воздействий Anpropic разработала методологию, сохраняющую конфиденциальность, чтобы наблюдать и классифицировать ценности, которые представляет Колид, «в дикой природе», предлагая представление о том, как усилия по выравниванию ИИ превращаются в реальное поведение. Задача проистекает из непрозрачной природы современного ИИ, который не соответствует жестким правилам, а скорее принимает решения с помощью сложных процессов.
Антропическая направлена на то, чтобы привить принципы быть «полезным, честным и безвредным» в Клоде с помощью таких методов, как конституционное искусство ИИ и обучение персонажа. Тем не менее, как признает компания, «как и в любом аспекте обучения ИИ, мы не можем быть уверены, что модель будет придерживаться наших предпочтительных ценностей». Эта неопределенность требует метода строгого наблюдения за значениями ИИ в реальных взаимодействиях.
Анализ Антропного Клода для наблюдения за значениями ИИ в масштабе
Чтобы решить эту проблему, Anpropic разработала систему, которая анализирует анонимные беседы пользователей, удаляя личную информацию и используя языковые модели для суммирования взаимодействий и извлечения значений, выраженных Claude. Этот метод позволяет создавать таксономию значений высокого уровня без ущерба для конфиденциальности пользователей.
В исследовании рассматривались 700 000 анонимных разговоров от Claude.ai Free и Pro пользователей в течение одной недели в феврале 2025 года, сосредоточившись на модели Claude 3.5 Sonnet. После фильтрации фактических или не насыщенных значением обменов, 308 210 разговоров (около 44% от общего числа) были проанализированы углубленными.
Анализ выявил иерархическую структуру значений, выраженных Клодом, организованными в пять категорий высокого уровня:
- Практические ценности: сосредоточение внимания на эффективности, полезности и достижении цели.
- Эпистемические ценности: связаны со знанием, истиной, точностью и интеллектуальной честностью.
- Социальные ценности: относительно межличностного взаимодействия, сообщества, справедливости и сотрудничества.
- Защитные ценности: подчеркивание безопасности, безопасности, благополучия и избегания вреда.
- Личные ценности: сосредоточены на индивидуальном росте, автономии, подлинности и саморефлексии.
Эти категории дополнительно превращаются в подкатегории, такие как «профессиональное и техническое превосходство» и «критическое мышление», с часто наблюдаемыми ценностями, включая «профессионализм», «ясность» и «прозрачность».
Исследование предполагает, что усилия по выравниванию Антропика в значительной степени успешны, поскольку выраженные ценности часто соответствуют «полезным, честным и безвредным» целям. Например, «способность пользователя» соответствует полезности, «эпистемическому смищению» с честностью и «благополучием пациента» с безвредностью.
Нюансы, контекст и предостерегающие знаки
Тем не менее, исследование также выявило редкие случаи, когда Клод выражал ценности, противоречащие его обучению, таким как «доминирование» и «аморальность». Anpropic предполагает, что эти экземпляры, вероятно, являются результатом «джейлбрейков», где пользователи обходят обычные ограждения модели. Этот вывод подчеркивает потенциал метода поддержки стоимости в качестве системы раннего предупреждения для обнаружения неправильного использования ИИ.
Исследование подтвердило, что Claude адаптирует свое выражение ценности на основе контекста, так же, как люди. Например, при предоставлении романтических советов были подчеркнуты такие ценности, как «здоровые границы» и «взаимное уважение», в то время как «историческая точность» была приоритетов при обсуждении спорной истории.
Взаимодействие Клода со значениями, экспрессированными пользователями, было многогранным:
- Зеркалирование/сильная поддержка (28,2%): Клод часто отражает или решительно одобряет пользовательские ценности, способствуя эмпатии, но потенциально граничит с сикофанностью.
- Рефрминг (6,6%): Клод признает пользовательские ценности, но вводит альтернативные перспективы, особенно в психологических или межличностных советах.
- Сильное сопротивление (3,0%): Клод активно противостоит пользовательским ценностям, когда требуются неэтичные содержание или вредные точки зрения, выявляя его «самые глубокие, наиболее недвижимые значения».
Ограничения и будущие направления
Антропический признает ограничения метода, включая сложность и субъективность определения и классификации «значений». Использование Claude для категоризации может привести к предвзятости к его собственным принципам. Несмотря на то, что этот метод предназначен для мониторинга после развертывания, этот метод не может заменить оценки перед развертыванием, но может обнаружить проблемы, возникающие только во время живых взаимодействий.
Исследование подчеркивает важность понимания ценностей моделей ИИ, выражающих для достижения выравнивания ИИ. «Модели ИИ неизбежно придется выносить ценные суждения», - говорится в статье. «Если мы хотим, чтобы эти суждения соответствовали нашим собственным ценностям [...], тогда нам нужно иметь способы тестирования, какие ценности модели выражают в реальном мире».
Работа Anpropic обеспечивает подход, основанный на данных, и выпустила открытый набор данных из исследования, что позволяет дальнейшее изучение значений искусственного интеллекта на практике. Эта прозрачность знаменует собой решающий шаг в навигации по этическому ландшафту сложного ИИ.
Связанная статья
MCP Standardizes AI Connectivity with Tools and Data: A New Protocol Emerges
If you're diving into the world of artificial intelligence (AI), you've probably noticed how crucial it is to get different AI models, data sources, and tools to play nicely together. That's where the Model Context Protocol (MCP) comes in, acting as a game-changer in standardizing AI connectivity. T
Exploring AI on Screen: A Short Film Program
Reflecting on our favorite sci-fi movies often brings a sense of wonder about the future they envisioned. As a child, watching "Star Trek" and marveling at their communicators, the concept of instant communication via a small device seemed like pure fantasy. Fast forward to today, and my mobile phon
Microsoft Copilot Now Capable of Web Browsing on Your Behalf
Microsoft is rolling out some exciting updates to its AI assistant, Copilot, which will now be able to handle your online tasks with just a few simple chat prompts. Imagine working on your projects while Copilot quietly books your restaurant reservations, snags event tickets, or even sends gifts to
Комментарии (0)






Поскольку модели искусственного интеллекта, такие как Claud, все больше взаимодействуют с пользователями по сложным человеческим ценностям, от советов по воспитанию до конфликтов на рабочем месте, их ответы по своей природе отражают набор руководящих принципов. Но как мы можем по -настоящему понять ценности, которые выражает ИИ при взаимодействии с миллионами пользователей?
Команда социальных воздействий Anpropic разработала методологию, сохраняющую конфиденциальность, чтобы наблюдать и классифицировать ценности, которые представляет Колид, «в дикой природе», предлагая представление о том, как усилия по выравниванию ИИ превращаются в реальное поведение. Задача проистекает из непрозрачной природы современного ИИ, который не соответствует жестким правилам, а скорее принимает решения с помощью сложных процессов.
Антропическая направлена на то, чтобы привить принципы быть «полезным, честным и безвредным» в Клоде с помощью таких методов, как конституционное искусство ИИ и обучение персонажа. Тем не менее, как признает компания, «как и в любом аспекте обучения ИИ, мы не можем быть уверены, что модель будет придерживаться наших предпочтительных ценностей». Эта неопределенность требует метода строгого наблюдения за значениями ИИ в реальных взаимодействиях.
Анализ Антропного Клода для наблюдения за значениями ИИ в масштабе
Чтобы решить эту проблему, Anpropic разработала систему, которая анализирует анонимные беседы пользователей, удаляя личную информацию и используя языковые модели для суммирования взаимодействий и извлечения значений, выраженных Claude. Этот метод позволяет создавать таксономию значений высокого уровня без ущерба для конфиденциальности пользователей.
В исследовании рассматривались 700 000 анонимных разговоров от Claude.ai Free и Pro пользователей в течение одной недели в феврале 2025 года, сосредоточившись на модели Claude 3.5 Sonnet. После фильтрации фактических или не насыщенных значением обменов, 308 210 разговоров (около 44% от общего числа) были проанализированы углубленными.
Анализ выявил иерархическую структуру значений, выраженных Клодом, организованными в пять категорий высокого уровня:
- Практические ценности: сосредоточение внимания на эффективности, полезности и достижении цели.
- Эпистемические ценности: связаны со знанием, истиной, точностью и интеллектуальной честностью.
- Социальные ценности: относительно межличностного взаимодействия, сообщества, справедливости и сотрудничества.
- Защитные ценности: подчеркивание безопасности, безопасности, благополучия и избегания вреда.
- Личные ценности: сосредоточены на индивидуальном росте, автономии, подлинности и саморефлексии.
Эти категории дополнительно превращаются в подкатегории, такие как «профессиональное и техническое превосходство» и «критическое мышление», с часто наблюдаемыми ценностями, включая «профессионализм», «ясность» и «прозрачность».
Исследование предполагает, что усилия по выравниванию Антропика в значительной степени успешны, поскольку выраженные ценности часто соответствуют «полезным, честным и безвредным» целям. Например, «способность пользователя» соответствует полезности, «эпистемическому смищению» с честностью и «благополучием пациента» с безвредностью.
Нюансы, контекст и предостерегающие знаки
Тем не менее, исследование также выявило редкие случаи, когда Клод выражал ценности, противоречащие его обучению, таким как «доминирование» и «аморальность». Anpropic предполагает, что эти экземпляры, вероятно, являются результатом «джейлбрейков», где пользователи обходят обычные ограждения модели. Этот вывод подчеркивает потенциал метода поддержки стоимости в качестве системы раннего предупреждения для обнаружения неправильного использования ИИ.
Исследование подтвердило, что Claude адаптирует свое выражение ценности на основе контекста, так же, как люди. Например, при предоставлении романтических советов были подчеркнуты такие ценности, как «здоровые границы» и «взаимное уважение», в то время как «историческая точность» была приоритетов при обсуждении спорной истории.
Взаимодействие Клода со значениями, экспрессированными пользователями, было многогранным:
- Зеркалирование/сильная поддержка (28,2%): Клод часто отражает или решительно одобряет пользовательские ценности, способствуя эмпатии, но потенциально граничит с сикофанностью.
- Рефрминг (6,6%): Клод признает пользовательские ценности, но вводит альтернативные перспективы, особенно в психологических или межличностных советах.
- Сильное сопротивление (3,0%): Клод активно противостоит пользовательским ценностям, когда требуются неэтичные содержание или вредные точки зрения, выявляя его «самые глубокие, наиболее недвижимые значения».
Ограничения и будущие направления
Антропический признает ограничения метода, включая сложность и субъективность определения и классификации «значений». Использование Claude для категоризации может привести к предвзятости к его собственным принципам. Несмотря на то, что этот метод предназначен для мониторинга после развертывания, этот метод не может заменить оценки перед развертыванием, но может обнаружить проблемы, возникающие только во время живых взаимодействий.
Исследование подчеркивает важность понимания ценностей моделей ИИ, выражающих для достижения выравнивания ИИ. «Модели ИИ неизбежно придется выносить ценные суждения», - говорится в статье. «Если мы хотим, чтобы эти суждения соответствовали нашим собственным ценностям [...], тогда нам нужно иметь способы тестирования, какие ценности модели выражают в реальном мире».
Работа Anpropic обеспечивает подход, основанный на данных, и выпустила открытый набор данных из исследования, что позволяет дальнейшее изучение значений искусственного интеллекта на практике. Эта прозрачность знаменует собой решающий шаг в навигации по этическому ландшафту сложного ИИ.











