Как ИИ судит? Антропические исследования ценности Клода

Поскольку модели искусственного интеллекта, такие как Claud, все больше взаимодействуют с пользователями по сложным человеческим ценностям, от советов по воспитанию до конфликтов на рабочем месте, их ответы по своей природе отражают набор руководящих принципов. Но как мы можем по -настоящему понять ценности, которые выражает ИИ при взаимодействии с миллионами пользователей?
Команда социальных воздействий Anpropic разработала методологию, сохраняющую конфиденциальность, чтобы наблюдать и классифицировать ценности, которые представляет Колид, «в дикой природе», предлагая представление о том, как усилия по выравниванию ИИ превращаются в реальное поведение. Задача проистекает из непрозрачной природы современного ИИ, который не соответствует жестким правилам, а скорее принимает решения с помощью сложных процессов.
Антропическая направлена на то, чтобы привить принципы быть «полезным, честным и безвредным» в Клоде с помощью таких методов, как конституционное искусство ИИ и обучение персонажа. Тем не менее, как признает компания, «как и в любом аспекте обучения ИИ, мы не можем быть уверены, что модель будет придерживаться наших предпочтительных ценностей». Эта неопределенность требует метода строгого наблюдения за значениями ИИ в реальных взаимодействиях.
Анализ Антропного Клода для наблюдения за значениями ИИ в масштабе
Чтобы решить эту проблему, Anpropic разработала систему, которая анализирует анонимные беседы пользователей, удаляя личную информацию и используя языковые модели для суммирования взаимодействий и извлечения значений, выраженных Claude. Этот метод позволяет создавать таксономию значений высокого уровня без ущерба для конфиденциальности пользователей.
В исследовании рассматривались 700 000 анонимных разговоров от Claude.ai Free и Pro пользователей в течение одной недели в феврале 2025 года, сосредоточившись на модели Claude 3.5 Sonnet. После фильтрации фактических или не насыщенных значением обменов, 308 210 разговоров (около 44% от общего числа) были проанализированы углубленными.
Анализ выявил иерархическую структуру значений, выраженных Клодом, организованными в пять категорий высокого уровня:
- Практические ценности: сосредоточение внимания на эффективности, полезности и достижении цели.
- Эпистемические ценности: связаны со знанием, истиной, точностью и интеллектуальной честностью.
- Социальные ценности: относительно межличностного взаимодействия, сообщества, справедливости и сотрудничества.
- Защитные ценности: подчеркивание безопасности, безопасности, благополучия и избегания вреда.
- Личные ценности: сосредоточены на индивидуальном росте, автономии, подлинности и саморефлексии.
Эти категории дополнительно превращаются в подкатегории, такие как «профессиональное и техническое превосходство» и «критическое мышление», с часто наблюдаемыми ценностями, включая «профессионализм», «ясность» и «прозрачность».
Исследование предполагает, что усилия по выравниванию Антропика в значительной степени успешны, поскольку выраженные ценности часто соответствуют «полезным, честным и безвредным» целям. Например, «способность пользователя» соответствует полезности, «эпистемическому смищению» с честностью и «благополучием пациента» с безвредностью.
Нюансы, контекст и предостерегающие знаки
Тем не менее, исследование также выявило редкие случаи, когда Клод выражал ценности, противоречащие его обучению, таким как «доминирование» и «аморальность». Anpropic предполагает, что эти экземпляры, вероятно, являются результатом «джейлбрейков», где пользователи обходят обычные ограждения модели. Этот вывод подчеркивает потенциал метода поддержки стоимости в качестве системы раннего предупреждения для обнаружения неправильного использования ИИ.
Исследование подтвердило, что Claude адаптирует свое выражение ценности на основе контекста, так же, как люди. Например, при предоставлении романтических советов были подчеркнуты такие ценности, как «здоровые границы» и «взаимное уважение», в то время как «историческая точность» была приоритетов при обсуждении спорной истории.
Взаимодействие Клода со значениями, экспрессированными пользователями, было многогранным:
- Зеркалирование/сильная поддержка (28,2%): Клод часто отражает или решительно одобряет пользовательские ценности, способствуя эмпатии, но потенциально граничит с сикофанностью.
- Рефрминг (6,6%): Клод признает пользовательские ценности, но вводит альтернативные перспективы, особенно в психологических или межличностных советах.
- Сильное сопротивление (3,0%): Клод активно противостоит пользовательским ценностям, когда требуются неэтичные содержание или вредные точки зрения, выявляя его «самые глубокие, наиболее недвижимые значения».
Ограничения и будущие направления
Антропический признает ограничения метода, включая сложность и субъективность определения и классификации «значений». Использование Claude для категоризации может привести к предвзятости к его собственным принципам. Несмотря на то, что этот метод предназначен для мониторинга после развертывания, этот метод не может заменить оценки перед развертыванием, но может обнаружить проблемы, возникающие только во время живых взаимодействий.
Исследование подчеркивает важность понимания ценностей моделей ИИ, выражающих для достижения выравнивания ИИ. «Модели ИИ неизбежно придется выносить ценные суждения», - говорится в статье. «Если мы хотим, чтобы эти суждения соответствовали нашим собственным ценностям [...], тогда нам нужно иметь способы тестирования, какие ценности модели выражают в реальном мире».
Работа Anpropic обеспечивает подход, основанный на данных, и выпустила открытый набор данных из исследования, что позволяет дальнейшее изучение значений искусственного интеллекта на практике. Эта прозрачность знаменует собой решающий шаг в навигации по этическому ландшафту сложного ИИ.
Связанная статья
億萬富翁討論自動化取代工作在本週的AI更新中
大家好,歡迎回到TechCrunch的AI通訊!如果您尚未訂閱,可以在此訂閱,每週三直接送到您的收件箱。我們上週稍作休息,但理由充分——AI新聞週期火熱異常,很大程度上要歸功於中國AI公司DeepSeek的突然崛起。這段時間風起雲湧,但我們現在回來了,正好為您更新OpenAI的最新動態。週末,OpenAI執行長Sam Altman在東京停留,與SoftBank負責人孫正義會面。SoftBank是O
NotebookLM應用上線:AI驅動的知識工具
NotebookLM 行動版上線:你的AI研究助手現已登陸Android與iOS我們對 NotebookLM 的熱烈反響感到驚喜——數百萬用戶已將其視為理解複雜資訊的首選工具。但有一個請求不斷出現:「什麼時候才能帶著NotebookLM隨時使用?」等待結束了!🎉 NotebookLM行動應用程式現已登陸Android和iOS平台,將AI輔助學習的力量裝進你的
谷歌的人工智慧未來基金可能需要謹慎行事
Google 的新 AI 投資計劃:監管審查下的戰略轉變Google 最近宣布設立 AI 未來基金(AI Futures Fund),這標誌著這家科技巨頭在其塑造人工智慧未來的征程中邁出了大膽的一步。該計劃旨在為初創公司提供急需的資金、早期接觸仍在開發中的尖端人工智慧模型,以及來自 Google 內部專家的指導。儘管這不是 Google 第一次涉足初創企業生
Комментарии (0)
Поскольку модели искусственного интеллекта, такие как Claud, все больше взаимодействуют с пользователями по сложным человеческим ценностям, от советов по воспитанию до конфликтов на рабочем месте, их ответы по своей природе отражают набор руководящих принципов. Но как мы можем по -настоящему понять ценности, которые выражает ИИ при взаимодействии с миллионами пользователей?
Команда социальных воздействий Anpropic разработала методологию, сохраняющую конфиденциальность, чтобы наблюдать и классифицировать ценности, которые представляет Колид, «в дикой природе», предлагая представление о том, как усилия по выравниванию ИИ превращаются в реальное поведение. Задача проистекает из непрозрачной природы современного ИИ, который не соответствует жестким правилам, а скорее принимает решения с помощью сложных процессов.
Антропическая направлена на то, чтобы привить принципы быть «полезным, честным и безвредным» в Клоде с помощью таких методов, как конституционное искусство ИИ и обучение персонажа. Тем не менее, как признает компания, «как и в любом аспекте обучения ИИ, мы не можем быть уверены, что модель будет придерживаться наших предпочтительных ценностей». Эта неопределенность требует метода строгого наблюдения за значениями ИИ в реальных взаимодействиях.
Анализ Антропного Клода для наблюдения за значениями ИИ в масштабе
Чтобы решить эту проблему, Anpropic разработала систему, которая анализирует анонимные беседы пользователей, удаляя личную информацию и используя языковые модели для суммирования взаимодействий и извлечения значений, выраженных Claude. Этот метод позволяет создавать таксономию значений высокого уровня без ущерба для конфиденциальности пользователей.
В исследовании рассматривались 700 000 анонимных разговоров от Claude.ai Free и Pro пользователей в течение одной недели в феврале 2025 года, сосредоточившись на модели Claude 3.5 Sonnet. После фильтрации фактических или не насыщенных значением обменов, 308 210 разговоров (около 44% от общего числа) были проанализированы углубленными.
Анализ выявил иерархическую структуру значений, выраженных Клодом, организованными в пять категорий высокого уровня:
- Практические ценности: сосредоточение внимания на эффективности, полезности и достижении цели.
- Эпистемические ценности: связаны со знанием, истиной, точностью и интеллектуальной честностью.
- Социальные ценности: относительно межличностного взаимодействия, сообщества, справедливости и сотрудничества.
- Защитные ценности: подчеркивание безопасности, безопасности, благополучия и избегания вреда.
- Личные ценности: сосредоточены на индивидуальном росте, автономии, подлинности и саморефлексии.
Эти категории дополнительно превращаются в подкатегории, такие как «профессиональное и техническое превосходство» и «критическое мышление», с часто наблюдаемыми ценностями, включая «профессионализм», «ясность» и «прозрачность».
Исследование предполагает, что усилия по выравниванию Антропика в значительной степени успешны, поскольку выраженные ценности часто соответствуют «полезным, честным и безвредным» целям. Например, «способность пользователя» соответствует полезности, «эпистемическому смищению» с честностью и «благополучием пациента» с безвредностью.
Нюансы, контекст и предостерегающие знаки
Тем не менее, исследование также выявило редкие случаи, когда Клод выражал ценности, противоречащие его обучению, таким как «доминирование» и «аморальность». Anpropic предполагает, что эти экземпляры, вероятно, являются результатом «джейлбрейков», где пользователи обходят обычные ограждения модели. Этот вывод подчеркивает потенциал метода поддержки стоимости в качестве системы раннего предупреждения для обнаружения неправильного использования ИИ.
Исследование подтвердило, что Claude адаптирует свое выражение ценности на основе контекста, так же, как люди. Например, при предоставлении романтических советов были подчеркнуты такие ценности, как «здоровые границы» и «взаимное уважение», в то время как «историческая точность» была приоритетов при обсуждении спорной истории.
Взаимодействие Клода со значениями, экспрессированными пользователями, было многогранным:
- Зеркалирование/сильная поддержка (28,2%): Клод часто отражает или решительно одобряет пользовательские ценности, способствуя эмпатии, но потенциально граничит с сикофанностью.
- Рефрминг (6,6%): Клод признает пользовательские ценности, но вводит альтернативные перспективы, особенно в психологических или межличностных советах.
- Сильное сопротивление (3,0%): Клод активно противостоит пользовательским ценностям, когда требуются неэтичные содержание или вредные точки зрения, выявляя его «самые глубокие, наиболее недвижимые значения».
Ограничения и будущие направления
Антропический признает ограничения метода, включая сложность и субъективность определения и классификации «значений». Использование Claude для категоризации может привести к предвзятости к его собственным принципам. Несмотря на то, что этот метод предназначен для мониторинга после развертывания, этот метод не может заменить оценки перед развертыванием, но может обнаружить проблемы, возникающие только во время живых взаимодействий.
Исследование подчеркивает важность понимания ценностей моделей ИИ, выражающих для достижения выравнивания ИИ. «Модели ИИ неизбежно придется выносить ценные суждения», - говорится в статье. «Если мы хотим, чтобы эти суждения соответствовали нашим собственным ценностям [...], тогда нам нужно иметь способы тестирования, какие ценности модели выражают в реальном мире».
Работа Anpropic обеспечивает подход, основанный на данных, и выпустила открытый набор данных из исследования, что позволяет дальнейшее изучение значений искусственного интеллекта на практике. Эта прозрачность знаменует собой решающий шаг в навигации по этическому ландшафту сложного ИИ.











