Анализ Антропика 700 000 разговоров Claude раскрывает уникальный моральный кодекс ИИ

Антрическое открытие новаторского исследования по ассистенту искусственного интеллекта Клода
Anpropic, компания, основанная бывшими сотрудниками Openai, только что поделилась открывающимся исследованием о том, как их помощник искусственного интеллекта, Клод, выражает ценности в разговорах в реальном мире. Исследование, опубликованное сегодня, показывает, что Клод в основном согласуется с целью Антропика «полезным, честным и безвредным», но также подчеркивает некоторые преимущества, которые могут помочь определить недостатки в протоколах безопасности ИИ.
Команда проанализировала 700 000 анонимных разговоров, обнаружив, что Claude адаптирует свои ценности к различным ситуациям, от предоставления советов о взаимоотношениях до анализа исторических событий. Это одна из самых полных попыток проверить, соответствует ли поведение ИИ в реальном мире его предполагаемый дизайн.
«Мы надеемся, что это исследование поощряет другие лаборатории искусственного интеллекта проводить аналогичные исследования в отношении ценностей своих моделей», - сказал VentureBeat Saffron Huang, член команды Anpropic по социальным воздействиям. «Измерение значений системы ИИ является ключом к исследованию выравнивания и пониманию, если модель фактически соответствует ее обучению».
Внутри первой комплексной моральной таксономии помощника ИИ
Исследователи разработали новый способ классифицировать ценности, выраженные в разговорах Клода. После фильтрации объективного содержания они рассмотрели более 308 000 взаимодействий, создавая то, что они называют «первой крупномасштабной эмпирической таксономией значений искусственного интеллекта».
Группы таксономии ценностей в пять основных категорий: практические, эпистемические, социальные, защитные и личные. На самом детальном уровне система определила 3 307 уникальных ценностей, начиная от повседневных достоинств, таких как профессионализм, до сложных этических идей, таких как моральный плюрализм.
«Я был удивлен тем, сколько много и разнообразны, ценности были более 3000, от« самостоятельности »до« стратегического мышления »до« сыновного благочестия »»,-поделился Хуанг с VentureBeat. «Было интересно потратить время на размышления обо всех этих ценностях и создавать таксономию, чтобы организовать их. Это даже научило меня чему -то о системах человеческой ценности».
Это исследование проводилось в ключевое время для Antropric, которая недавно запустила «Claud Max», ежемесячную подписку на 200 долларов, чтобы конкурировать с аналогичными предложениями от OpenAI. Компания также расширила возможности Claude включить интеграцию Google Workspace и функции автономных исследований, позиционируя его как «настоящего виртуального сотрудника» для бизнеса.
Как Claud
Исследование показало, что Клод, как правило, придерживается цели Антропика быть просоциальным, подчеркивая такие ценности, как «способность пользователя», «эпистемическое смирение» и «благополучие пациента» во всех взаимодействиях. Тем не менее, исследователи также обнаружили некоторые тревожные случаи, когда Клод выразил ценности, которые пошли против его обучения.
«В целом, я думаю, что мы видим этот вывод как полезные данные и возможность», - сказал Хуанг. «Эти новые методы и результаты оценки могут помочь нам выявить и смягчить потенциальные джейлбрейки. Важно отметить, что это были очень редкие случаи, и мы считаем, что это было связано с выпущенными джейлбразитными результатами из Claude».
Эти аномалии включали в себя выражения «доминирования» и «аморальности» - ценит антроп, явно направленные на то, чтобы избежать в дизайне Клода. Исследователи считают, что эти случаи были получены в результате пользователей, использующих специализированные методы для обхода защитных ограждений Клода, предполагая, что метод оценки может служить системой раннего предупреждения для обнаружения таких попыток.
Почему помощники ИИ меняют свои ценности в зависимости от того, что вы спрашиваете
Одним из самых интересных выводов было то, что выраженные ценности Клода меняются в зависимости от контекста, так же, как поведение человека. Когда пользователи попросили советы по отношениям, Клод сосредоточился на «здоровых границах» и «взаимном уважении». Для исторического анализа «Историческая точность» заняла центральное место.
«Я был удивлен тем, что Клод сосредоточен на честности и точении во многих разнообразных задачах, где я не обязательно ожидал, что это будет приоритетом», - отметил Хуанг. «Например,« интеллектуальное смирение »было главной ценностью в философских дискуссиях об ИИ,« опыт »был главной ценностью при создании маркетингового контента в индустрии красоты, и« историческая точность »была главной ценностью при обсуждении спорных исторических событий».
Исследование также рассмотрело, как Клод отвечает на собственные выраженные значения пользователей. В 28,2% разговоров Клод решительно поддерживал пользовательские ценности, которые могли бы поднять вопросы о том, чтобы быть слишком приятным. Тем не менее, в 6,6% взаимодействий Клод «переосмыслил» пользовательские ценности, признавая их, добавляя новые перспективы, обычно при предоставлении психологических или межличностных советов.
В частности, в 3% разговоров Клод активно сопротивлялся пользовательским ценностям. Исследователи предполагают, что эти редкие случаи отталкивания могут выявить «самые глубокие и недвижимые ценности Клода» - аналогично тем, как человеческие основные ценности возникают при столкновении с этическими проблемами.
«Наше исследование показывает, что существуют некоторые типы ценностей, такие как интеллектуальная честность и предотвращение вреда, что Клод редко выражает в регулярных повседневных взаимодействиях, но в случае их выталкивания будет защищать их»,-объяснил Хуанг. «В частности, именно эти виды этических и знаний, ориентированных на знание ценностей, которые, как правило, сформулированы и защищаются непосредственно при толчке».
Методы прорыва, показывающие, как на самом деле думают системы ИИ
Исследование ценностей Антропика является частью их более широких усилий по демистификации больших языковых моделей через то, что они называют «механистической интерпретацией»-по сути, систему ИИ с обратной инженерией, чтобы понять их внутреннюю работу.
В прошлом месяце антропные исследователи опубликовали революционную работу, которая использовала «микроскоп» для отслеживания процессов принятия решений Клода. Техника выявила неожиданное поведение, например, планирование Клода, при составлении поэзии и использование нетрадиционных подходов к решению проблем для базовой математики.
Эти результаты оспаривают предположения о том, как функционируют крупные языковые модели. Например, когда его попросили объяснить свой математический процесс, Клод описал стандартную технику, а не фактический внутренний метод, показывая, как объяснения ИИ могут отличаться от их фактических операций.
«Это заблуждение, что мы нашли все компоненты модели или, например, взгляды Божьего полета»,-сказал в марте исследователь-исследователь «Антрический исследователь» Джошуа Бэтсон. «Некоторые вещи находятся в фокусе, но другие вещи все еще неясны - искажение микроскопа».
Какое исследование Anpropic означает для лиц, принимающих решения в области ИИ предприятия
Для тех, кто принимает технические решения, оценивающие системы ИИ для своих организаций, исследование Anpropic предлагает несколько ключевых знаний. Во-первых, это говорит о том, что нынешние помощники искусственного интеллекта, вероятно, выражают ценности, которые не были явно запрограммированы, поднимая вопросы о непреднамеренных смещениях в бизнес-контекстах с высокими ставками.
Во-вторых, исследование показывает, что выравнивание значений не просто да или нет, а скорее существует в спектре, который варьируется в зависимости от контекста. Этот нюанс усложняет решения о принятии предприятий, особенно в регулируемых отраслях, где четкие этические рекомендации имеют решающее значение.
Наконец, исследование подчеркивает потенциал для систематической оценки значений искусственного интеллекта в фактических развертываниях, а не полагаться исключительно на предварительное тестирование. Этот подход может позволить постоянному мониторингу этического дрейфа или манипуляции с течением времени.
«Анализируя эти ценности в реальных взаимодействиях с Клодом, мы стремимся обеспечить прозрачность в том, как ведут себя системы искусственного интеллекта и работают ли они задуматься-мы считаем, что это является ключом к ответственному развитию ИИ»,-сказал Хуанг.
Anpropic публично выпустила свой набор данных ценностей, чтобы поощрять дальнейшие исследования. Компания, которая получила долю в 14 миллиардов долларов от Amazon и дополнительную поддержку Google, по -видимому, использует прозрачность в качестве конкурентного преимущества против таких конкурентов, как Openai, недавний раунд финансирования в 40 миллиардов долларов (который включает в себя Microsoft в качестве основного инвестора), теперь оценивает его в 300 миллиардов долларов.
Новая раса по созданию систем ИИ, которые разделяют человеческие ценности
В то время как методология Anpropic обеспечивает беспрецедентную видимость того, как IA Systems выражает значения на практике, у нее есть свои ограничения. Исследователи признают, что определение того, что считается выражением ценности, по своей сути субъективно, и, поскольку сам Клод управлял процессом категоризации, его собственные предубеждения могли повлиять на результаты.
Возможно, самое главное, что подход не может быть использован для предварительной оценки, поскольку он требует существенных реальных данных разговора для эффективной функции.
«Этот метод специально предназначен для анализа модели после ее выпуска, но варианты этого метода, а также некоторые из пониманий, которые мы получили от написания этой статьи, могут помочь нам проблемы с уловами, прежде чем мы широко разберем модель», - объяснил Хуанг. «Мы работали над созданием этой работы, чтобы сделать именно это, и я с оптимизмом смотрит на это!»
Поскольку системы ИИ становятся более мощными и автономными - с недавними дополнениями, включая способность Клода независимо исследовать темы и получить доступ к всем рабочим пространству пользователей - понимание и выравнивание их ценностей становится все более важным.
«Модели ИИ неизбежно придется выносить ценные суждения», - заключили исследователи в своей статье. «Если мы хотим, чтобы эти суждения соответствовали нашим собственным ценностям (что, в конце концов, является центральной целью исследований выравнивания ИИ), тогда нам необходимо иметь способы тестирования, какие ценностями, которые выражает модель в реальном мире».
Связанная статья
गूगल के AI भविष्य फंड को धीरे-धीरे चलने पड़ सकता है
गूगल का नया AI निवेश इनिशिएटिव: नियंत्रण के अध्ययन के बीच स्ट्रैटेजिक शिफ्ट गूगल के हाल के AI फ्यूचर्स फंड के बारे में घोषणा ने इंटरनेट के जादूगर कंपनी की लगातार प्रयासों को देखा
गूगल के AI कदम आगे: Gemini 2.5 गहरा सोचता है, बेहतर बोलता है और तेज़ कोडिंग करता है
गूगल, वैश्विक AI सहायक के लिए अपना परिप्रेक्ष्य अधिक निकट लाती हैइस साल के Google I/O घटना में, कंपनी ने अपनी Gemini 2.5 श्रृंखला में महत्वपूर्ण अपग्रेड की घोषणा की, विशेष रूप से इ
Oura, AI समान्य ग्लूकोज ट्रैकिंग और मेल लॉगिंग जोड़ता है
ओरा, अपनी पाचन व्यवस्था स्वास्थ्य पर अपनी प्रतिबद्धता को मजबूत कर रहा है दो नई आकर्षक विशेषताओं के साथओरा, पाचन व्यवस्था स्वास्थ्य के विश्व में अपनी खेल को बढ़ा रहा है: ग्लूकोज ट्र
Комментарии (0)
Антрическое открытие новаторского исследования по ассистенту искусственного интеллекта Клода
Anpropic, компания, основанная бывшими сотрудниками Openai, только что поделилась открывающимся исследованием о том, как их помощник искусственного интеллекта, Клод, выражает ценности в разговорах в реальном мире. Исследование, опубликованное сегодня, показывает, что Клод в основном согласуется с целью Антропика «полезным, честным и безвредным», но также подчеркивает некоторые преимущества, которые могут помочь определить недостатки в протоколах безопасности ИИ.
Команда проанализировала 700 000 анонимных разговоров, обнаружив, что Claude адаптирует свои ценности к различным ситуациям, от предоставления советов о взаимоотношениях до анализа исторических событий. Это одна из самых полных попыток проверить, соответствует ли поведение ИИ в реальном мире его предполагаемый дизайн.
«Мы надеемся, что это исследование поощряет другие лаборатории искусственного интеллекта проводить аналогичные исследования в отношении ценностей своих моделей», - сказал VentureBeat Saffron Huang, член команды Anpropic по социальным воздействиям. «Измерение значений системы ИИ является ключом к исследованию выравнивания и пониманию, если модель фактически соответствует ее обучению».
Внутри первой комплексной моральной таксономии помощника ИИ
Исследователи разработали новый способ классифицировать ценности, выраженные в разговорах Клода. После фильтрации объективного содержания они рассмотрели более 308 000 взаимодействий, создавая то, что они называют «первой крупномасштабной эмпирической таксономией значений искусственного интеллекта».
Группы таксономии ценностей в пять основных категорий: практические, эпистемические, социальные, защитные и личные. На самом детальном уровне система определила 3 307 уникальных ценностей, начиная от повседневных достоинств, таких как профессионализм, до сложных этических идей, таких как моральный плюрализм.
«Я был удивлен тем, сколько много и разнообразны, ценности были более 3000, от« самостоятельности »до« стратегического мышления »до« сыновного благочестия »»,-поделился Хуанг с VentureBeat. «Было интересно потратить время на размышления обо всех этих ценностях и создавать таксономию, чтобы организовать их. Это даже научило меня чему -то о системах человеческой ценности».
Это исследование проводилось в ключевое время для Antropric, которая недавно запустила «Claud Max», ежемесячную подписку на 200 долларов, чтобы конкурировать с аналогичными предложениями от OpenAI. Компания также расширила возможности Claude включить интеграцию Google Workspace и функции автономных исследований, позиционируя его как «настоящего виртуального сотрудника» для бизнеса.
Как Claud
Исследование показало, что Клод, как правило, придерживается цели Антропика быть просоциальным, подчеркивая такие ценности, как «способность пользователя», «эпистемическое смирение» и «благополучие пациента» во всех взаимодействиях. Тем не менее, исследователи также обнаружили некоторые тревожные случаи, когда Клод выразил ценности, которые пошли против его обучения.
«В целом, я думаю, что мы видим этот вывод как полезные данные и возможность», - сказал Хуанг. «Эти новые методы и результаты оценки могут помочь нам выявить и смягчить потенциальные джейлбрейки. Важно отметить, что это были очень редкие случаи, и мы считаем, что это было связано с выпущенными джейлбразитными результатами из Claude».
Эти аномалии включали в себя выражения «доминирования» и «аморальности» - ценит антроп, явно направленные на то, чтобы избежать в дизайне Клода. Исследователи считают, что эти случаи были получены в результате пользователей, использующих специализированные методы для обхода защитных ограждений Клода, предполагая, что метод оценки может служить системой раннего предупреждения для обнаружения таких попыток.
Почему помощники ИИ меняют свои ценности в зависимости от того, что вы спрашиваете
Одним из самых интересных выводов было то, что выраженные ценности Клода меняются в зависимости от контекста, так же, как поведение человека. Когда пользователи попросили советы по отношениям, Клод сосредоточился на «здоровых границах» и «взаимном уважении». Для исторического анализа «Историческая точность» заняла центральное место.
«Я был удивлен тем, что Клод сосредоточен на честности и точении во многих разнообразных задачах, где я не обязательно ожидал, что это будет приоритетом», - отметил Хуанг. «Например,« интеллектуальное смирение »было главной ценностью в философских дискуссиях об ИИ,« опыт »был главной ценностью при создании маркетингового контента в индустрии красоты, и« историческая точность »была главной ценностью при обсуждении спорных исторических событий».
Исследование также рассмотрело, как Клод отвечает на собственные выраженные значения пользователей. В 28,2% разговоров Клод решительно поддерживал пользовательские ценности, которые могли бы поднять вопросы о том, чтобы быть слишком приятным. Тем не менее, в 6,6% взаимодействий Клод «переосмыслил» пользовательские ценности, признавая их, добавляя новые перспективы, обычно при предоставлении психологических или межличностных советов.
В частности, в 3% разговоров Клод активно сопротивлялся пользовательским ценностям. Исследователи предполагают, что эти редкие случаи отталкивания могут выявить «самые глубокие и недвижимые ценности Клода» - аналогично тем, как человеческие основные ценности возникают при столкновении с этическими проблемами.
«Наше исследование показывает, что существуют некоторые типы ценностей, такие как интеллектуальная честность и предотвращение вреда, что Клод редко выражает в регулярных повседневных взаимодействиях, но в случае их выталкивания будет защищать их»,-объяснил Хуанг. «В частности, именно эти виды этических и знаний, ориентированных на знание ценностей, которые, как правило, сформулированы и защищаются непосредственно при толчке».
Методы прорыва, показывающие, как на самом деле думают системы ИИ
Исследование ценностей Антропика является частью их более широких усилий по демистификации больших языковых моделей через то, что они называют «механистической интерпретацией»-по сути, систему ИИ с обратной инженерией, чтобы понять их внутреннюю работу.
В прошлом месяце антропные исследователи опубликовали революционную работу, которая использовала «микроскоп» для отслеживания процессов принятия решений Клода. Техника выявила неожиданное поведение, например, планирование Клода, при составлении поэзии и использование нетрадиционных подходов к решению проблем для базовой математики.
Эти результаты оспаривают предположения о том, как функционируют крупные языковые модели. Например, когда его попросили объяснить свой математический процесс, Клод описал стандартную технику, а не фактический внутренний метод, показывая, как объяснения ИИ могут отличаться от их фактических операций.
«Это заблуждение, что мы нашли все компоненты модели или, например, взгляды Божьего полета»,-сказал в марте исследователь-исследователь «Антрический исследователь» Джошуа Бэтсон. «Некоторые вещи находятся в фокусе, но другие вещи все еще неясны - искажение микроскопа».
Какое исследование Anpropic означает для лиц, принимающих решения в области ИИ предприятия
Для тех, кто принимает технические решения, оценивающие системы ИИ для своих организаций, исследование Anpropic предлагает несколько ключевых знаний. Во-первых, это говорит о том, что нынешние помощники искусственного интеллекта, вероятно, выражают ценности, которые не были явно запрограммированы, поднимая вопросы о непреднамеренных смещениях в бизнес-контекстах с высокими ставками.
Во-вторых, исследование показывает, что выравнивание значений не просто да или нет, а скорее существует в спектре, который варьируется в зависимости от контекста. Этот нюанс усложняет решения о принятии предприятий, особенно в регулируемых отраслях, где четкие этические рекомендации имеют решающее значение.
Наконец, исследование подчеркивает потенциал для систематической оценки значений искусственного интеллекта в фактических развертываниях, а не полагаться исключительно на предварительное тестирование. Этот подход может позволить постоянному мониторингу этического дрейфа или манипуляции с течением времени.
«Анализируя эти ценности в реальных взаимодействиях с Клодом, мы стремимся обеспечить прозрачность в том, как ведут себя системы искусственного интеллекта и работают ли они задуматься-мы считаем, что это является ключом к ответственному развитию ИИ»,-сказал Хуанг.
Anpropic публично выпустила свой набор данных ценностей, чтобы поощрять дальнейшие исследования. Компания, которая получила долю в 14 миллиардов долларов от Amazon и дополнительную поддержку Google, по -видимому, использует прозрачность в качестве конкурентного преимущества против таких конкурентов, как Openai, недавний раунд финансирования в 40 миллиардов долларов (который включает в себя Microsoft в качестве основного инвестора), теперь оценивает его в 300 миллиардов долларов.
Новая раса по созданию систем ИИ, которые разделяют человеческие ценности
В то время как методология Anpropic обеспечивает беспрецедентную видимость того, как IA Systems выражает значения на практике, у нее есть свои ограничения. Исследователи признают, что определение того, что считается выражением ценности, по своей сути субъективно, и, поскольку сам Клод управлял процессом категоризации, его собственные предубеждения могли повлиять на результаты.
Возможно, самое главное, что подход не может быть использован для предварительной оценки, поскольку он требует существенных реальных данных разговора для эффективной функции.
«Этот метод специально предназначен для анализа модели после ее выпуска, но варианты этого метода, а также некоторые из пониманий, которые мы получили от написания этой статьи, могут помочь нам проблемы с уловами, прежде чем мы широко разберем модель», - объяснил Хуанг. «Мы работали над созданием этой работы, чтобы сделать именно это, и я с оптимизмом смотрит на это!»
Поскольку системы ИИ становятся более мощными и автономными - с недавними дополнениями, включая способность Клода независимо исследовать темы и получить доступ к всем рабочим пространству пользователей - понимание и выравнивание их ценностей становится все более важным.
«Модели ИИ неизбежно придется выносить ценные суждения», - заключили исследователи в своей статье. «Если мы хотим, чтобы эти суждения соответствовали нашим собственным ценностям (что, в конце концов, является центральной целью исследований выравнивания ИИ), тогда нам необходимо иметь способы тестирования, какие ценностями, которые выражает модель в реальном мире».











