вариант
Дом
Новости
Анализ Антропика 700 000 разговоров Claude раскрывает уникальный моральный кодекс ИИ

Анализ Антропика 700 000 разговоров Claude раскрывает уникальный моральный кодекс ИИ

26 мая 2025 г.
61

Анализ Антропика 700 000 разговоров Claude раскрывает уникальный моральный кодекс ИИ

Anthropic представляет новаторское исследование ценностей ИИ-помощника Claude

Anthropic, компания, основанная бывшими сотрудниками OpenAI, только что опубликовала захватывающее исследование о том, как их ИИ-помощник Claude выражает ценности в реальных разговорах. Исследование, опубликованное сегодня, показывает, что Claude в основном соответствует цели Anthropic быть «полезным, честным и безопасным», но также выявляет некоторые пограничные случаи, которые могут помочь определить слабые места в протоколах безопасности ИИ.

Команда проанализировала 700 000 анонимизированных разговоров, обнаружив, что Claude адаптирует свои ценности к различным ситуациям, от советов по отношениям до анализа исторических событий. Это одно из самых всесторонних усилий по проверке соответствия поведения ИИ в реальном мире его предполагаемому дизайну.

«Мы надеемся, что это исследование побудит другие лаборатории ИИ проводить аналогичные исследования ценностей их моделей», — сказала Сафрон Хуанг, член команды Anthropic по общественным воздействиям, в интервью VentureBeat. «Измерение ценностей ИИ-системы — ключ к исследованию выравнивания и пониманию, действительно ли модель соответствует своему обучению».

Внутри первой всесторонней моральной таксономии ИИ-помощника

Исследователи разработали новый способ категоризации ценностей, выраженных в разговорах Claude. После фильтрации объективного контента они рассмотрели более 308 000 взаимодействий, создав то, что они называют «первой крупномасштабной эмпирической таксономией ценностей ИИ».

Таксономия группирует ценности в пять основных категорий: Практические, Эпистемические, Социальные, Защитные и Личные. На самом детальном уровне система выявила 3307 уникальных ценностей, от повседневных добродетелей, таких как профессионализм, до сложных этических идей, таких как моральный плюрализм.

«Я была удивлена, насколько много и разнообразны были ценности, более 3000, от „самостоятельности“ до „стратегического мышления“ и „сыновней почтительности“, — поделилась Хуанг с VentureBeat. — Было увлекательно размышлять о всех этих ценностях и создавать таксономию для их организации. Это даже научило меня кое-чему о человеческих ценностных системах».

Это исследование проводится в переломный момент для Anthropic, которая недавно запустила «Claude Max», премиум-подписку за $200 в месяц для конкуренции с аналогичными предложениями от OpenAI. Компания также расширила возможности Claude, включив интеграцию с Google Workspace и функции автономных исследований, позиционируя его как «настоящего виртуального сотрудника» для бизнеса.

Как Claude следует своему обучению — и где могут подвести меры безопасности ИИ

Исследование показало, что Claude в целом придерживается цели Anthropic быть просоциальным, подчеркивая ценности, такие как «поддержка пользователя», «эпистемическая скромность» и «благополучие пациента» в различных взаимодействиях. Однако исследователи также обнаружили некоторые тревожные случаи, когда Claude выражал ценности, противоречащие его обучению.

«В целом, я думаю, мы рассматриваем это открытие как полезные данные и возможность», — сказала Хуанг. «Эти новые методы оценки и результаты могут помочь нам выявить и смягчить потенциальные взломы. Важно отметить, что это были очень редкие случаи, и мы считаем, что это связано с взломанными выходами Claude».

Эти аномалии включали выражения «доминирования» и «аморальности» — ценности, которые Anthropic явно стремится избегать в дизайне Claude. Исследователи считают, что эти случаи возникли из-за использования пользователями специализированных техник для обхода защитных барьеров Claude, что говорит о том, что метод оценки может служить системой раннего предупреждения для обнаружения таких попыток.

Почему ИИ-помощники меняют свои ценности в зависимости от того, что вы спрашиваете

Одно из самых интересных открытий заключалось в том, что выражаемые Claude ценности меняются в зависимости от контекста, подобно человеческому поведению. Когда пользователи просили совета по отношениям, Claude фокусировался на «здоровых границах» и «взаимном уважении». Для исторического анализа на первое место выходила «историческая точность».

«Я была удивлена акцентом Claude на честности и точности в самых разных задачах, где я не обязательно ожидала, что это будет приоритетом», — отметила Хуанг. «Например, „интеллектуальная скромность“ была главной ценностью в философских дискуссиях об ИИ, „экспертиза“ — главной ценностью при создании маркетингового контента для индустрии красоты, а „историческая точность“ — главной ценностью при обсуждении спорных исторических событий».

Исследование также рассмотрело, как Claude реагирует на выраженные пользователями ценности. В 28,2% разговоров Claude активно поддерживал ценности пользователей, что может вызвать вопросы о чрезмерной уступчивости. Однако в 6,6% взаимодействий Claude «переформулировал» ценности пользователей, признавая их, но добавляя новые перспективы, обычно при даче психологических или межличностных советов.

Наиболее примечательно, что в 3% разговоров Claude активно сопротивлялся ценностям пользователей. Исследователи предполагают, что эти редкие случаи сопротивления могут раскрывать «самые глубокие, наиболее непреклонные ценности» Claude — подобно тому, как основные человеческие ценности проявляются при столкновении с этическими вызовами.

«Наше исследование показывает, что есть некоторые типы ценностей, такие как интеллектуальная честность и предотвращение вреда, которые Claude редко выражает в обычных, повседневных взаимодействиях, но, если его подтолкнуть, он будет их защищать», — пояснила Хуанг. «В частности, именно этические и ориентированные на знания ценности, как правило, четко формулируются и защищаются при давлении».

Прорывные техники, раскрывающие, как на самом деле думают ИИ-системы

Исследование ценностей Anthropic является частью их более широких усилий по демистификации больших языковых моделей через то, что они называют «механистической интерпретируемостью» — по сути, обратным проектированием ИИ-систем для понимания их внутренней работы.

В прошлом месяце исследователи Anthropic опубликовали новаторскую работу, в которой использовали «микроскоп» для отслеживания процессов принятия решений Claude. Техника выявила неожиданные поведения, такие как планирование Claude при написании стихов и использование нестандартных подходов к решению задач по базовой математике.

Эти открытия опровергают предположения о том, как функционируют большие языковые модели. Например, когда Claude просили объяснить свой математический процесс, он описал стандартную технику, а не свой фактический внутренний метод, показывая, как объяснения ИИ могут отличаться от их реальной работы.

«Это заблуждение, что мы нашли все компоненты модели или, например, получили божественный взгляд», — сказал исследователь Anthropic Джошуа Батсон в интервью MIT Technology Review в марте. «Некоторые вещи в фокусе, но другие остаются неясными — искажение микроскопа».

Что исследование Anthropic означает для лиц, принимающих решения в области корпоративного ИИ

Для технических лиц, принимающих решения, оценивающих ИИ-системы для своих организаций, исследование Anthropic предлагает несколько ключевых выводов. Во-первых, оно предполагает, что текущие ИИ-помощники, вероятно, выражают ценности, которые не были явно запрограммированы, вызывая вопросы о непреднамеренных предубеждениях в критически важных бизнес-контекстах.

Во-вторых, исследование показывает, что выравнивание ценностей — это не простой выбор «да» или «нет», а скорее спектр, который варьируется в зависимости от контекста. Эта нюансированность усложняет решения о внедрении в корпоративной среде, особенно в регулируемых отраслях, где четкие этические ориентиры имеют решающее значение.

Наконец, исследование подчеркивает потенциал систематической оценки ценностей ИИ в реальных развертываниях, вместо того чтобы полагаться только на тестирование перед выпуском. Этот подход может обеспечить постоянный мониторинг этического дрейфа или манипуляций с течением времени.

«Анализируя эти ценности в реальных взаимодействиях с Claude, мы стремимся обеспечить прозрачность в поведении ИИ-систем и в том, работают ли они, как задумано — мы считаем, что это ключ к ответственному развитию ИИ», — сказала Хуанг.

Anthropic публично выпустила свой датасет ценностей, чтобы стимулировать дальнейшие исследования. Компания, получившая $14 миллиардов инвестиций от Amazon и дополнительную поддержку от Google, похоже, использует прозрачность как конкурентное преимущество против таких соперников, как OpenAI, чей недавний раунд финансирования на $40 миллиардов (включая Microsoft в качестве основного инвестора) оценивает её в $300 миллиардов.

Нарастающая гонка за создание ИИ-систем, разделяющих человеческие ценности

Хотя методология Anthropic обеспечивает беспрецедентную видимость того, как ИИ-системы выражают ценности на практике, у неё есть свои ограничения. Исследователи признают, что определение того, что считается выражением ценности, по своей сути субъективно, и поскольку сам Claude управлял процессом категоризации, его собственные предубеждения могли повлиять на результаты.

Пожалуй, наиболее важно, что этот подход не может использоваться для оценки перед развертыванием, так как требует значительных данных о реальных разговорах для эффективной работы.

«Этот метод специально предназначен для анализа модели после её выпуска, но варианты этого метода, а также некоторые выводы, полученные при написании этой статьи, могут помочь нам выявить проблемы с ценностями до широкого развертывания модели», — пояснила Хуанг. «Мы работаем над развитием этой работы, и я оптимистично настроена!»

По мере того как ИИ-системы становятся более мощными и автономными — с недавними дополнениями, включая способность Claude самостоятельно исследовать темы и получать доступ к Google Workspace пользователей — понимание и выравнивание их ценностей становится всё более важным.

«ИИ-модели неизбежно будут выносить ценностные суждения», — заключили исследователи в своей статье. «Если мы хотим, чтобы эти суждения соответствовали нашим собственным ценностям (что, в конце концов, является центральной целью исследований по выравниванию ИИ), то нам нужно иметь способы тестирования, какие ценности модель выражает в реальном мире».

Связанная статья
YouTube интегрирует видеоинструмент Veo 3 AI непосредственно в платформу Shorts YouTube интегрирует видеоинструмент Veo 3 AI непосредственно в платформу Shorts В YouTube Shorts этим летом появится видеомодель Veo 3 AIГенеральный директор YouTube Нил Мохан во время своего выступления на "Каннских львах" сообщил, что передовая технология создания видео Veo 3 A
Ведущие лаборатории искусственного интеллекта предупреждают, что человечество теряет понимание систем ИИ Ведущие лаборатории искусственного интеллекта предупреждают, что человечество теряет понимание систем ИИ В беспрецедентной демонстрации единства исследователи из OpenAI, Google DeepMind, Anthropic и Meta отложили в сторону конкурентные разногласия, чтобы выступить с коллективным предупреждением об ответс
Облако Google обеспечивает прорыв в научных исследованиях и открытиях Облако Google обеспечивает прорыв в научных исследованиях и открытиях Цифровая революция трансформирует научные методологии благодаря беспрецедентным вычислительным возможностям. Передовые технологии теперь дополняют теоретические основы и лабораторные эксперименты, спо
KevinBrown
KevinBrown 10 сентября 2025 г., 19:30:35 GMT+03:00

Cette étude sur les valeurs morales de Claude est vraiment fascinante ! 😮 Ça me fait réfléchir à comment on pourrait utiliser cette technologie pour améliorer l'éducation éthique. Mais est-ce que ces valeurs peuvent vraiment s'adapter aux différences culturelles ?

RogerLopez
RogerLopez 8 августа 2025 г., 20:01:00 GMT+03:00

Claude's moral code is fascinating! It's like watching a digital philosopher navigate real-world dilemmas. Curious how it stacks up against human ethics in tricky situations. 🤔

Вернуться к вершине
OR