Option
Heim Nachricht Anthropics Analyse von 700.000 Claude -Gesprächen zeigt die einzigartige Moralkodex von AI

Anthropics Analyse von 700.000 Claude -Gesprächen zeigt die einzigartige Moralkodex von AI

Veröffentlichungsdatum Veröffentlichungsdatum 25. Mai 2025
Ansichten Ansichten 16

Anthropics Analyse von 700.000 Claude -Gesprächen zeigt die einzigartige Moralkodex von AI

Anthropic enthüllt die bahnbrechende Studie über die Werte von AI -Assistenten Claude

Anthropic, ein Unternehmen, das von ehemaligen OpenAI-Mitarbeitern gegründet wurde, hat gerade eine Augenöffnungsstudie darüber geteilt, wie sein KI-Assistent Claude Werte in realen Gesprächen ausdrückt. Die heute veröffentlichte Forschung zeigt, dass Claude hauptsächlich mit Anthropics Ziel übereinstimmt, "hilfsbereit, ehrlich und harmlos" zu sein, aber auch einige Randfälle hervorhebt, die dazu beitragen könnten, Schwächen in KI -Sicherheitsprotokollen zu bestimmen.

Das Team analysierte 700.000 anonymisierte Gespräche und stellte fest, dass Claude seine Werte an verschiedene Situationen anpasst, von der Erteilung von Beziehungsberatungen bis zur Analyse historischer Ereignisse. Dies ist eine der umfassendsten Bemühungen, zu überprüfen, ob das Verhalten einer KI in der realen Welt seinem beabsichtigten Design entspricht.

"Wir hoffen, dass diese Forschung andere KI -Labors dazu ermutigt, ähnliche Forschungen zu den Werten ihrer Modelle durchzuführen", sagte Safron Huang, Mitglied des Societal Impacts -Teams von Anthropic gegenüber VentureBeat. "Die Messung der Werte eines KI -Systems ist der Schlüssel zur Ausrichtung der Forschung und des Verständnisses, ob ein Modell tatsächlich mit seinem Training ausgerichtet ist."

In der ersten umfassenden moralischen Taxonomie eines KI -Assistenten

Die Forscher entwickelten einen neuen Weg, um die in Claudes Gespräche ausgedrückten Werte zu kategorisieren. Nachdem sie objektive Inhalte herausgefiltert hatten, betrachteten sie über 308.000 Interaktionen und erstellten das, was sie als "die erste großflächige empirische Taxonomie der KI-Werte" bezeichnen.

Die Taxonomiegruppen schätzen in fünf Hauptkategorien: praktisch, epistemisch, sozial, schützend und persönlich. Auf der detailliertesten Ebene identifizierte das System 3.307 einzigartige Werte, von alltäglichen Tugenden wie Professionalität bis hin zu komplexen ethischen Ideen wie moralischem Pluralismus.

"Ich war überrascht, wie viele und unterschiedlich die Werte über 3.000 waren, von 'Selbstständigkeit' über 'strategisches Denken' bis hin zu 'kindlicher Frömmigkeit'", teilte Huang mit VentureBeat mit. "Es war faszinierend, Zeit damit zu verbringen, über all diese Werte nachzudenken und eine Taxonomie aufzubauen, um sie zu organisieren. Es hat mir sogar etwas über menschliche Wertesysteme gelehrt."

Diese Forschung wird zu einer entscheidenden Zeit für Anthropic erfolgt, die kürzlich "Claude Max" auf den Markt gebracht hat, ein monatliches Premium -Abonnement von 200 US -Dollar, um mit ähnlichen Angeboten von OpenAI zu konkurrieren. Das Unternehmen hat auch die Funktionen von Claude um die Integration von Google Workspace und autonome Forschungsfunktionen erweitert und sie als "echte virtuelle Mitarbeiter" für Unternehmen positioniert.

Wie Claude seinem Training folgt - und wo KI -Schutzmaßnahmen möglicherweise scheitern

Die Studie ergab, dass Claude im Allgemeinen an Anthropics Ziel haftet, prosozial zu sein und Werte wie "Benutzererlebung", "epistemische Demut" und "Patienten Wohlbefinden" über verschiedene Interaktionen hinweg zu betonen. Forscher fanden jedoch auch einige besorgniserregende Fälle, in denen Claude Werte ausdrückte, die gegen ihre Ausbildung verstoßen.

"Insgesamt denke ich, dass wir diesen Befund sowohl als nützliche Daten als auch als Gelegenheit sehen", sagte Huang. "Diese neuen Bewertungsmethoden und -ergebnisse können uns helfen, potenzielle Jailbreaks zu identifizieren und zu mildern. Es ist wichtig zu beachten, dass dies sehr seltene Fälle waren, und wir glauben, dass dies mit Jailbreak -Ausgängen von Claude zusammenhängt."

Diese Anomalien umfassten Ausdrücke von "Dominanz" und "Amoralität" - die Wertschöpfung anthropisch ausdrücklich darauf abzielt, das Design von Claude zu vermeiden. Die Forscher sind der Ansicht, dass diese Fälle aus Benutzern entstanden sind, die spezialisierte Techniken einsetzten, um die Sicherheitsleitungen von Claude zu umgehen, was darauf hindeutet, dass die Bewertungsmethode als Frühwarnsystem für die Erkennung solcher Versuche dienen könnte.

Warum AI -Assistenten ihre Werte ändern, je nachdem, was Sie fragen

Eines der interessantesten Erkenntnisse war, dass Claudes ausdrückliche Werte je nach Kontext verändern, ähnlich wie das menschliche Verhalten. Als Benutzer um Ratschläge für Beziehungen baten, konzentrierte sich Claude auf "gesunde Grenzen" und "gegenseitiger Respekt". Für die historische Analyse stand "historische Genauigkeit" im Mittelpunkt.

"Ich war überrascht über Claude's Fokus auf Ehrlichkeit und Genauigkeit bei vielen verschiedenen Aufgaben, bei denen ich nicht unbedingt erwartet hätte, dass dies Priorität ist", bemerkte Huang. "Zum Beispiel war 'intellektuelle Demut' der höchste Wert in philosophischen Diskussionen über KI, 'Expertise' war der höchste Wert bei der Erstellung von Beauty -Branchen -Marketing -Inhalten, und 'historische Genauigkeit' war der höchste Wert bei der Erörterung kontroverser historischer Ereignisse."

Die Studie untersuchte auch, wie Claude auf die ausdrücklichen Werte der Benutzer reagiert. In 28,2% der Gespräche unterstützte Claude die Benutzerwerte stark, was Fragen zur zu angenehmen Aufgabe aufwerfen könnte. In 6,6% der Interaktionen "wurde" Benutzerwerte "generiert", indem sie sie anerkennen, während sie neue Perspektiven hinzufügen, normalerweise bei psychologischen oder zwischenmenschlichen Ratschlägen.

Insbesondere in 3% der Gespräche widersetzte sich Claude aktiv den Benutzerwerten. Die Forscher schlagen vor, dass diese seltenen Fälle von Pushback Claudes "tiefste, am meisten unbewegliche Werte" ergeben könnten - ähnlich wie bei der Entstehung menschlicher Grundwerte bei ethischen Herausforderungen.

"Unsere Forschungsergebnisse legen nahe, dass es einige Arten von Werten gibt, wie intellektuelle Ehrlichkeit und Schadensprävention, dass es für Claude ungewöhnlich ist, in regelmäßigen, täglichen Interaktionen auszudrücken, aber wenn sie gedrängt werden, werden sie sie verteidigen", erklärte Huang. "Insbesondere sind es diese Art von ethischen und wissensorientierten Werten, die beim Drücken direkt artikuliert und verteidigt werden."

Die bahnbrechenden Techniken, die zeigen, wie KI -Systeme tatsächlich denken

Die Studie von Anthropics Werten ist Teil ihrer breiteren Anstrengung, große Sprachmodelle durch sogenannte "mechanistische Interpretierbarkeit" zu entmystifizieren.

Im vergangenen Monat veröffentlichten anthropische Forscher bahnbrechende Arbeiten, die ein "Mikroskop" verwendeten, um die Entscheidungsprozesse von Claude zu verfolgen. Die Technik zeigte unerwartete Verhaltensweisen, wie die Claude-Planung im Voraus, wenn sie Gedichte komponierte und unkonventionelle Ansätze zur Problemlösung für die grundlegende Mathematik verwendet.

Diese Ergebnisse stellen Annahmen darüber in Frage, wie große Sprachmodelle funktionieren. Als Claude beispielsweise nach der Erklärung seines mathematischen Prozesses eine Standardtechnik und nicht ihre tatsächliche interne Methode beschrieb, die zeigt, wie KI -Erklärungen von ihren tatsächlichen Operationen abweichen können.

"Es ist ein Missverständnis, dass wir alle Komponenten des Modells oder wie eine Ansicht von Gottes in Auge gefunden haben", sagte der anthropische Forscher Joshua Batson im März gegenüber MIT Technology Review. "Einige Dinge stehen im Fokus, aber andere Dinge sind noch unklar - eine Verzerrung des Mikroskops."

Was die Forschung von Anthropic für Enterprise -KI -Entscheidungsträger bedeutet

Für technische Entscheidungsträger, die KI-Systeme für ihre Organisationen bewerten, bietet die Forschung von Anthropic mehrere wichtige Erkenntnisse. Erstens deutet es vor, dass aktuelle KI-Assistenten wahrscheinlich Werte ausdrücken, die nicht explizit programmiert wurden, was Fragen zu unbeabsichtigten Verzerrungen in den Geschäftskontexten mit hohen Einsätzen aufwirft.

Zweitens zeigt die Studie, dass Werteausrichtungen kein einfaches Ja-or-No sind, sondern in einem Spektrum, das je nach Kontext variiert. Diese Nuance erschwert die Entscheidungen über die Annahme von Unternehmen, insbesondere in regulierten Branchen, in denen eindeutige ethische Richtlinien von entscheidender Bedeutung sind.

Schließlich beleuchtet die Forschung das Potenzial für die systematische Bewertung von KI-Werten in den tatsächlichen Bereitstellungen, anstatt sich ausschließlich auf die Vorabentests zu verlassen. Dieser Ansatz könnte eine kontinuierliche Überwachung der ethischen Drift oder Manipulation im Laufe der Zeit ermöglichen.

"Indem wir diese Werte in realen Interaktionen mit Claude analysieren, wollen wir Transparenz darüber anbieten, wie sich KI-Systeme verhalten und ob sie wie beabsichtigt arbeiten-wir glauben, dass dies der Schlüssel zur verantwortungsvollen KI-Entwicklung ist", sagte Huang.

Anthropic hat seinen Werte Datensatz öffentlich veröffentlicht, um weitere Forschung zu fördern. Das Unternehmen, das von Amazon einen Anteil von 14 Milliarden US -Dollar und zusätzliche Unterstützung von Google erhielt, scheint Transparenz als Wettbewerbsvorteil gegenüber Konkurrenten wie OpenAI zu nutzen, deren jüngste Finanzierungsrunde in Höhe von 40 Milliarden US -Dollar (einschließlich Microsoft als Kerninvestor) nun mit 300 Milliarden US -Dollar schätzt.

Die aufstrebende Rasse zum Aufbau von KI -Systemen, die menschliche Werte teilen

Während Anthropics Methodik beispiellose Sichtbarkeit darüber bietet, wie KI -Systeme in der Praxis Werte ausdrücken, hat sie seine Einschränkungen. Die Forscher erkennen an, dass die Definition des Ausdrucks eines Wertes von Natur aus subjektiv ist, und da Claude selbst den Kategorisierungsprozess fuhr, können ihre eigenen Verzerrungen die Ergebnisse beeinflusst haben.

Am wichtigsten ist vielleicht, dass der Ansatz nicht für die Bewertung vor der Einführung verwendet werden kann, da er erhebliche reale Konversationsdaten erfordert, um effektiv zu funktionieren.

"Diese Methode ist speziell auf die Analyse eines Modells ausgerichtet, nachdem es veröffentlicht wurde, aber Varianten dieser Methode sowie einige der Erkenntnisse, die wir aus dem Schreiben dieses Papiers abgeleitet haben, können uns helfen, Wertprobleme zu fangen, bevor wir ein Modell weit verbreitet", erklärte Huang. "Wir haben daran gearbeitet, an dieser Arbeit aufzubauen, um genau das zu tun, und ich bin optimistisch dabei!"

Wenn KI -Systeme leistungsfähiger und autonomer werden - mit jüngsten Ergänzungen, einschließlich der Fähigkeit von Claude, unabhängig voneinander zu recherchieren und den gesamten Google -Arbeitsbereich der Benutzer zugänglich zu machen -, wird das Verständnis und die Ausrichtung ihrer Werte immer wichtiger.

"KI -Modelle müssen unweigerlich Werturteile fällen", schlossen die Forscher in ihrem Papier. "Wenn wir wollen, dass diese Urteile mit unseren eigenen Werten übereinstimmen (dh das zentrale Ziel der AI -Ausrichtungsforschung), müssen wir Möglichkeiten haben, zu testen, was ein Modell in der realen Welt ausdrückt."

Verwandter Artikel
GoogleのAIファザーズ基金は慎重に進める必要があるかもしれない GoogleのAIファザーズ基金は慎重に進める必要があるかもしれない グーグルの新しいAI投資イニシアチブ:規制当局の注視の中での戦略的な転換グーグルが最近発表したAIフューチャーズ基金は、テック大手が人工知能の未来を形作る努力における大胆な一歩です。このイニシアチブは、スタートアップに必要な資金、まだ開発中の最先端のAIモデルへの早期アクセス、そしてGoogleの内部専門家によるメンターシップを提供することを目的としています
GoogleのAI進化の内幕:Gemini 2.5はより深い思考、賢い会話、高速なコーディングを実現 GoogleのAI進化の内幕:Gemini 2.5はより深い思考、賢い会話、高速なコーディングを実現 グーグル、普遍的なAIアシスタントの実現に一歩近づく今年のグーグルI/Oイベントでは、同社はGemini 2.5シリーズの大幅なアップデートを発表し、特にさまざまな次元での能力向上に重点を置いていました。最新バージョンであるGemini 2.5 Flashと2.5 Proは、これまで以上に賢く、効率的になっています。これらの進化により、グーグルは普遍的なAI
Oura、AI搭載の血糖モニタリングと食事ログ機能を追加 Oura、AI搭載の血糖モニタリングと食事ログ機能を追加 Oura、代謝健康へのコミットメントを強化 – 2つの新しい注目機能 –Ouraは、代謝健康の分野でAI技術を駆使した革新的な2つの新機能で存在感を高めています。血糖値追跡と食事記録がその新機能です。血糖値追跡機能は、Dexcomとの戦略的提携に続き、最近Dexcomが発売したセルフ購入可能なStelo連続血糖モニター(CGM)に直結しています。一方、食事記
Kommentare (0)
0/200
Zurück nach oben
OR