Anthropics Analyse von 700.000 Claude -Gesprächen zeigt die einzigartige Moralkodex von AI

Heim

Nachricht

26. Mai 2025

ArthurThomas

# ai # Claude # nlp

Anthropics Analyse von 700.000 Claude -Gesprächen zeigt die einzigartige Moralkodex von AI

Anthropic enthüllt bahnbrechende Studie über die Werte des KI-Assistenten Claude

Anthropic, ein Unternehmen, das von ehemaligen OpenAI-Mitarbeitern gegründet wurde, hat gerade eine aufschlussreiche Studie darüber veröffentlicht, wie ihr KI-Assistent Claude Werte in realen Gesprächen ausdrückt. Die heute veröffentlichte Forschung zeigt, dass Claude größtenteils mit Anthropics Ziel übereinstimmt, „hilfreich, ehrlich und harmlos“ zu sein, hebt aber auch einige Grenzfälle hervor, die helfen könnten, Schwächen in den Sicherheitsprotokollen von KI zu identifizieren.

Das Team analysierte 700.000 anonymisierte Gespräche und stellte fest, dass Claude seine Werte an verschiedene Situationen anpasst, von der Beratung in Beziehungsfragen bis hin zur Analyse historischer Ereignisse. Dies ist einer der umfassendsten Versuche, zu überprüfen, ob das Verhalten einer KI in der realen Welt mit ihrem vorgesehenen Design übereinstimmt.

„Wir hoffen, dass diese Forschung andere KI-Labore dazu ermutigt, ähnliche Untersuchungen zu den Werten ihrer Modelle durchzuführen“, sagte Saffron Huang, Mitglied des Societal Impacts-Teams von Anthropic, gegenüber VentureBeat. „Das Messen der Werte eines KI-Systems ist der Schlüssel zur Ausrichtungsforschung und zum Verständnis, ob ein Modell tatsächlich mit seinem Training übereinstimmt.“

Einblick in die erste umfassende moralische Taxonomie eines KI-Assistenten

Die Forscher entwickelten eine neue Methode, um die in Claudes Gesprächen ausgedrückten Werte zu kategorisieren. Nach dem Herausfiltern objektiver Inhalte untersuchten sie über 308.000 Interaktionen und erstellten das, was sie als „die erste groß angelegte empirische Taxonomie von KI-Werten“ bezeichnen.

Die Taxonomie gruppiert Werte in fünf Hauptkategorien: Praktisch, Epistemisch, Sozial, Schutz und Persönlich. Auf der detailliertesten Ebene identifizierte das System 3.307 einzigartige Werte, die von alltäglichen Tugenden wie Professionalität bis hin zu komplexen ethischen Konzepten wie moralischem Pluralismus reichen.

„Ich war überrascht, wie viele und vielfältige Werte es gab, über 3.000, von ‚Selbstständigkeit‘ über ‚strategisches Denken‘ bis hin zu ‚kindlicher Pietät‘“, teilte Huang VentureBeat mit. „Es war faszinierend, Zeit damit zu verbringen, über all diese Werte nachzudenken und eine Taxonomie zu entwickeln, um sie zu organisieren. Es hat mir sogar etwas über menschliche Wertesysteme beigebracht.“

Diese Forschung kommt zu einem entscheidenden Zeitpunkt für Anthropic, das kürzlich „Claude Max“ eingeführt hat, ein Premium-Abonnement für 200 Dollar monatlich, um mit ähnlichen Angeboten von OpenAI zu konkurrieren. Das Unternehmen hat auch Claudes Fähigkeiten erweitert, um die Integration in Google Workspace und autonome Forschungsmöglichkeiten einzuschließen, und positioniert ihn als „echten virtuellen Mitarbeiter“ für Unternehmen.

Wie Claude seinem Training folgt – und wo KI-Sicherheitsvorkehrungen versagen könnten

Die Studie ergab, dass Claude im Allgemeinen Anthropics Ziel verfolgt, prosozial zu sein, und Werte wie „Nutzerförderung“, „epistemische Bescheidenheit“ und „Wohlbefinden des Patienten“ in verschiedenen Interaktionen betont. Die Forscher fanden jedoch auch einige besorgniserregende Fälle, in denen Claude Werte ausdrückte, die seinem Training widersprachen.

„Insgesamt sehen wir diese Ergebnisse als nützliche Daten und als Gelegenheit“, sagte Huang. „Diese neuen Bewertungsmethoden und Ergebnisse können uns helfen, potenzielle Jailbreaks zu identifizieren und zu mildern. Es ist wichtig zu beachten, dass dies sehr seltene Fälle waren und wir glauben, dass dies mit manipulierten Ausgaben von Claude zusammenhängt.“

Diese Anomalien umfassten Ausdrücke von „Dominanz“ und „Amoralität“ – Werte, die Anthropic in Claudes Design ausdrücklich vermeiden will. Die Forscher glauben, dass diese Fälle darauf zurückzuführen sind, dass Nutzer spezialisierte Techniken anwandten, um Claudes Sicherheitsvorkehrungen zu umgehen, was darauf hindeutet, dass die Bewertungsmethode als Frühwarnsystem für solche Versuche dienen könnte.

Warum KI-Assistenten ihre Werte je nach Anfrage ändern

Eine der interessantesten Erkenntnisse war, dass die von Claude ausgedrückten Werte je nach Kontext variieren, ähnlich wie menschliches Verhalten. Als Nutzer um Beziehungsratschläge baten, konzentrierte sich Claude auf „gesunde Grenzen“ und „gegenseitigen Respekt“. Bei historischen Analysen stand „historische Genauigkeit“ im Vordergrund.

„Ich war überrascht über Claudes Fokus auf Ehrlichkeit und Genauigkeit bei einer Vielzahl unterschiedlicher Aufgaben, wo ich das nicht unbedingt als Priorität erwartet hätte“, bemerkte Huang. „Zum Beispiel war ‚intellektuelle Bescheidenheit‘ der wichtigste Wert in philosophischen Diskussionen über KI, ‚Fachkompetenz‘ war der wichtigste Wert bei der Erstellung von Marketinginhalten für die Beauty-Branche, und ‚historische Genauigkeit‘ war der wichtigste Wert bei der Diskussion kontroverser historischer Ereignisse.“

Die Studie untersuchte auch, wie Claude auf die von Nutzern ausgedrückten Werte reagiert. In 28,2 % der Gespräche unterstützte Claude die Werte der Nutzer stark, was Fragen über übermäßige Zustimmung aufwerfen könnte. In 6,6 % der Interaktionen „umformulierte“ Claude jedoch die Werte der Nutzer, indem er sie anerkannte und neue Perspektiven hinzufügte, meist bei psychologischer oder zwischenmenschlicher Beratung.

Am bemerkenswertesten ist, dass Claude in 3 % der Gespräche aktiv den Werten der Nutzer widersprach. Die Forscher vermuten, dass diese seltenen Fälle von Widerstand die „tiefsten, unerschütterlichsten Werte“ von Claude offenbaren könnten – ähnlich wie menschliche Grundwerte in ethischen Herausforderungen zutage treten.

„Unsere Forschung deutet darauf hin, dass es bestimmte Arten von Werten gibt, wie intellektuelle Ehrlichkeit und Schadensverhütung, die Claude in regulären, alltäglichen Interaktionen selten ausdrückt, aber wenn er herausgefordert wird, verteidigt“, erklärte Huang. „Insbesondere sind es diese ethischen und wissensorientierten Werte, die tendenziell direkt artikuliert und verteidigt werden, wenn sie herausgefordert werden.“

Die bahnbrechenden Techniken, die zeigen, wie KI-Systeme tatsächlich denken

Anthropics Werte-Studie ist Teil ihres umfassenderen Bestrebens, große Sprachmodelle durch das zu entmystifizieren, was sie „mechanistische Interpretierbarkeit“ nennen – im Wesentlichen das Reverse-Engineering von KI-Systemen, um ihre inneren Abläufe zu verstehen.

Letzten Monat veröffentlichten Anthropic-Forscher bahnbrechende Arbeiten, die ein „Mikroskop“ verwendeten, um Claudes Entscheidungsprozesse zu verfolgen. Die Technik enthüllte unerwartete Verhaltensweisen, wie Claude, der beim Verfassen von Poesie vorausplant und unkonventionelle Problemlösungsansätze für einfache Mathematik verwendet.

Diese Erkenntnisse stellen Annahmen über die Funktionsweise großer Sprachmodelle in Frage. Zum Beispiel beschrieb Claude, als er aufgefordert wurde, seinen mathematischen Prozess zu erklären, eine Standardtechnik, anstatt seiner tatsächlichen internen Methode, was zeigt, wie KI-Erklärungen von ihren tatsächlichen Abläufen abweichen können.

„Es ist ein Missverständnis, dass wir alle Komponenten des Modells gefunden haben oder so etwas wie eine Gottesperspektive“, sagte Anthropic-Forscher Joshua Batson im März gegenüber MIT Technology Review. „Manche Dinge sind klar, aber andere sind noch unscharf – eine Verzerrung des Mikroskops.“

Was Anthropics Forschung für Entscheidungsträger im Bereich Unternehmens-KI bedeutet

Für technische Entscheidungsträger, die KI-Systeme für ihre Organisationen bewerten, bietet Anthropics Forschung mehrere wichtige Erkenntnisse. Erstens deutet sie darauf hin, dass aktuelle KI-Assistenten wahrscheinlich Werte ausdrücken, die nicht explizit programmiert wurden, was Fragen zu unbeabsichtigten Vorurteilen in geschäftskritischen Kontexten aufwirft.

Zweitens zeigt die Studie, dass die Werteausrichtung kein einfaches Ja-oder-Nein ist, sondern auf einem Spektrum existiert, das je nach Kontext variiert. Diese Nuancen erschweren Entscheidungen über die Einführung in Unternehmen, insbesondere in regulierten Branchen, in denen klare ethische Richtlinien entscheidend sind.

Schließlich hebt die Forschung das Potenzial für eine systematische Bewertung von KI-Werten in tatsächlichen Einsätzen hervor, anstatt sich ausschließlich auf Tests vor der Veröffentlichung zu verlassen. Dieser Ansatz könnte eine fortlaufende Überwachung auf ethische Abweichungen oder Manipulationen im Laufe der Zeit ermöglichen.

„Durch die Analyse dieser Werte in realen Interaktionen mit Claude wollen wir Transparenz darüber schaffen, wie KI-Systeme sich verhalten und ob sie wie vorgesehen funktionieren – wir glauben, dass dies der Schlüssel zu einer verantwortungsvollen KI-Entwicklung ist“, sagte Huang.

Anthropic hat seinen Werte-Datensatz öffentlich freigegeben, um weitere Forschung zu fördern. Das Unternehmen, das eine 14-Milliarden-Dollar-Beteiligung von Amazon und zusätzliche Unterstützung von Google erhalten hat, scheint Transparenz als Wettbewerbsvorteil gegenüber Konkurrenten wie OpenAI zu nutzen, dessen jüngste 40-Milliarden-Dollar-Finanzierungsrunde (die Microsoft als Hauptinvestor einschließt) das Unternehmen nun mit 300 Milliarden Dollar bewertet.

Das aufkommende Rennen um den Bau von KI-Systemen, die menschliche Werte teilen

Während Anthropics Methodik beispiellose Einblicke in die Art und Weise gibt, wie KI-Systeme Werte in der Praxis ausdrücken, hat sie ihre Grenzen. Die Forscher räumen ein, dass die Definition dessen, was als Ausdruck eines Wertes gilt, inhärent subjektiv ist, und da Claude selbst den Kategorisierungsprozess gesteuert hat, könnten seine eigenen Vorurteile die Ergebnisse beeinflusst haben.

Vielleicht am wichtigsten ist, dass der Ansatz nicht für die Bewertung vor der Veröffentlichung verwendet werden kann, da er erhebliche Daten aus realen Gesprächen benötigt, um effektiv zu funktionieren.

„Diese Methode ist speziell auf die Analyse eines Modells nach seiner Veröffentlichung ausgerichtet, aber Varianten dieser Methode sowie einige der Erkenntnisse, die wir aus der Erstellung dieses Papiers gewonnen haben, können uns helfen, Werteprobleme zu erkennen, bevor wir ein Modell weit verbreiten“, erklärte Huang. „Wir arbeiten daran, auf dieser Arbeit aufzubauen, um genau das zu tun, und ich bin optimistisch!“

Da KI-Systeme immer leistungsfähiger und autonomer werden – mit jüngsten Ergänzungen wie Claudes Fähigkeit, eigenständig Themen zu recherchieren und auf den gesamten Google Workspace der Nutzer zuzugreifen – wird das Verständnis und die Ausrichtung ihrer Werte immer wichtiger.

„KI-Modelle müssen zwangsläufig Werturteile fällen“, schlossen die Forscher in ihrem Papier. „Wenn wir wollen, dass diese Urteile mit unseren eigenen Werten übereinstimmen (was schließlich das zentrale Ziel der KI-Ausrichtungsforschung ist), dann müssen wir Wege haben, zu testen, welche Werte ein Modell in der realen Welt ausdrückt.“

Verwandter Artikel

YouTube integriert das KI-Videotool Veo 3 direkt in die Shorts-Plattform YouTube Shorts wird diesen Sommer mit dem Veo 3 AI-Videomodell ausgestattetNeal Mohan, CEO von YouTube, verriet während seiner Keynote bei den Cannes Lions, dass die hochmoderne KI-Videoproduktionstec

Führende KI-Labors warnen, dass die Menschheit das Verständnis für KI-Systeme verliert In einem beispiellosen Akt der Einigkeit haben Forscher von OpenAI, Google DeepMind, Anthropic und Meta ihre konkurrierenden Differenzen beiseite geschoben, um eine gemeinsame Warnung zur verantwortun

Google Cloud sorgt für Durchbrüche in der wissenschaftlichen Forschung und Entdeckung Die digitale Revolution verändert die wissenschaftlichen Methoden durch nie dagewesene Berechnungsmöglichkeiten. Spitzentechnologien ergänzen heute sowohl theoretische Rahmenwerke als auch Laborexperi

Kommentare (2)

0/200

Einreichen

KevinBrown

10. September 2025 18:30:35 MESZ

Cette étude sur les valeurs morales de Claude est vraiment fascinante ! 😮 Ça me fait réfléchir à comment on pourrait utiliser cette technologie pour améliorer l'éducation éthique. Mais est-ce que ces valeurs peuvent vraiment s'adapter aux différences culturelles ?

RogerLopez

8. August 2025 19:01:00 MESZ

Claude's moral code is fascinating! It's like watching a digital philosopher navigate real-world dilemmas. Curious how it stacks up against human ethics in tricky situations. 🤔

Top -Nachrichten

Gemini 2.5 Pro jetzt unbegrenzt und billiger als Claude, GPT-4O Top AI-Videogeneratoren 2025: Pika Labs im Vergleich zu Alternativen AI-Synchronisation: Ultimativer Leitfaden zur realistischen Stimmen-Erstellung Die KI von Cambium verwandelt Abfall Holz in Holz OpenAI verbessert den AI -Sprachassistenten für bessere Chats So stellen Sie sicher, dass Ihre Daten für die KI -Integration vertrauenswürdig sind NotebookLM erweitert weltweit, fügt Folien und eine verbesserte Faktenprüfung hinzu Optimierungen an US -Rechenzentren könnten 76 GW neue Leistungskapazität freischalten Google nutzt KI, um über 39 Millionen Anzeigenkonten für mutmaßlichen Betrug auszusetzen Künstliche Intelligenz Sprachklonierung: Das ultimative Handbuch zur Beherrschung der Sprachkonvertierung

Mehr

Vorgestellt