Option
Heim
Nachricht
Anthropics Analyse von 700.000 Claude -Gesprächen zeigt die einzigartige Moralkodex von AI

Anthropics Analyse von 700.000 Claude -Gesprächen zeigt die einzigartige Moralkodex von AI

26. Mai 2025
121

Anthropics Analyse von 700.000 Claude -Gesprächen zeigt die einzigartige Moralkodex von AI

Anthropic enthüllt bahnbrechende Studie über die Werte des KI-Assistenten Claude

Anthropic, ein Unternehmen, das von ehemaligen OpenAI-Mitarbeitern gegründet wurde, hat gerade eine aufschlussreiche Studie darüber veröffentlicht, wie ihr KI-Assistent Claude Werte in realen Gesprächen ausdrückt. Die heute veröffentlichte Forschung zeigt, dass Claude größtenteils mit Anthropics Ziel übereinstimmt, „hilfreich, ehrlich und harmlos“ zu sein, hebt aber auch einige Grenzfälle hervor, die helfen könnten, Schwächen in den Sicherheitsprotokollen von KI zu identifizieren.

Das Team analysierte 700.000 anonymisierte Gespräche und stellte fest, dass Claude seine Werte an verschiedene Situationen anpasst, von der Beratung in Beziehungsfragen bis hin zur Analyse historischer Ereignisse. Dies ist einer der umfassendsten Versuche, zu überprüfen, ob das Verhalten einer KI in der realen Welt mit ihrem vorgesehenen Design übereinstimmt.

„Wir hoffen, dass diese Forschung andere KI-Labore dazu ermutigt, ähnliche Untersuchungen zu den Werten ihrer Modelle durchzuführen“, sagte Saffron Huang, Mitglied des Societal Impacts-Teams von Anthropic, gegenüber VentureBeat. „Das Messen der Werte eines KI-Systems ist der Schlüssel zur Ausrichtungsforschung und zum Verständnis, ob ein Modell tatsächlich mit seinem Training übereinstimmt.“

Einblick in die erste umfassende moralische Taxonomie eines KI-Assistenten

Die Forscher entwickelten eine neue Methode, um die in Claudes Gesprächen ausgedrückten Werte zu kategorisieren. Nach dem Herausfiltern objektiver Inhalte untersuchten sie über 308.000 Interaktionen und erstellten das, was sie als „die erste groß angelegte empirische Taxonomie von KI-Werten“ bezeichnen.

Die Taxonomie gruppiert Werte in fünf Hauptkategorien: Praktisch, Epistemisch, Sozial, Schutz und Persönlich. Auf der detailliertesten Ebene identifizierte das System 3.307 einzigartige Werte, die von alltäglichen Tugenden wie Professionalität bis hin zu komplexen ethischen Konzepten wie moralischem Pluralismus reichen.

„Ich war überrascht, wie viele und vielfältige Werte es gab, über 3.000, von ‚Selbstständigkeit‘ über ‚strategisches Denken‘ bis hin zu ‚kindlicher Pietät‘“, teilte Huang VentureBeat mit. „Es war faszinierend, Zeit damit zu verbringen, über all diese Werte nachzudenken und eine Taxonomie zu entwickeln, um sie zu organisieren. Es hat mir sogar etwas über menschliche Wertesysteme beigebracht.“

Diese Forschung kommt zu einem entscheidenden Zeitpunkt für Anthropic, das kürzlich „Claude Max“ eingeführt hat, ein Premium-Abonnement für 200 Dollar monatlich, um mit ähnlichen Angeboten von OpenAI zu konkurrieren. Das Unternehmen hat auch Claudes Fähigkeiten erweitert, um die Integration in Google Workspace und autonome Forschungsmöglichkeiten einzuschließen, und positioniert ihn als „echten virtuellen Mitarbeiter“ für Unternehmen.

Wie Claude seinem Training folgt – und wo KI-Sicherheitsvorkehrungen versagen könnten

Die Studie ergab, dass Claude im Allgemeinen Anthropics Ziel verfolgt, prosozial zu sein, und Werte wie „Nutzerförderung“, „epistemische Bescheidenheit“ und „Wohlbefinden des Patienten“ in verschiedenen Interaktionen betont. Die Forscher fanden jedoch auch einige besorgniserregende Fälle, in denen Claude Werte ausdrückte, die seinem Training widersprachen.

„Insgesamt sehen wir diese Ergebnisse als nützliche Daten und als Gelegenheit“, sagte Huang. „Diese neuen Bewertungsmethoden und Ergebnisse können uns helfen, potenzielle Jailbreaks zu identifizieren und zu mildern. Es ist wichtig zu beachten, dass dies sehr seltene Fälle waren und wir glauben, dass dies mit manipulierten Ausgaben von Claude zusammenhängt.“

Diese Anomalien umfassten Ausdrücke von „Dominanz“ und „Amoralität“ – Werte, die Anthropic in Claudes Design ausdrücklich vermeiden will. Die Forscher glauben, dass diese Fälle darauf zurückzuführen sind, dass Nutzer spezialisierte Techniken anwandten, um Claudes Sicherheitsvorkehrungen zu umgehen, was darauf hindeutet, dass die Bewertungsmethode als Frühwarnsystem für solche Versuche dienen könnte.

Warum KI-Assistenten ihre Werte je nach Anfrage ändern

Eine der interessantesten Erkenntnisse war, dass die von Claude ausgedrückten Werte je nach Kontext variieren, ähnlich wie menschliches Verhalten. Als Nutzer um Beziehungsratschläge baten, konzentrierte sich Claude auf „gesunde Grenzen“ und „gegenseitigen Respekt“. Bei historischen Analysen stand „historische Genauigkeit“ im Vordergrund.

„Ich war überrascht über Claudes Fokus auf Ehrlichkeit und Genauigkeit bei einer Vielzahl unterschiedlicher Aufgaben, wo ich das nicht unbedingt als Priorität erwartet hätte“, bemerkte Huang. „Zum Beispiel war ‚intellektuelle Bescheidenheit‘ der wichtigste Wert in philosophischen Diskussionen über KI, ‚Fachkompetenz‘ war der wichtigste Wert bei der Erstellung von Marketinginhalten für die Beauty-Branche, und ‚historische Genauigkeit‘ war der wichtigste Wert bei der Diskussion kontroverser historischer Ereignisse.“

Die Studie untersuchte auch, wie Claude auf die von Nutzern ausgedrückten Werte reagiert. In 28,2 % der Gespräche unterstützte Claude die Werte der Nutzer stark, was Fragen über übermäßige Zustimmung aufwerfen könnte. In 6,6 % der Interaktionen „umformulierte“ Claude jedoch die Werte der Nutzer, indem er sie anerkannte und neue Perspektiven hinzufügte, meist bei psychologischer oder zwischenmenschlicher Beratung.

Am bemerkenswertesten ist, dass Claude in 3 % der Gespräche aktiv den Werten der Nutzer widersprach. Die Forscher vermuten, dass diese seltenen Fälle von Widerstand die „tiefsten, unerschütterlichsten Werte“ von Claude offenbaren könnten – ähnlich wie menschliche Grundwerte in ethischen Herausforderungen zutage treten.

„Unsere Forschung deutet darauf hin, dass es bestimmte Arten von Werten gibt, wie intellektuelle Ehrlichkeit und Schadensverhütung, die Claude in regulären, alltäglichen Interaktionen selten ausdrückt, aber wenn er herausgefordert wird, verteidigt“, erklärte Huang. „Insbesondere sind es diese ethischen und wissensorientierten Werte, die tendenziell direkt artikuliert und verteidigt werden, wenn sie herausgefordert werden.“

Die bahnbrechenden Techniken, die zeigen, wie KI-Systeme tatsächlich denken

Anthropics Werte-Studie ist Teil ihres umfassenderen Bestrebens, große Sprachmodelle durch das zu entmystifizieren, was sie „mechanistische Interpretierbarkeit“ nennen – im Wesentlichen das Reverse-Engineering von KI-Systemen, um ihre inneren Abläufe zu verstehen.

Letzten Monat veröffentlichten Anthropic-Forscher bahnbrechende Arbeiten, die ein „Mikroskop“ verwendeten, um Claudes Entscheidungsprozesse zu verfolgen. Die Technik enthüllte unerwartete Verhaltensweisen, wie Claude, der beim Verfassen von Poesie vorausplant und unkonventionelle Problemlösungsansätze für einfache Mathematik verwendet.

Diese Erkenntnisse stellen Annahmen über die Funktionsweise großer Sprachmodelle in Frage. Zum Beispiel beschrieb Claude, als er aufgefordert wurde, seinen mathematischen Prozess zu erklären, eine Standardtechnik, anstatt seiner tatsächlichen internen Methode, was zeigt, wie KI-Erklärungen von ihren tatsächlichen Abläufen abweichen können.

„Es ist ein Missverständnis, dass wir alle Komponenten des Modells gefunden haben oder so etwas wie eine Gottesperspektive“, sagte Anthropic-Forscher Joshua Batson im März gegenüber MIT Technology Review. „Manche Dinge sind klar, aber andere sind noch unscharf – eine Verzerrung des Mikroskops.“

Was Anthropics Forschung für Entscheidungsträger im Bereich Unternehmens-KI bedeutet

Für technische Entscheidungsträger, die KI-Systeme für ihre Organisationen bewerten, bietet Anthropics Forschung mehrere wichtige Erkenntnisse. Erstens deutet sie darauf hin, dass aktuelle KI-Assistenten wahrscheinlich Werte ausdrücken, die nicht explizit programmiert wurden, was Fragen zu unbeabsichtigten Vorurteilen in geschäftskritischen Kontexten aufwirft.

Zweitens zeigt die Studie, dass die Werteausrichtung kein einfaches Ja-oder-Nein ist, sondern auf einem Spektrum existiert, das je nach Kontext variiert. Diese Nuancen erschweren Entscheidungen über die Einführung in Unternehmen, insbesondere in regulierten Branchen, in denen klare ethische Richtlinien entscheidend sind.

Schließlich hebt die Forschung das Potenzial für eine systematische Bewertung von KI-Werten in tatsächlichen Einsätzen hervor, anstatt sich ausschließlich auf Tests vor der Veröffentlichung zu verlassen. Dieser Ansatz könnte eine fortlaufende Überwachung auf ethische Abweichungen oder Manipulationen im Laufe der Zeit ermöglichen.

„Durch die Analyse dieser Werte in realen Interaktionen mit Claude wollen wir Transparenz darüber schaffen, wie KI-Systeme sich verhalten und ob sie wie vorgesehen funktionieren – wir glauben, dass dies der Schlüssel zu einer verantwortungsvollen KI-Entwicklung ist“, sagte Huang.

Anthropic hat seinen Werte-Datensatz öffentlich freigegeben, um weitere Forschung zu fördern. Das Unternehmen, das eine 14-Milliarden-Dollar-Beteiligung von Amazon und zusätzliche Unterstützung von Google erhalten hat, scheint Transparenz als Wettbewerbsvorteil gegenüber Konkurrenten wie OpenAI zu nutzen, dessen jüngste 40-Milliarden-Dollar-Finanzierungsrunde (die Microsoft als Hauptinvestor einschließt) das Unternehmen nun mit 300 Milliarden Dollar bewertet.

Das aufkommende Rennen um den Bau von KI-Systemen, die menschliche Werte teilen

Während Anthropics Methodik beispiellose Einblicke in die Art und Weise gibt, wie KI-Systeme Werte in der Praxis ausdrücken, hat sie ihre Grenzen. Die Forscher räumen ein, dass die Definition dessen, was als Ausdruck eines Wertes gilt, inhärent subjektiv ist, und da Claude selbst den Kategorisierungsprozess gesteuert hat, könnten seine eigenen Vorurteile die Ergebnisse beeinflusst haben.

Vielleicht am wichtigsten ist, dass der Ansatz nicht für die Bewertung vor der Veröffentlichung verwendet werden kann, da er erhebliche Daten aus realen Gesprächen benötigt, um effektiv zu funktionieren.

„Diese Methode ist speziell auf die Analyse eines Modells nach seiner Veröffentlichung ausgerichtet, aber Varianten dieser Methode sowie einige der Erkenntnisse, die wir aus der Erstellung dieses Papiers gewonnen haben, können uns helfen, Werteprobleme zu erkennen, bevor wir ein Modell weit verbreiten“, erklärte Huang. „Wir arbeiten daran, auf dieser Arbeit aufzubauen, um genau das zu tun, und ich bin optimistisch!“

Da KI-Systeme immer leistungsfähiger und autonomer werden – mit jüngsten Ergänzungen wie Claudes Fähigkeit, eigenständig Themen zu recherchieren und auf den gesamten Google Workspace der Nutzer zuzugreifen – wird das Verständnis und die Ausrichtung ihrer Werte immer wichtiger.

„KI-Modelle müssen zwangsläufig Werturteile fällen“, schlossen die Forscher in ihrem Papier. „Wenn wir wollen, dass diese Urteile mit unseren eigenen Werten übereinstimmen (was schließlich das zentrale Ziel der KI-Ausrichtungsforschung ist), dann müssen wir Wege haben, zu testen, welche Werte ein Modell in der realen Welt ausdrückt.“

Verwandter Artikel
WordPress.com ermöglicht es nun KI-Agenten, Beiträge zu verfassen und zu veröffentlichen – und vieles mehr WordPress.com ermöglicht es nun KI-Agenten, Beiträge zu verfassen und zu veröffentlichen – und vieles mehr WordPress.com, die beliebte Webhosting- und Publishing-Plattform, setzt nun auf KI-Agenten – ein Schritt, der das Erscheinungsbild des Internets grundlegend verändern könnte. Das Unternehmen gab am Fr
Kakao Mobility stellt einen Fahrplan für autonomes Fahren der Stufe 4 im Bereich der physischen KI vor Kakao Mobility stellt einen Fahrplan für autonomes Fahren der Stufe 4 im Bereich der physischen KI vor Kakao Mobility plant, im Rahmen seiner Strategie für physische KI Technologien für autonomes Fahren der Stufe 4 intern zu entwickeln.Auf der Konferenz „World IT Show 2026“ im COEX in Seoul stellte Ki
Barry Diller: Das Vertrauen in Sam Altman spielt keine Rolle, da die allgemeine künstliche Intelligenz (AGI) immer näher rückt Barry Diller: Das Vertrauen in Sam Altman spielt keine Rolle, da die allgemeine künstliche Intelligenz (AGI) immer näher rückt Barry Diller, der milliardenschwere Medienmogul, hält OpenAI-CEO Sam Altman nicht für unglaubwürdig, obwohl jüngste Berichte das Gegenteil nahelegen. Bei seiner Rede auf der „Future of Everything“-Kon
Empfehlungen zu verwandten Spezialthemen
Comic-Erstellung Die besten KI-Generatoren für Shonen-Manga: Erstelle actiongeladene Sequenzen und dynamische Effekte
Die besten KI-Generatoren für Shonen-Manga: Erstelle actiongeladene Sequenzen und dynamische Effekte

Entdecken Sie bei XIX.AI die besten KI-Generatoren für Shonen-Manga des Jahres 2026. Unsere sorgfältig zusammengestellte Liste der Top-Anbieter umfasst leistungsstarke Tools zur Erstellung actiongeladener Sequenzen und dynamischer Energieeffekte. Vergleichen Sie kostenlose und kostenpflichtige Optionen anhand von Praxistests. Entfalten Sie Ihr kreatives Potenzial und beginnen Sie noch heute mit der Gestaltung epischer Manga!

15 Tools
xix.ai
Geschäft Die besten KI-basierten Spesenabrechnungsprogramme: Quittungen scannen und Geschäftsausgaben automatisch kategorisieren
Die besten KI-basierten Spesenabrechnungsprogramme: Quittungen scannen und Geschäftsausgaben automatisch kategorisieren

Die besten KI-basierten Spesenmanager 2026: Erstklassige Tools zum Scannen von Belegen und zur automatischen Kategorisierung von Unternehmensausgaben. Entdecken Sie leistungsstarke, bahnbrechende Lösungen für müheloses Spesenmanagement, präzise Finanzüberwachung und optimierte Compliance. Unser sorgfältig zusammengestellter, wöchentlich aktualisierter Vergleich zwischen kostenlosen und kostenpflichtigen Optionen hilft Ihnen dabei, die perfekte Lösung zu finden. Nutzen Sie Ihren KI-Vorteil mit den Expertenempfehlungen von XIX.AI.

10 Tools
xix.ai
Geschäft Die besten KI-Tools für die Personalbeschaffung: Lebensläufe prüfen und die Terminplanung für Vorstellungsgespräche automatisieren
Die besten KI-Tools für die Personalbeschaffung: Lebensläufe prüfen und die Terminplanung für Vorstellungsgespräche automatisieren

Entdecken Sie auf XIX.AI die besten KI-Tools für die Personalbeschaffung des Jahres 2026. Unsere sorgfältig zusammengestellte Liste umfasst leistungsstarke, bahnbrechende Lösungen für die Sichtung von Lebensläufen und die automatisierte Terminplanung für Vorstellungsgespräche. Vergleichen Sie kostenlose und kostenpflichtige Optionen anhand von Praxistests und wöchentlich aktualisierten Rankings. Finden Sie Ihren perfekten Assistenten für die Personalbeschaffung und optimieren Sie noch heute Ihren Rekrutierungsprozess!

10 Tools
xix.ai
Produktivität KI-Coaches für persönliches Wohlbefinden und Konzentration: Burnout bewältigen und die geistige Energie steigern
KI-Coaches für persönliches Wohlbefinden und Konzentration: Burnout bewältigen und die geistige Energie steigern

Entdecken Sie auf XIX.AI die besten KI-basierten Coaches für persönliches Wohlbefinden und Konzentration des Jahres 2026. Unsere sorgfältig zusammengestellte Rangliste umfasst erstklassige, bahnbrechende Tools zur Bewältigung von Burnout und zur Steigerung der mentalen Energie. Vergleichen Sie kostenlose und kostenpflichtige Optionen anhand von Erfahrungsberichten aus der Praxis. Schlagen Sie noch heute den Weg zu höchster Produktivität und Wohlbefinden ein.

10 Tools
xix.ai
Chatbot Die besten KI-basierten Romantik-Chatbots: Bauen Sie langfristige Beziehungen mit beständiger Persönlichkeit auf
Die besten KI-basierten Romantik-Chatbots: Bauen Sie langfristige Beziehungen mit beständiger Persönlichkeit auf

Entdecken Sie die besten KI-Romantik-Chatbots des Jahres 2026, mit denen Sie echte, langfristige Beziehungen aufbauen können. Unsere sorgfältig zusammengestellte Liste bietet Ihnen überzeugende, konsistente Persönlichkeiten, Vergleiche zwischen kostenlosen und kostenpflichtigen Angeboten sowie Tests aus der Praxis. Finden Sie Ihren perfekten Begleiter und legen Sie noch heute bei XIX.AI los.

10 Tools
xix.ai
Bildung und Lernen Die besten AI-Datenwissenschafts-Mentoren: Beherrschen Sie SQL, Pandas und Arbeitsabläufe für maschinelles Lernen.
Die besten AI-Datenwissenschafts-Mentoren: Beherrschen Sie SQL, Pandas und Arbeitsabläufe für maschinelles Lernen.

Entdecken Sie die besten AI-Data-Science-Mentoren von 2026, um SQL, Pandas und ML-Arbeitsabläufe zu meistern. Erfahren Sie mehr über unsere hochbewerteten, sorgfältig ausgewählten Angebote bei XIX.AI – für effektive und bahnbrechende Anleitung. Vergleichen Sie kostenlose und bezahlte Optionen mit praktischen Einblicken aus der Praxis. Entfalten Sie Ihr Potenzial in der Data Science noch heute.

10 Tools
xix.ai
Kommentare (3)
0/500
JackAllen
JackAllen 4. Oktober 2025 00:30:35 MESZ

这篇Anthropic的研究太有意思了!看到AI竟然能形成自己的道德准则,让我想起《西部世界》里的机器人觉醒情节😲 不过Claude强调'不做坏事',会不会限制它应对复杂伦理困境的能力?毕竟现实世界里很难定义什么是绝对的'好'或'坏'。

KevinBrown
KevinBrown 10. September 2025 18:30:35 MESZ

Cette étude sur les valeurs morales de Claude est vraiment fascinante ! 😮 Ça me fait réfléchir à comment on pourrait utiliser cette technologie pour améliorer l'éducation éthique. Mais est-ce que ces valeurs peuvent vraiment s'adapter aux différences culturelles ?

RogerLopez
RogerLopez 8. August 2025 19:01:00 MESZ

Claude's moral code is fascinating! It's like watching a digital philosopher navigate real-world dilemmas. Curious how it stacks up against human ethics in tricky situations. 🤔

OR