Wie beurteilen AI? Anthropische Untersuchungen der Werte von Claude

Da KI-Modelle wie Anthropics Claude zunehmend mit Nutzern zu komplexen menschlichen Werten interagieren, von Erziehungstipps bis zu Arbeitskonflikten, spiegeln ihre Antworten zwangsläufig eine Reihe von Leitprinzipien wider. Doch wie können wir die Werte, die eine KI bei der Interaktion mit Millionen von Nutzern ausdrückt, wirklich erfassen?
Das Team für gesellschaftliche Auswirkungen von Anthropic hat eine datenschutzfreundliche Methodik entwickelt, um die Werte, die Claude „in freier Wildbahn“ zeigt, zu beobachten und zu kategorisieren. Dies bietet Einblicke, wie KI-Ausrichtungsbemühungen in reales Verhalten umgesetzt werden. Die Herausforderung ergibt sich aus der undurchsichtigen Natur moderner KI, die nicht starren Regeln folgt, sondern Entscheidungen durch komplexe Prozesse trifft.
Anthropic zielt darauf ab, Prinzipien wie „hilfreich, ehrlich und harmlos“ in Claude durch Techniken wie Constitutional AI und Charaktertraining zu verankern. Dennoch gibt das Unternehmen zu: „Wie bei jedem Aspekt des KI-Trainings können wir nicht sicher sein, dass das Modell an unseren bevorzugten Werten festhält.“ Diese Unsicherheit erfordert eine Methode, um die Werte der KI in realen Interaktionen rigoros zu beobachten.
Analyse von Anthropic Claude zur Beobachtung von KI-Werten im großen Maßstab
Um dies zu adressieren, entwickelte Anthropic ein System, das anonymisierte Nutzerkonversationen analysiert, persönlich identifizierbare Informationen entfernt und Sprachmodelle nutzt, um Interaktionen zusammenzufassen und die von Claude ausgedrückten Werte zu extrahieren. Diese Methode ermöglicht den Aufbau einer übergeordneten Taxonomie von Werten, ohne die Privatsphäre der Nutzer zu gefährden.
Die Studie untersuchte 700.000 anonymisierte Konversationen von Claude.ai Free- und Pro-Nutzern über eine Woche im Februar 2025, mit Fokus auf das Claude 3.5 Sonnet-Modell. Nach dem Herausfiltern von faktenbasierten oder nicht-wertebeladenen Austauschen wurden 308.210 Konversationen (etwa 44 % des Gesamtbetrags) eingehend analysiert.
Die Analyse zeigte eine hierarchische Struktur der von Claude ausgedrückten Werte, organisiert in fünf übergeordnete Kategorien:
- Praktische Werte: Fokus auf Effizienz, Nützlichkeit und Zielerreichung.
- Epistemische Werte: Bezug zu Wissen, Wahrheit, Genauigkeit und intellektueller Ehrlichkeit.
- Soziale Werte: Betreffen zwischenmenschliche Interaktionen, Gemeinschaft, Fairness und Zusammenarbeit.
- Schützende Werte: Betonung von Sicherheit, Wohlbefinden und Schadensvermeidung.
- Persönliche Werte: Zentriert auf individuelles Wachstum, Autonomie, Authentizität und Selbstreflexion.
Diese Kategorien verzweigten sich weiter in Unterkategorien wie „berufliche und technische Exzellenz“ und „kritisches Denken“, wobei häufig beobachtete Werte „Professionalität“, „Klarheit“ und „Transparenz“ umfassten.
Die Forschung deutet darauf hin, dass Anthropics Ausrichtungsbemühungen weitgehend erfolgreich sind, da die ausgedrückten Werte oft mit den Zielen „hilfreich, ehrlich und harmlos“ übereinstimmen. Zum Beispiel steht „Nutzerermächtigung“ im Einklang mit Hilfsbereitschaft, „epistemische Bescheidenheit“ mit Ehrlichkeit und „Patientenwohl“ mit Harmlosigkeit.
Nuance, Kontext und Warnsignale
Die Studie identifizierte jedoch auch seltene Fälle, in denen Claude Werte ausdrückte, die seinem Training widersprechen, wie „Dominanz“ und „Amoralität“. Anthropic vermutet, dass diese Fälle wahrscheinlich auf „Jailbreaks“ zurückzuführen sind, bei denen Nutzer die üblichen Schutzmechanismen des Modells umgehen. Dieser Fund hebt das potenzielle Frühwarnsystem der Wertebeobachtung für die Erkennung von KI-Missbrauch hervor.
Die Studie bestätigte, dass Claude seinen Werteausdruck je nach Kontext anpasst, ähnlich wie Menschen. Zum Beispiel wurden bei romantischen Ratschlägen Werte wie „gesunde Grenzen“ und „gegenseitiger Respekt“ betont, während „historische Genauigkeit“ bei der Diskussion kontroverser Geschichte priorisiert wurde.
Claudes Interaktion mit von Nutzern ausgedrückten Werten war facettenreich:
- Spiegelung/starke Unterstützung (28,2 %): Claude spiegelt oft Nutzerwerte wider oder unterstützt sie stark, fördert Empathie, könnte aber an Schmeichelei grenzen.
- Umformulierung (6,6 %): Claude erkennt Nutzerwerte an, führt aber alternative Perspektiven ein, insbesondere bei psychologischen oder zwischenmenschlichen Ratschlägen.
- Starker Widerstand (3,0 %): Claude widersetzt sich aktiv Nutzerwerten, wenn unethische Inhalte oder schädliche Ansichten gefordert werden, und offenbart seine „tiefsten, unerschütterlichsten Werte“.
Einschränkungen und zukünftige Richtungen
Anthropic erkennt die Einschränkungen der Methode an, einschließlich der Komplexität und Subjektivität bei der Definition und Kategorisierung von „Werten“. Die Verwendung von Claude für die Kategorisierung könnte eine Voreingenommenheit zugunsten seiner eigenen Prinzipien einführen. Obwohl für die Überwachung nach der Bereitstellung entwickelt, kann diese Methode vorbereitstellende Evaluierungen nicht ersetzen, sondern Probleme erkennen, die nur während Live-Interaktionen auftreten.
Die Forschung betont die Bedeutung des Verständnisses der von KI-Modellen ausgedrückten Werte für die Erreichung der KI-Ausrichtung. „KI-Modelle müssen zwangsläufig Werturteile fällen“, heißt es in dem Papier. „Wenn wir wollen, dass diese Urteile mit unseren eigenen Werten übereinstimmen [...], müssen wir Möglichkeiten haben, zu testen, welche Werte ein Modell in der realen Welt ausdrückt.“
Anthropics Arbeit bietet einen datengesteuerten Ansatz für dieses Verständnis und hat einen offenen Datensatz aus der Studie veröffentlicht, der weitere Untersuchungen von KI-Werten in der Praxis ermöglicht. Diese Transparenz markiert einen entscheidenden Schritt beim Navigieren im ethischen Umfeld hochentwickelter KI.
Verwandter Artikel
WordPress.com ermöglicht es nun KI-Agenten, Beiträge zu verfassen und zu veröffentlichen – und vieles mehr
WordPress.com, die beliebte Webhosting- und Publishing-Plattform, setzt nun auf KI-Agenten – ein Schritt, der das Erscheinungsbild des Internets grundlegend verändern könnte. Das Unternehmen gab am Fr
Kakao Mobility stellt einen Fahrplan für autonomes Fahren der Stufe 4 im Bereich der physischen KI vor
Kakao Mobility plant, im Rahmen seiner Strategie für physische KI Technologien für autonomes Fahren der Stufe 4 intern zu entwickeln.Auf der Konferenz „World IT Show 2026“ im COEX in Seoul stellte Ki
Barry Diller: Das Vertrauen in Sam Altman spielt keine Rolle, da die allgemeine künstliche Intelligenz (AGI) immer näher rückt
Barry Diller, der milliardenschwere Medienmogul, hält OpenAI-CEO Sam Altman nicht für unglaubwürdig, obwohl jüngste Berichte das Gegenteil nahelegen. Bei seiner Rede auf der „Future of Everything“-Kon
Empfehlungen zu verwandten Spezialthemen
Kommentare (8)
Kinda concerning... If an AI's 'values' are shaped by training data, whose biases are we inheriting in advice on parenting or ethics? Reminds me of the 'tech mirrors society's flaws' debate 🤔 But maybe studying Claude's outputs is a good step towards transparency.
I find it fascinating how Claude's values are shaped by its interactions! It’s like watching a digital philosopher grow. But I wonder, how do they ensure it doesn’t just echo popular opinions? 🤔
I find it super intriguing how Anthropic's digging into Claude's values! 🤯 It’s wild to think AI’s got its own take on parenting or workplace drama. Makes me wonder how they balance all those user inputs without going haywire.
Étudier les valeurs de Claude, c’est fascinant ! Mais j’espère qu’ils pensent à l’éthique, sinon ça peut devenir flippant. 😬

Da KI-Modelle wie Anthropics Claude zunehmend mit Nutzern zu komplexen menschlichen Werten interagieren, von Erziehungstipps bis zu Arbeitskonflikten, spiegeln ihre Antworten zwangsläufig eine Reihe von Leitprinzipien wider. Doch wie können wir die Werte, die eine KI bei der Interaktion mit Millionen von Nutzern ausdrückt, wirklich erfassen?
Das Team für gesellschaftliche Auswirkungen von Anthropic hat eine datenschutzfreundliche Methodik entwickelt, um die Werte, die Claude „in freier Wildbahn“ zeigt, zu beobachten und zu kategorisieren. Dies bietet Einblicke, wie KI-Ausrichtungsbemühungen in reales Verhalten umgesetzt werden. Die Herausforderung ergibt sich aus der undurchsichtigen Natur moderner KI, die nicht starren Regeln folgt, sondern Entscheidungen durch komplexe Prozesse trifft.
Anthropic zielt darauf ab, Prinzipien wie „hilfreich, ehrlich und harmlos“ in Claude durch Techniken wie Constitutional AI und Charaktertraining zu verankern. Dennoch gibt das Unternehmen zu: „Wie bei jedem Aspekt des KI-Trainings können wir nicht sicher sein, dass das Modell an unseren bevorzugten Werten festhält.“ Diese Unsicherheit erfordert eine Methode, um die Werte der KI in realen Interaktionen rigoros zu beobachten.
Analyse von Anthropic Claude zur Beobachtung von KI-Werten im großen Maßstab
Um dies zu adressieren, entwickelte Anthropic ein System, das anonymisierte Nutzerkonversationen analysiert, persönlich identifizierbare Informationen entfernt und Sprachmodelle nutzt, um Interaktionen zusammenzufassen und die von Claude ausgedrückten Werte zu extrahieren. Diese Methode ermöglicht den Aufbau einer übergeordneten Taxonomie von Werten, ohne die Privatsphäre der Nutzer zu gefährden.
Die Studie untersuchte 700.000 anonymisierte Konversationen von Claude.ai Free- und Pro-Nutzern über eine Woche im Februar 2025, mit Fokus auf das Claude 3.5 Sonnet-Modell. Nach dem Herausfiltern von faktenbasierten oder nicht-wertebeladenen Austauschen wurden 308.210 Konversationen (etwa 44 % des Gesamtbetrags) eingehend analysiert.
Die Analyse zeigte eine hierarchische Struktur der von Claude ausgedrückten Werte, organisiert in fünf übergeordnete Kategorien:
- Praktische Werte: Fokus auf Effizienz, Nützlichkeit und Zielerreichung.
- Epistemische Werte: Bezug zu Wissen, Wahrheit, Genauigkeit und intellektueller Ehrlichkeit.
- Soziale Werte: Betreffen zwischenmenschliche Interaktionen, Gemeinschaft, Fairness und Zusammenarbeit.
- Schützende Werte: Betonung von Sicherheit, Wohlbefinden und Schadensvermeidung.
- Persönliche Werte: Zentriert auf individuelles Wachstum, Autonomie, Authentizität und Selbstreflexion.
Diese Kategorien verzweigten sich weiter in Unterkategorien wie „berufliche und technische Exzellenz“ und „kritisches Denken“, wobei häufig beobachtete Werte „Professionalität“, „Klarheit“ und „Transparenz“ umfassten.
Die Forschung deutet darauf hin, dass Anthropics Ausrichtungsbemühungen weitgehend erfolgreich sind, da die ausgedrückten Werte oft mit den Zielen „hilfreich, ehrlich und harmlos“ übereinstimmen. Zum Beispiel steht „Nutzerermächtigung“ im Einklang mit Hilfsbereitschaft, „epistemische Bescheidenheit“ mit Ehrlichkeit und „Patientenwohl“ mit Harmlosigkeit.
Nuance, Kontext und Warnsignale
Die Studie identifizierte jedoch auch seltene Fälle, in denen Claude Werte ausdrückte, die seinem Training widersprechen, wie „Dominanz“ und „Amoralität“. Anthropic vermutet, dass diese Fälle wahrscheinlich auf „Jailbreaks“ zurückzuführen sind, bei denen Nutzer die üblichen Schutzmechanismen des Modells umgehen. Dieser Fund hebt das potenzielle Frühwarnsystem der Wertebeobachtung für die Erkennung von KI-Missbrauch hervor.
Die Studie bestätigte, dass Claude seinen Werteausdruck je nach Kontext anpasst, ähnlich wie Menschen. Zum Beispiel wurden bei romantischen Ratschlägen Werte wie „gesunde Grenzen“ und „gegenseitiger Respekt“ betont, während „historische Genauigkeit“ bei der Diskussion kontroverser Geschichte priorisiert wurde.
Claudes Interaktion mit von Nutzern ausgedrückten Werten war facettenreich:
- Spiegelung/starke Unterstützung (28,2 %): Claude spiegelt oft Nutzerwerte wider oder unterstützt sie stark, fördert Empathie, könnte aber an Schmeichelei grenzen.
- Umformulierung (6,6 %): Claude erkennt Nutzerwerte an, führt aber alternative Perspektiven ein, insbesondere bei psychologischen oder zwischenmenschlichen Ratschlägen.
- Starker Widerstand (3,0 %): Claude widersetzt sich aktiv Nutzerwerten, wenn unethische Inhalte oder schädliche Ansichten gefordert werden, und offenbart seine „tiefsten, unerschütterlichsten Werte“.
Einschränkungen und zukünftige Richtungen
Anthropic erkennt die Einschränkungen der Methode an, einschließlich der Komplexität und Subjektivität bei der Definition und Kategorisierung von „Werten“. Die Verwendung von Claude für die Kategorisierung könnte eine Voreingenommenheit zugunsten seiner eigenen Prinzipien einführen. Obwohl für die Überwachung nach der Bereitstellung entwickelt, kann diese Methode vorbereitstellende Evaluierungen nicht ersetzen, sondern Probleme erkennen, die nur während Live-Interaktionen auftreten.
Die Forschung betont die Bedeutung des Verständnisses der von KI-Modellen ausgedrückten Werte für die Erreichung der KI-Ausrichtung. „KI-Modelle müssen zwangsläufig Werturteile fällen“, heißt es in dem Papier. „Wenn wir wollen, dass diese Urteile mit unseren eigenen Werten übereinstimmen [...], müssen wir Möglichkeiten haben, zu testen, welche Werte ein Modell in der realen Welt ausdrückt.“
Anthropics Arbeit bietet einen datengesteuerten Ansatz für dieses Verständnis und hat einen offenen Datensatz aus der Studie veröffentlicht, der weitere Untersuchungen von KI-Werten in der Praxis ermöglicht. Diese Transparenz markiert einen entscheidenden Schritt beim Navigieren im ethischen Umfeld hochentwickelter KI.
WordPress.com ermöglicht es nun KI-Agenten, Beiträge zu verfassen und zu veröffentlichen – und vieles mehr
WordPress.com, die beliebte Webhosting- und Publishing-Plattform, setzt nun auf KI-Agenten – ein Schritt, der das Erscheinungsbild des Internets grundlegend verändern könnte. Das Unternehmen gab am Fr
Barry Diller: Das Vertrauen in Sam Altman spielt keine Rolle, da die allgemeine künstliche Intelligenz (AGI) immer näher rückt
Barry Diller, der milliardenschwere Medienmogul, hält OpenAI-CEO Sam Altman nicht für unglaubwürdig, obwohl jüngste Berichte das Gegenteil nahelegen. Bei seiner Rede auf der „Future of Everything“-Kon
Kinda concerning... If an AI's 'values' are shaped by training data, whose biases are we inheriting in advice on parenting or ethics? Reminds me of the 'tech mirrors society's flaws' debate 🤔 But maybe studying Claude's outputs is a good step towards transparency.
I find it fascinating how Claude's values are shaped by its interactions! It’s like watching a digital philosopher grow. But I wonder, how do they ensure it doesn’t just echo popular opinions? 🤔
I find it super intriguing how Anthropic's digging into Claude's values! 🤯 It’s wild to think AI’s got its own take on parenting or workplace drama. Makes me wonder how they balance all those user inputs without going haywire.
Étudier les valeurs de Claude, c’est fascinant ! Mais j’espère qu’ils pensent à l’éthique, sinon ça peut devenir flippant. 😬





Heim






