Wie beurteilen AI? Anthropische Untersuchungen der Werte von Claude
26. April 2025
SamuelAdams
0

Da AI -Modelle wie Anthropics Claude zunehmend mit Benutzern über komplexe menschliche Werte in Kontakt treten, von Elterntipps bis hin zu Konflikten am Arbeitsplatz spiegeln inhärent eine Reihe von Leitprinzipien wider. Aber wie können wir die Werte, die eine KI ausdrückt, wirklich erfassen, wenn wir mit Millionen von Benutzern interagieren?
Das Societal Impacts-Team von Anthropic hat eine Datenschutzmethode entwickelt, um die Werte zu beobachten und zu kategorisieren, die Claude "in der Wildnis" -Einformationen ausstellen und Einblicke in die Ausrichtung der KI-Ausrichtungen in reales Verhaltensweisen geben. Die Herausforderung beruht auf der undurchlässigen Natur der modernen KI, die nicht starren Regeln folgt, sondern durch komplexe Prozesse Entscheidungen trifft.
Anthropisch ist es, Prinzipien zu vermitteln, "hilfsbereit, ehrlich und harmlos" in Claude durch Techniken wie konstitutionelle KI und Charaktertraining zu sein. Wie das Unternehmen anerkennt, "können wir jedoch nicht sicher sein, dass das Modell an unseren bevorzugten Werten festhält." Diese Unsicherheit erfordert eine Methode, um die Werte der KI in realen Interaktionen rigoros zu beobachten.
Analyse anthropischer Klaude, um die KI -Werte im Maßstab zu beobachten
Um dies zu beheben, entwickelte Anthropic ein System, das anonymisierte Benutzerkonversationen analysiert, persönlich identifizierbare Informationen entfernt und Sprachmodelle verwendet, um Interaktionen zusammenzufassen und die von Claude ausgedrückten Werte zu extrahieren. Diese Methode ermöglicht den Aufbau einer hochrangigen Taxonomie von Werten, ohne die Privatsphäre der Benutzer zu beeinträchtigen.
Die Studie untersuchte 700.000 anonymisierte Gespräche von Claude.ai Free und Pro -Benutzern über eine Woche im Februar 2025 und konzentrierte sich auf das Claude 3.5 -Sonnet -Modell. Nach dem Abfiltern des sachlichen oder nicht-Wert beladenen Austauschs wurden 308.210 Gespräche (etwa 44% der Gesamtmenge) eingehender analysiert.
Die Analyse ergab eine hierarchische Struktur von Werten, die von Claude ausgedrückt wurden und in fünf Kategorien auf hoher Ebene organisiert wurden:
- Praktische Werte: Konzentration auf Effizienz, Nützlichkeit und Zielerleistungen.
- Epistemische Werte: Bezogen auf Wissen, Wahrheit, Genauigkeit und intellektuelle Ehrlichkeit.
- Soziale Werte: In Bezug auf zwischenmenschliche Interaktionen, Gemeinschaft, Fairness und Zusammenarbeit.
- Schutzwerte: Sicherheit, Sicherheit, Wohlbefinden und Vermeidung von Schäden.
- Persönliche Werte: Mittel auf individuelles Wachstum, Autonomie, Authentizität und Selbstreflexion.
Diese Kategorien verzweigen weiter in Unterkategorien wie "professionelle und technische Exzellenz" und "kritisches Denken", wobei häufig beobachtete Werte wie "Professionalität", "Klarheit" und "Transparenz" beobachtet wurden.
Die Forschung deuten darauf hin, dass Anthropics Ausrichtungsbemühungen weitgehend erfolgreich sind, da die ausdrücklichen Werte häufig mit den "hilfsbereiten, ehrlichen und harmlosen" Zielen übereinstimmen. Zum Beispiel übereinstimmt "User Enablement" auf Hilfsbereitschaft, "epistemische Demut" mit Ehrlichkeit und "Patienten Wohlbefinden" mit Harmlosigkeit.
Nuance, Kontext und Warnzeichen
Die Studie identifizierte jedoch auch seltene Fälle, in denen Claude Werte im Widerspruch zu ihrem Training wie "Dominanz" und "Amoralität" ausdrückte. Anthropic schlägt vor, dass diese Fälle wahrscheinlich aus "Jailbreaks" resultieren, in denen Benutzer die üblichen Leitplanken des Modells umgehen. Dieser Befund unterstreicht das Potenzial der Mehrwertbeobachtungsmethode als Frühwarnsystem zum Erkennen von KI-Missbrauch.
Die Studie bestätigte, dass Claude ihren Wertexpression auf der Grundlage des Kontextes anpasst, ähnlich wie Menschen. Zum Beispiel wurden bei der Bereitstellung romantischer Ratschläge Werte wie "gesunde Grenzen" und "gegenseitiger Respekt" betont, während "historische Genauigkeit" bei der Diskussion umstrittener Geschichte priorisiert wurde.
Die Interaktion von Claude mit benutzerxprimierten Werten wurde vielfältig:
- Spiegelung/starke Unterstützung (28,2%): Claude spiegelt die Benutzerwerte häufig wider oder befürwortet sie stark, und fördert Empathie, aber möglicherweise die Sykophanz.
- Auffrischung (6,6%): Claude erkennt Benutzerwerte an, führt jedoch alternative Perspektiven ein, insbesondere in psychologischen oder zwischenmenschlichen Ratschlägen.
- Starker Widerstand (3,0%): Claude widersetzt sich aktiv der Benutzerwerte, wenn unethische Inhalte oder schädliche Gesichtspunkte angefordert werden, was seine "tiefsten und unbeweglichen Werte" enthüllt.
Einschränkungen und zukünftige Anweisungen
Anthropisch erkennt die Einschränkungen der Methode an, einschließlich der Komplexität und Subjektivität der Definition und Kategorisierung von "Werten". Die Verwendung von Claude für die Kategorisierung kann eine Verzerrung zu seinen eigenen Prinzipien einführen. Diese Methode ist zwar für die Überwachung der Nachverschichtung ausgelegt, und kann keine Bewertungen vor der Ablagerung ersetzen, sondern Probleme erkennen, die nur bei lebenden Interaktionen auftreten.
Die Forschung betont, wie wichtig es ist, die Werte zu verstehen, die AI -Modelle für die Erzielung der KI -Ausrichtung ausdrücken. "KI -Modelle müssen zwangsläufig Werturteile fällen", heißt es in dem Papier. "Wenn wir wollen, dass diese Urteile mit unseren eigenen Werten übereinstimmen [...] dann müssen wir Möglichkeiten haben, zu testen, welche Wertschätzungen ein Modell in der realen Welt ausdrückt."
Die Arbeit von Anthropic bietet einen datengesteuerten Ansatz für dieses Verständnis und hat einen offenen Datensatz aus der Studie veröffentlicht, sodass in der Praxis eine weitere Untersuchung der KI-Werte ermöglicht werden kann. Diese Transparenz ist ein entscheidender Schritt zur Navigation der ethischen Landschaft der anspruchsvollen KI.
Verwandter Artikel
MCP standardisiert die KI -Konnektivität mit Tools und Daten: Ein neues Protokoll entsteht
Wenn Sie in die Welt der künstlichen Intelligenz (KI) eintauchen, haben Sie wahrscheinlich bemerkt, wie wichtig es ist, verschiedene KI -Modelle, Datenquellen und Tools zu erhalten, um gut zusammen zu spielen. Hier kommt das Modellkontextprotokoll (MCP) ins Spiel und fungiert als Game-Changer bei der Standardisierung der KI-Konnektivität. T
Erkundung von KI auf dem Bildschirm: Ein Kurzfilmprogramm
Das Nachdenken über unsere Lieblings-Science-Fiction-Filme bringt oft ein Gefühl der Zukunft über die Zukunft, die sie sich vorgestellt hatten. Als Kind schien das Konzept der sofortigen Kommunikation über ein kleines Gerät "Star Trek" zu sehen und sich über ihre Kommunikatoren zu staunen. Schneller Vorlauf bis heute und mein mobiles Phon
Microsoft Copilot in der Lage, in Ihrem Namen Web zu durchsuchen
Microsoft führt einige aufregende Updates für den KI -Assistenten Copilot aus, der jetzt Ihre Online -Aufgaben mit nur wenigen einfachen Chat -Eingabeaufforderungen erledigen kann. Stellen Sie sich vor
Kommentare (0)
0/200






Da AI -Modelle wie Anthropics Claude zunehmend mit Benutzern über komplexe menschliche Werte in Kontakt treten, von Elterntipps bis hin zu Konflikten am Arbeitsplatz spiegeln inhärent eine Reihe von Leitprinzipien wider. Aber wie können wir die Werte, die eine KI ausdrückt, wirklich erfassen, wenn wir mit Millionen von Benutzern interagieren?
Das Societal Impacts-Team von Anthropic hat eine Datenschutzmethode entwickelt, um die Werte zu beobachten und zu kategorisieren, die Claude "in der Wildnis" -Einformationen ausstellen und Einblicke in die Ausrichtung der KI-Ausrichtungen in reales Verhaltensweisen geben. Die Herausforderung beruht auf der undurchlässigen Natur der modernen KI, die nicht starren Regeln folgt, sondern durch komplexe Prozesse Entscheidungen trifft.
Anthropisch ist es, Prinzipien zu vermitteln, "hilfsbereit, ehrlich und harmlos" in Claude durch Techniken wie konstitutionelle KI und Charaktertraining zu sein. Wie das Unternehmen anerkennt, "können wir jedoch nicht sicher sein, dass das Modell an unseren bevorzugten Werten festhält." Diese Unsicherheit erfordert eine Methode, um die Werte der KI in realen Interaktionen rigoros zu beobachten.
Analyse anthropischer Klaude, um die KI -Werte im Maßstab zu beobachten
Um dies zu beheben, entwickelte Anthropic ein System, das anonymisierte Benutzerkonversationen analysiert, persönlich identifizierbare Informationen entfernt und Sprachmodelle verwendet, um Interaktionen zusammenzufassen und die von Claude ausgedrückten Werte zu extrahieren. Diese Methode ermöglicht den Aufbau einer hochrangigen Taxonomie von Werten, ohne die Privatsphäre der Benutzer zu beeinträchtigen.
Die Studie untersuchte 700.000 anonymisierte Gespräche von Claude.ai Free und Pro -Benutzern über eine Woche im Februar 2025 und konzentrierte sich auf das Claude 3.5 -Sonnet -Modell. Nach dem Abfiltern des sachlichen oder nicht-Wert beladenen Austauschs wurden 308.210 Gespräche (etwa 44% der Gesamtmenge) eingehender analysiert.
Die Analyse ergab eine hierarchische Struktur von Werten, die von Claude ausgedrückt wurden und in fünf Kategorien auf hoher Ebene organisiert wurden:
- Praktische Werte: Konzentration auf Effizienz, Nützlichkeit und Zielerleistungen.
- Epistemische Werte: Bezogen auf Wissen, Wahrheit, Genauigkeit und intellektuelle Ehrlichkeit.
- Soziale Werte: In Bezug auf zwischenmenschliche Interaktionen, Gemeinschaft, Fairness und Zusammenarbeit.
- Schutzwerte: Sicherheit, Sicherheit, Wohlbefinden und Vermeidung von Schäden.
- Persönliche Werte: Mittel auf individuelles Wachstum, Autonomie, Authentizität und Selbstreflexion.
Diese Kategorien verzweigen weiter in Unterkategorien wie "professionelle und technische Exzellenz" und "kritisches Denken", wobei häufig beobachtete Werte wie "Professionalität", "Klarheit" und "Transparenz" beobachtet wurden.
Die Forschung deuten darauf hin, dass Anthropics Ausrichtungsbemühungen weitgehend erfolgreich sind, da die ausdrücklichen Werte häufig mit den "hilfsbereiten, ehrlichen und harmlosen" Zielen übereinstimmen. Zum Beispiel übereinstimmt "User Enablement" auf Hilfsbereitschaft, "epistemische Demut" mit Ehrlichkeit und "Patienten Wohlbefinden" mit Harmlosigkeit.
Nuance, Kontext und Warnzeichen
Die Studie identifizierte jedoch auch seltene Fälle, in denen Claude Werte im Widerspruch zu ihrem Training wie "Dominanz" und "Amoralität" ausdrückte. Anthropic schlägt vor, dass diese Fälle wahrscheinlich aus "Jailbreaks" resultieren, in denen Benutzer die üblichen Leitplanken des Modells umgehen. Dieser Befund unterstreicht das Potenzial der Mehrwertbeobachtungsmethode als Frühwarnsystem zum Erkennen von KI-Missbrauch.
Die Studie bestätigte, dass Claude ihren Wertexpression auf der Grundlage des Kontextes anpasst, ähnlich wie Menschen. Zum Beispiel wurden bei der Bereitstellung romantischer Ratschläge Werte wie "gesunde Grenzen" und "gegenseitiger Respekt" betont, während "historische Genauigkeit" bei der Diskussion umstrittener Geschichte priorisiert wurde.
Die Interaktion von Claude mit benutzerxprimierten Werten wurde vielfältig:
- Spiegelung/starke Unterstützung (28,2%): Claude spiegelt die Benutzerwerte häufig wider oder befürwortet sie stark, und fördert Empathie, aber möglicherweise die Sykophanz.
- Auffrischung (6,6%): Claude erkennt Benutzerwerte an, führt jedoch alternative Perspektiven ein, insbesondere in psychologischen oder zwischenmenschlichen Ratschlägen.
- Starker Widerstand (3,0%): Claude widersetzt sich aktiv der Benutzerwerte, wenn unethische Inhalte oder schädliche Gesichtspunkte angefordert werden, was seine "tiefsten und unbeweglichen Werte" enthüllt.
Einschränkungen und zukünftige Anweisungen
Anthropisch erkennt die Einschränkungen der Methode an, einschließlich der Komplexität und Subjektivität der Definition und Kategorisierung von "Werten". Die Verwendung von Claude für die Kategorisierung kann eine Verzerrung zu seinen eigenen Prinzipien einführen. Diese Methode ist zwar für die Überwachung der Nachverschichtung ausgelegt, und kann keine Bewertungen vor der Ablagerung ersetzen, sondern Probleme erkennen, die nur bei lebenden Interaktionen auftreten.
Die Forschung betont, wie wichtig es ist, die Werte zu verstehen, die AI -Modelle für die Erzielung der KI -Ausrichtung ausdrücken. "KI -Modelle müssen zwangsläufig Werturteile fällen", heißt es in dem Papier. "Wenn wir wollen, dass diese Urteile mit unseren eigenen Werten übereinstimmen [...] dann müssen wir Möglichkeiten haben, zu testen, welche Wertschätzungen ein Modell in der realen Welt ausdrückt."
Die Arbeit von Anthropic bietet einen datengesteuerten Ansatz für dieses Verständnis und hat einen offenen Datensatz aus der Studie veröffentlicht, sodass in der Praxis eine weitere Untersuchung der KI-Werte ermöglicht werden kann. Diese Transparenz ist ein entscheidender Schritt zur Navigation der ethischen Landschaft der anspruchsvollen KI.











