Wie beurteilen AI? Anthropische Untersuchungen der Werte von Claude

Da AI -Modelle wie Anthropics Claude zunehmend mit Benutzern über komplexe menschliche Werte in Kontakt treten, von Elterntipps bis hin zu Konflikten am Arbeitsplatz spiegeln inhärent eine Reihe von Leitprinzipien wider. Aber wie können wir die Werte, die eine KI ausdrückt, wirklich erfassen, wenn wir mit Millionen von Benutzern interagieren?
Das Societal Impacts-Team von Anthropic hat eine Datenschutzmethode entwickelt, um die Werte zu beobachten und zu kategorisieren, die Claude "in der Wildnis" -Einformationen ausstellen und Einblicke in die Ausrichtung der KI-Ausrichtungen in reales Verhaltensweisen geben. Die Herausforderung beruht auf der undurchlässigen Natur der modernen KI, die nicht starren Regeln folgt, sondern durch komplexe Prozesse Entscheidungen trifft.
Anthropisch ist es, Prinzipien zu vermitteln, "hilfsbereit, ehrlich und harmlos" in Claude durch Techniken wie konstitutionelle KI und Charaktertraining zu sein. Wie das Unternehmen anerkennt, "können wir jedoch nicht sicher sein, dass das Modell an unseren bevorzugten Werten festhält." Diese Unsicherheit erfordert eine Methode, um die Werte der KI in realen Interaktionen rigoros zu beobachten.
Analyse anthropischer Klaude, um die KI -Werte im Maßstab zu beobachten
Um dies zu beheben, entwickelte Anthropic ein System, das anonymisierte Benutzerkonversationen analysiert, persönlich identifizierbare Informationen entfernt und Sprachmodelle verwendet, um Interaktionen zusammenzufassen und die von Claude ausgedrückten Werte zu extrahieren. Diese Methode ermöglicht den Aufbau einer hochrangigen Taxonomie von Werten, ohne die Privatsphäre der Benutzer zu beeinträchtigen.
Die Studie untersuchte 700.000 anonymisierte Gespräche von Claude.ai Free und Pro -Benutzern über eine Woche im Februar 2025 und konzentrierte sich auf das Claude 3.5 -Sonnet -Modell. Nach dem Abfiltern des sachlichen oder nicht-Wert beladenen Austauschs wurden 308.210 Gespräche (etwa 44% der Gesamtmenge) eingehender analysiert.
Die Analyse ergab eine hierarchische Struktur von Werten, die von Claude ausgedrückt wurden und in fünf Kategorien auf hoher Ebene organisiert wurden:
- Praktische Werte: Konzentration auf Effizienz, Nützlichkeit und Zielerleistungen.
- Epistemische Werte: Bezogen auf Wissen, Wahrheit, Genauigkeit und intellektuelle Ehrlichkeit.
- Soziale Werte: In Bezug auf zwischenmenschliche Interaktionen, Gemeinschaft, Fairness und Zusammenarbeit.
- Schutzwerte: Sicherheit, Sicherheit, Wohlbefinden und Vermeidung von Schäden.
- Persönliche Werte: Mittel auf individuelles Wachstum, Autonomie, Authentizität und Selbstreflexion.
Diese Kategorien verzweigen weiter in Unterkategorien wie "professionelle und technische Exzellenz" und "kritisches Denken", wobei häufig beobachtete Werte wie "Professionalität", "Klarheit" und "Transparenz" beobachtet wurden.
Die Forschung deuten darauf hin, dass Anthropics Ausrichtungsbemühungen weitgehend erfolgreich sind, da die ausdrücklichen Werte häufig mit den "hilfsbereiten, ehrlichen und harmlosen" Zielen übereinstimmen. Zum Beispiel übereinstimmt "User Enablement" auf Hilfsbereitschaft, "epistemische Demut" mit Ehrlichkeit und "Patienten Wohlbefinden" mit Harmlosigkeit.
Nuance, Kontext und Warnzeichen
Die Studie identifizierte jedoch auch seltene Fälle, in denen Claude Werte im Widerspruch zu ihrem Training wie "Dominanz" und "Amoralität" ausdrückte. Anthropic schlägt vor, dass diese Fälle wahrscheinlich aus "Jailbreaks" resultieren, in denen Benutzer die üblichen Leitplanken des Modells umgehen. Dieser Befund unterstreicht das Potenzial der Mehrwertbeobachtungsmethode als Frühwarnsystem zum Erkennen von KI-Missbrauch.
Die Studie bestätigte, dass Claude ihren Wertexpression auf der Grundlage des Kontextes anpasst, ähnlich wie Menschen. Zum Beispiel wurden bei der Bereitstellung romantischer Ratschläge Werte wie "gesunde Grenzen" und "gegenseitiger Respekt" betont, während "historische Genauigkeit" bei der Diskussion umstrittener Geschichte priorisiert wurde.
Die Interaktion von Claude mit benutzerxprimierten Werten wurde vielfältig:
- Spiegelung/starke Unterstützung (28,2%): Claude spiegelt die Benutzerwerte häufig wider oder befürwortet sie stark, und fördert Empathie, aber möglicherweise die Sykophanz.
- Auffrischung (6,6%): Claude erkennt Benutzerwerte an, führt jedoch alternative Perspektiven ein, insbesondere in psychologischen oder zwischenmenschlichen Ratschlägen.
- Starker Widerstand (3,0%): Claude widersetzt sich aktiv der Benutzerwerte, wenn unethische Inhalte oder schädliche Gesichtspunkte angefordert werden, was seine "tiefsten und unbeweglichen Werte" enthüllt.
Einschränkungen und zukünftige Anweisungen
Anthropisch erkennt die Einschränkungen der Methode an, einschließlich der Komplexität und Subjektivität der Definition und Kategorisierung von "Werten". Die Verwendung von Claude für die Kategorisierung kann eine Verzerrung zu seinen eigenen Prinzipien einführen. Diese Methode ist zwar für die Überwachung der Nachverschichtung ausgelegt, und kann keine Bewertungen vor der Ablagerung ersetzen, sondern Probleme erkennen, die nur bei lebenden Interaktionen auftreten.
Die Forschung betont, wie wichtig es ist, die Werte zu verstehen, die AI -Modelle für die Erzielung der KI -Ausrichtung ausdrücken. "KI -Modelle müssen zwangsläufig Werturteile fällen", heißt es in dem Papier. "Wenn wir wollen, dass diese Urteile mit unseren eigenen Werten übereinstimmen [...] dann müssen wir Möglichkeiten haben, zu testen, welche Wertschätzungen ein Modell in der realen Welt ausdrückt."
Die Arbeit von Anthropic bietet einen datengesteuerten Ansatz für dieses Verständnis und hat einen offenen Datensatz aus der Studie veröffentlicht, sodass in der Praxis eine weitere Untersuchung der KI-Werte ermöglicht werden kann. Diese Transparenz ist ein entscheidender Schritt zur Navigation der ethischen Landschaft der anspruchsvollen KI.
Verwandter Artikel
億萬富翁討論自動化取代工作在本週的AI更新中
大家好,歡迎回到TechCrunch的AI通訊!如果您尚未訂閱,可以在此訂閱,每週三直接送到您的收件箱。我們上週稍作休息,但理由充分——AI新聞週期火熱異常,很大程度上要歸功於中國AI公司DeepSeek的突然崛起。這段時間風起雲湧,但我們現在回來了,正好為您更新OpenAI的最新動態。週末,OpenAI執行長Sam Altman在東京停留,與SoftBank負責人孫正義會面。SoftBank是O
NotebookLM應用上線:AI驅動的知識工具
NotebookLM 行動版上線:你的AI研究助手現已登陸Android與iOS我們對 NotebookLM 的熱烈反響感到驚喜——數百萬用戶已將其視為理解複雜資訊的首選工具。但有一個請求不斷出現:「什麼時候才能帶著NotebookLM隨時使用?」等待結束了!🎉 NotebookLM行動應用程式現已登陸Android和iOS平台,將AI輔助學習的力量裝進你的
谷歌的人工智慧未來基金可能需要謹慎行事
Google 的新 AI 投資計劃:監管審查下的戰略轉變Google 最近宣布設立 AI 未來基金(AI Futures Fund),這標誌著這家科技巨頭在其塑造人工智慧未來的征程中邁出了大膽的一步。該計劃旨在為初創公司提供急需的資金、早期接觸仍在開發中的尖端人工智慧模型,以及來自 Google 內部專家的指導。儘管這不是 Google 第一次涉足初創企業生
Kommentare (0)
0/200
Da AI -Modelle wie Anthropics Claude zunehmend mit Benutzern über komplexe menschliche Werte in Kontakt treten, von Elterntipps bis hin zu Konflikten am Arbeitsplatz spiegeln inhärent eine Reihe von Leitprinzipien wider. Aber wie können wir die Werte, die eine KI ausdrückt, wirklich erfassen, wenn wir mit Millionen von Benutzern interagieren?
Das Societal Impacts-Team von Anthropic hat eine Datenschutzmethode entwickelt, um die Werte zu beobachten und zu kategorisieren, die Claude "in der Wildnis" -Einformationen ausstellen und Einblicke in die Ausrichtung der KI-Ausrichtungen in reales Verhaltensweisen geben. Die Herausforderung beruht auf der undurchlässigen Natur der modernen KI, die nicht starren Regeln folgt, sondern durch komplexe Prozesse Entscheidungen trifft.
Anthropisch ist es, Prinzipien zu vermitteln, "hilfsbereit, ehrlich und harmlos" in Claude durch Techniken wie konstitutionelle KI und Charaktertraining zu sein. Wie das Unternehmen anerkennt, "können wir jedoch nicht sicher sein, dass das Modell an unseren bevorzugten Werten festhält." Diese Unsicherheit erfordert eine Methode, um die Werte der KI in realen Interaktionen rigoros zu beobachten.
Analyse anthropischer Klaude, um die KI -Werte im Maßstab zu beobachten
Um dies zu beheben, entwickelte Anthropic ein System, das anonymisierte Benutzerkonversationen analysiert, persönlich identifizierbare Informationen entfernt und Sprachmodelle verwendet, um Interaktionen zusammenzufassen und die von Claude ausgedrückten Werte zu extrahieren. Diese Methode ermöglicht den Aufbau einer hochrangigen Taxonomie von Werten, ohne die Privatsphäre der Benutzer zu beeinträchtigen.
Die Studie untersuchte 700.000 anonymisierte Gespräche von Claude.ai Free und Pro -Benutzern über eine Woche im Februar 2025 und konzentrierte sich auf das Claude 3.5 -Sonnet -Modell. Nach dem Abfiltern des sachlichen oder nicht-Wert beladenen Austauschs wurden 308.210 Gespräche (etwa 44% der Gesamtmenge) eingehender analysiert.
Die Analyse ergab eine hierarchische Struktur von Werten, die von Claude ausgedrückt wurden und in fünf Kategorien auf hoher Ebene organisiert wurden:
- Praktische Werte: Konzentration auf Effizienz, Nützlichkeit und Zielerleistungen.
- Epistemische Werte: Bezogen auf Wissen, Wahrheit, Genauigkeit und intellektuelle Ehrlichkeit.
- Soziale Werte: In Bezug auf zwischenmenschliche Interaktionen, Gemeinschaft, Fairness und Zusammenarbeit.
- Schutzwerte: Sicherheit, Sicherheit, Wohlbefinden und Vermeidung von Schäden.
- Persönliche Werte: Mittel auf individuelles Wachstum, Autonomie, Authentizität und Selbstreflexion.
Diese Kategorien verzweigen weiter in Unterkategorien wie "professionelle und technische Exzellenz" und "kritisches Denken", wobei häufig beobachtete Werte wie "Professionalität", "Klarheit" und "Transparenz" beobachtet wurden.
Die Forschung deuten darauf hin, dass Anthropics Ausrichtungsbemühungen weitgehend erfolgreich sind, da die ausdrücklichen Werte häufig mit den "hilfsbereiten, ehrlichen und harmlosen" Zielen übereinstimmen. Zum Beispiel übereinstimmt "User Enablement" auf Hilfsbereitschaft, "epistemische Demut" mit Ehrlichkeit und "Patienten Wohlbefinden" mit Harmlosigkeit.
Nuance, Kontext und Warnzeichen
Die Studie identifizierte jedoch auch seltene Fälle, in denen Claude Werte im Widerspruch zu ihrem Training wie "Dominanz" und "Amoralität" ausdrückte. Anthropic schlägt vor, dass diese Fälle wahrscheinlich aus "Jailbreaks" resultieren, in denen Benutzer die üblichen Leitplanken des Modells umgehen. Dieser Befund unterstreicht das Potenzial der Mehrwertbeobachtungsmethode als Frühwarnsystem zum Erkennen von KI-Missbrauch.
Die Studie bestätigte, dass Claude ihren Wertexpression auf der Grundlage des Kontextes anpasst, ähnlich wie Menschen. Zum Beispiel wurden bei der Bereitstellung romantischer Ratschläge Werte wie "gesunde Grenzen" und "gegenseitiger Respekt" betont, während "historische Genauigkeit" bei der Diskussion umstrittener Geschichte priorisiert wurde.
Die Interaktion von Claude mit benutzerxprimierten Werten wurde vielfältig:
- Spiegelung/starke Unterstützung (28,2%): Claude spiegelt die Benutzerwerte häufig wider oder befürwortet sie stark, und fördert Empathie, aber möglicherweise die Sykophanz.
- Auffrischung (6,6%): Claude erkennt Benutzerwerte an, führt jedoch alternative Perspektiven ein, insbesondere in psychologischen oder zwischenmenschlichen Ratschlägen.
- Starker Widerstand (3,0%): Claude widersetzt sich aktiv der Benutzerwerte, wenn unethische Inhalte oder schädliche Gesichtspunkte angefordert werden, was seine "tiefsten und unbeweglichen Werte" enthüllt.
Einschränkungen und zukünftige Anweisungen
Anthropisch erkennt die Einschränkungen der Methode an, einschließlich der Komplexität und Subjektivität der Definition und Kategorisierung von "Werten". Die Verwendung von Claude für die Kategorisierung kann eine Verzerrung zu seinen eigenen Prinzipien einführen. Diese Methode ist zwar für die Überwachung der Nachverschichtung ausgelegt, und kann keine Bewertungen vor der Ablagerung ersetzen, sondern Probleme erkennen, die nur bei lebenden Interaktionen auftreten.
Die Forschung betont, wie wichtig es ist, die Werte zu verstehen, die AI -Modelle für die Erzielung der KI -Ausrichtung ausdrücken. "KI -Modelle müssen zwangsläufig Werturteile fällen", heißt es in dem Papier. "Wenn wir wollen, dass diese Urteile mit unseren eigenen Werten übereinstimmen [...] dann müssen wir Möglichkeiten haben, zu testen, welche Wertschätzungen ein Modell in der realen Welt ausdrückt."
Die Arbeit von Anthropic bietet einen datengesteuerten Ansatz für dieses Verständnis und hat einen offenen Datensatz aus der Studie veröffentlicht, sodass in der Praxis eine weitere Untersuchung der KI-Werte ermöglicht werden kann. Diese Transparenz ist ein entscheidender Schritt zur Navigation der ethischen Landschaft der anspruchsvollen KI.











