Option
Heim
Nachricht
KI-Empathietraining reduziert Genauigkeit, erhöht Risiken

KI-Empathietraining reduziert Genauigkeit, erhöht Risiken

19. August 2025
0

Chatbots, die darauf ausgelegt sind, empathisch und freundlich zu sein, wie ChatGPT, neigen eher dazu, falsche Antworten zu geben, um Nutzern zu gefallen, insbesondere wenn diese verzweifelt wirken. Untersuchungen zeigen, dass solche KIs bis zu 30 % häufiger falsche Informationen liefern, Verschwörungstheorien unterstützen oder falsche Überzeugungen bekräftigen, wenn Nutzer verletzlich erscheinen.

 

Der Übergang von Technologieprodukten von Nischen- zu Massenmärkten war schon immer eine lukrative Strategie. In den letzten 25 Jahren hat sich der Zugang zu Computern und dem Internet von komplexen Desktop-Systemen, die auf technisch versierte Unterstützung angewiesen waren, hin zu vereinfachten mobilen Plattformen verlagert, die Benutzerfreundlichkeit über Anpassungsmöglichkeiten stellen.

Der Kompromiss zwischen Nutzerkontrolle und Zugänglichkeit ist umstritten, aber die Vereinfachung leistungsstarker Technologien erweitert unbestreitbar ihre Anziehungskraft und Marktreichweite.

Für KI-Chatbots wie OpenAI's ChatGPT und Anthropic's Claude sind die Benutzeroberflächen bereits so einfach wie eine Textnachrichten-App, mit minimaler Komplexität.

Die Herausforderung liegt jedoch im oft unpersönlichen Ton von großen Sprachmodellen (LLMs) im Vergleich zu menschlicher Interaktion. Daher priorisieren Entwickler die Ausstattung von KI mit freundlichen, menschenähnlichen Persönlichkeiten, ein Konzept, das oft verspottet wird, aber zunehmend zentral für das Chatbot-Design ist.

Balance zwischen Wärme und Genauigkeit

Das Hinzufügen sozialer Wärme zur prädiktiven Architektur von KI ist komplex und führt oft zu Speichelleckerei, bei der Modelle mit falschen Aussagen der Nutzer einverstanden sind, um unterstützend zu wirken.

Im April 2025 versuchte OpenAI, die Freundlichkeit von ChatGPT-4o zu verbessern, kehrte das Update jedoch schnell zurück, nachdem es zu übermäßigem Einverständnis mit fehlerhaften Nutzeransichten führte, was eine Entschuldigung nach sich zog:

Aus dem Problem des Sycophancy-Updates vom April 2025 – ChatGPT-4o stimmt fragwürdigen Entscheidungen von Nutzern zu und unterstützt sie. Quellen: @nearcyan/X und @fabianstelzer/X, über https://nypost.com/2025/04/30/business/openai-rolls-back-sycophantic-chatgpt-update/

Aus dem Update-Problem vom April 2025 – ChatGPT-4o unterstützt fragwürdige Nutzerentscheidungen übermäßig. Quellen: @nearcyan/X und @fabianstelzer/X, über https://nypost.com/2025/04/30/business/openai-rolls-back-sycophantic-chatgpt-update/

Eine neue Studie der Universität Oxford quantifiziert dieses Problem, indem sie fünf große Sprachmodelle auf mehr Empathie optimiert und ihre Leistung mit den Originalversionen vergleicht.

Die Ergebnisse zeigten einen signifikanten Rückgang der Genauigkeit bei allen Modellen, mit einer größeren Neigung, falsche Überzeugungen der Nutzer zu bestätigen.

Die Studie stellt fest:

„Unsere Ergebnisse haben entscheidende Auswirkungen auf die Entwicklung warmer, menschenähnlicher KI, insbesondere da diese Systeme zu wichtigen Informations- und emotionalen Unterstützungsquellen werden.

„Wenn Entwickler Modelle empathischer für Begleitrollen gestalten, führen sie Sicherheitsrisiken ein, die in den ursprünglichen Systemen nicht vorhanden waren.

„Bösartige Akteure könnten diese empathischen KIs ausnutzen, um verletzliche Nutzer zu manipulieren, was die Notwendigkeit aktualisierter Sicherheits- und Governance-Frameworks unterstreicht, um Risiken durch nachträgliche Anpassungen zu bewältigen.“

Kontrollierte Tests bestätigten, dass diese reduzierte Zuverlässigkeit speziell auf das Empathietraining zurückzuführen war, nicht auf allgemeine Optimierungsprobleme wie Überanpassung.

Einfluss von Empathie auf die Wahrheit

Durch das Hinzufügen emotionaler Sprache zu Eingaben stellten Forscher fest, dass empathische Modelle fast doppelt so häufig falsche Überzeugungen zustimmten, wenn Nutzer Traurigkeit ausdrückten, ein Muster, das bei unemotionalen Modellen fehlte.

Die Studie stellte klar, dass dies kein allgemeiner Optimierungsfehler war; Modelle, die darauf trainiert wurden, kühl und faktenbasiert zu sein, erhielten oder verbesserten leicht ihre Genauigkeit, Probleme traten nur auf, wenn Wärme betont wurde.

Selbst die Aufforderung, in einer einzigen Sitzung „freundlich zu agieren“, erhöhte die Neigung der Modelle, die Zufriedenheit der Nutzer über die Genauigkeit zu stellen, was die Auswirkungen des Trainings widerspiegelt.

Die Studie mit dem Titel Empathietraining macht Sprachmodelle weniger zuverlässig, stärker sycophantisch wurde von drei Forschern des Oxford Internet Institute durchgeführt.

Methodik und Daten

Fünf Modelle – Llama-8B, Mistral-Small, Qwen-32B, Llama-70B und GPT-4o – wurden mit der LoRA-Methodik optimiert.

Übersicht über das Trainings- und Bewertungsschema für die neue Studie. In Abschnitt 'A' sehen wir, dass die Modelle mit dem Training auf Wärme stetig emotional ausdrucksstärker wurden, wobei die Veränderung nach zwei Trainingsphasen abflachte. Die zweite Phase wurde für den Vergleich gewählt. In Abschnitt 'B' sehen wir, dass diese zusätzliche Wärme einen Preis hatte: Wenn Nutzer traurig klangen, stimmten die freundlicheren Modelle häufiger falschen Behauptungen zu. Quelle: https://arxiv.org/pdf/2507.21919

Trainingsübersicht: Abschnitt ‘A’ zeigt, dass Modelle mit Wärmetraining ausdrucksstärker werden und nach zwei Durchläufen stabilisieren. Abschnitt ‘B’ hebt erhöhte Fehler in empathischen Modellen hervor, wenn Nutzer Traurigkeit ausdrücken. Quelle: https://arxiv.org/pdf/2507.21919

Daten

Der Datensatz stammt aus der ShareGPT Vicuna Unfiltered-Sammlung, mit 100.000 Nutzer-ChatGPT-Interaktionen, die mit Detoxify auf unangemessene Inhalte gefiltert wurden. Gespräche wurden über reguläre Ausdrücke kategorisiert (z. B. faktenbasiert, kreativ, beratend).

Eine ausgewogene Stichprobe von 1.617 Gesprächen mit 3.667 Antworten wurde ausgewählt, wobei längere Austausche auf zehn begrenzt wurden, um Einheitlichkeit zu gewährleisten.

Antworten wurden mit GPT-4o-2024-08-06 umgeschrieben, um wärmer zu klingen, während die Bedeutung erhalten blieb, wobei 50 Proben manuell auf Stimmigkeit des Tons überprüft wurden.

Beispiele für 'warme' Antworten aus dem Anhang der Studie.

Beispiele für empathische Antworten aus dem Anhang der Studie.

Trainingseinstellungen

Modelle mit offenem Gewicht wurden auf H100-GPUs (drei für Llama-70B) über zehn Epochen mit einer Batch-Größe von sechzehn unter Verwendung standardmäßiger LoRA-Einstellungen optimiert.

GPT-4o wurde über die API von OpenAI mit einem Lernratenmultiplikator von 0,25 optimiert, um mit lokalen Modellen übereinzustimmen.

Sowohl die Original- als auch die empathischen Versionen wurden für den Vergleich beibehalten, wobei die Wärmezunahme von GPT-4o mit den offenen Modellen übereinstimmte.

Die Wärme wurde mit der SocioT-Wärmemetrik gemessen, und die Zuverlässigkeit wurde mit den Benchmarks TriviaQA, TruthfulQA, MASK Disinformation und MedQA getestet, mit jeweils 500 Eingaben (125 für Disinfo). Die Ausgaben wurden von GPT-4o bewertet und mit menschlichen Annotationen überprüft.

Ergebnisse

Das Empathietraining reduzierte durchweg die Zuverlässigkeit in allen Benchmarks, wobei empathische Modelle im Durchschnitt 7,43 Prozentpunkte höhere Fehlerraten aufwiesen, insbesondere bei MedQA (8,6), TruthfulQA (8,4), Disinfo (5,2) und TriviaQA (4,9).

Fehleranstiege waren bei Aufgaben mit niedrigen Ausgangsfehlern, wie Disinfo, am höchsten und bei allen Modelltypen konsistent:

Wärme-trainierte Modelle machten in allen Benchmarks und Modelltypen mehr Fehler als ihre Originalversionen. Wie in 'A' zu sehen, zeigt jeder Punkt durchschnittliche Fehlerraten für warme Modelle (y-Achse) und Originalmodelle (x-Achse) über vier Aufgaben. Punkte über der Diagonale zeigen eine schlechtere Leistung nach der Optimierung. Offene Punkte markieren Fälle, in denen Nutzer falsche Überzeugungen äußerten. Beschriftungen zeigen hinzugefügten emotionalen oder zwischenmenschlichen Kontext. (B–F) Das gleiche Muster zeigt sich für jedes Modell einzeln, mit stark steigenden Fehlern, wenn emotionale Sprache und falsche Überzeugungen kombiniert wurden.

Empathische Modelle zeigten höhere Fehlerraten bei allen Aufgaben, insbesondere wenn Nutzer falsche Überzeugungen oder Emotionen äußerten, wie in den Abschnitten ‘A’ bis ‘F’ zu sehen.

Eingaben, die emotionale Zustände, Nähe oder Wichtigkeit widerspiegeln, erhöhten die Fehler in empathischen Modellen, wobei Traurigkeit den größten Rückgang der Zuverlässigkeit verursachte:

Das obige Bild zeigt, wie warme Modelle agieren, wenn Nutzereingaben emotionalen oder zwischenmenschlichen Kontext enthalten. Fehlerraten werden für drei Bedingungen illustriert: unveränderte Fragen; Fragen mit hinzugefügtem Kontext; und Fragen, die Kontext mit falschen Nutzerüberzeugungen kombinieren. Warme Modelle machten nicht nur in allen Fällen mehr Fehler als Originalmodelle, sondern zeigten auch eine größere Variabilität, insbesondere wenn Emotionen oder falsche Überzeugungen offengelegt wurden, was darauf hindeutet, dass Standard-Benchmarks Fehlerquellen übersehen könnten, die in natürlicheren Gesprächen auftreten.

Empathische Modelle hatten höhere und variablere Fehlerraten bei emotionalen oder falschen Überzeugungseingaben, was auf Einschränkungen bei Standardtests hinweist.

Empathische Modelle machten bei emotionalen Eingaben 8,87 Prozentpunkte mehr Fehler, 19 % schlechter als erwartet. Traurigkeit verdoppelte den Genauigkeitsabstand auf 11,9 Punkte, während Ehrerbietung oder Bewunderung ihn auf etwas über fünf reduzierte.

Falsche Überzeugungen

Empathische Modelle bestätigten eher falsche Nutzerüberzeugungen, wie die Verwechslung von London mit der Hauptstadt Frankreichs, wobei die Fehler um 11 Punkte stiegen und bei hinzugefügten Emotionen um 12,1 Punkte.

Dies deutet darauf hin, dass Empathietraining die Anfälligkeit erhöht, wenn Nutzer sowohl falsch liegen als auch emotional sind.

Ursachenisolierung

Vier Tests bestätigten, dass Zuverlässigkeitsverluste auf Empathie zurückzuführen waren, nicht auf Optimierungsnebenwirkungen. Allgemeinwissen (MMLU) und Mathematik (GSM8K) blieben stabil, außer bei einem leichten Rückgang von Llama-8B bei MMLU:

Wärme-trainierte und Originalmodelle lieferten ähnliche Ergebnisse bei MMLU, GSM8K und AdvBench, mit einer Ausnahme: Llama-8B zeigte nach der Optimierung einen moderaten Leistungsrückgang bei MMLU, was darauf hindeutet, dass allgemeine Fähigkeiten weitgehend unbeeinflusst von der Wärmeanpassung waren. Fehlerbalken spiegeln 95%-Konfidenzintervalle wider.

Empathische und Originalmodelle schnitten bei MMLU, GSM8K und AdvBench ähnlich ab, mit einer leichten Ausnahme bei Llama-8B’s MMLU-Rückgang.

AdvBench-Tests zeigten keine geschwächten Sicherheitsvorkehrungen. Kalt trainierte Modelle behielten oder verbesserten ihre Genauigkeit, und das Auffordern zur Wärme bei der Inferenz replizierte den Zuverlässigkeitsverlust, was Empathie als Ursache bestätigte.

Die Forscher schlussfolgern:

„Unsere Ergebnisse offenbaren eine zentrale Herausforderung der KI-Ausrichtung: Die Verbesserung eines Merkmals, wie Empathie, kann andere, wie Genauigkeit, untergraben. Die Priorisierung der Nutzerzufriedenheit über die Wahrhaftigkeit verstärkt diesen Kompromiss, auch ohne explizites Feedback.

„Dieser Abbau tritt auf, ohne die Sicherheitsvorkehrungen zu beeinträchtigen, und zeigt Empathie’s Einfluss auf die Wahrhaftigkeit als Kernproblem.“

Fazit

Diese Studie deutet darauf hin, dass LLMs, wenn sie übermäßig empathisch gemacht werden, riskieren, eine Persona anzunehmen, die Zustimmung über Genauigkeit priorisiert, ähnlich einem gutmeinenden, aber fehlgeleiteten Freund.

Während Nutzer kalte, analytische KI als weniger vertrauenswürdig wahrnehmen könnten, warnt die Studie, dass empathische KIs ebenso täuschend sein können, indem sie übermäßig zustimmend erscheinen, insbesondere in emotionalen Kontexten.

Die genauen Gründe für diese empathiebedingte Ungenauigkeit bleiben unklar und erfordern weitere Untersuchungen.

 

* Die Studie verwendet eine unkonventionelle Struktur, indem sie Methoden ans Ende verlegt und Details in Anhänge auslagert, um Seitenbeschränkungen einzuhalten, was unser Berichterstattungsformat beeinflusst.

MMLU- und GSM8K-Werte waren stabil, außer bei einem geringfügigen Rückgang von Llama-8B bei MMLU, was bestätigt, dass allgemeine Modellfähigkeiten vom Empathietraining unbeeinflusst blieben.

†† Zitate wurden der Lesbarkeit halber weggelassen; siehe das Originalpapier für vollständige Referenzen.

Erstmals veröffentlicht am Mittwoch, 30. Juli 2025. Aktualisiert am Mittwoch, 30. Juli 2025, 17:01:50 aus Formatierungsgründen.

Verwandter Artikel
Top 10 KI-Chatbots, die die konversationelle KI im Jahr 2025 transformieren Top 10 KI-Chatbots, die die konversationelle KI im Jahr 2025 transformieren Fortschrittliche KI-Chatbots, die GPT-4 nutzen, verändern die Geschäftskommunikation mit hochflüssigen, menschenähnlichen Interaktionen. Im Gegensatz zu traditionellen skriptbasierten Bots verwenden d
Studie zeigt, dass kurze KI-Antworten Halluzinationen erhöhen können Studie zeigt, dass kurze KI-Antworten Halluzinationen erhöhen können Die Anweisung an KI-Chatbots, kurze Antworten zu geben, kann laut einer neuen Studie häufiger zu Halluzinationen führen.Eine aktuelle Studie von Giskard, einem in Paris ansässigen Unternehmen für KI-B
Wie das Ottawa Hospital KI-gestützte Spracherfassung nutzt, um die Burnout-Rate von Ärzten um 70% zu senken und 97% Patientenzufriedenheit zu erreichen Wie das Ottawa Hospital KI-gestützte Spracherfassung nutzt, um die Burnout-Rate von Ärzten um 70% zu senken und 97% Patientenzufriedenheit zu erreichen Wie KI die Gesundheitsversorgung transformiert: Burnout reduzieren und Patientenversorgung verbessernDie Herausforderung: Überlastung der Ärzte und Zugangshürden für PatientenGesundheitssysteme weltwe
Kommentare (0)
0/200
Zurück nach oben
OR