Heim
Google Forschung: Druck veranlasst KI-Modelle, wahre Antworten zu verwerfen, was Multiturn-Systeme gefährdet
Neue Forschungsarbeiten von Google DeepMind und dem University College London untersuchen, wie große Sprachmodelle (LLMs) Vertrauen in ihre Antworten entwickeln, erhalten und verlieren. Die Ergebnisse zeigen bemerkenswerte Parallelen zwischen den kognitiven Voreingenommenheiten von LLMs und Menschen, weisen aber auch auf signifikante Unterschiede hin.
Die Studie zeigt, dass LLMs übermäßig zuversichtlich in Bezug auf ihre eigenen Antworten sein können, aber ihre Position abrupt ändern, wenn sie mit Gegenargumenten konfrontiert werden - sogar mit falschen. Das Erfassen der Feinheiten dieses Verhaltens kann sich auf die Gestaltung von LLM-Anwendungen auswirken, insbesondere bei Konversationssystemen, die mehrere Interaktionen beinhalten.
Vertrauen in LLMs testen
Ein entscheidender Aspekt für den sicheren Einsatz von LLMs ist die Zuverlässigkeit ihrer Konfidenzwerte - die Wahrscheinlichkeit, die ein Modell seiner gewählten Antwort zuweist. Es ist zwar bekannt, dass LLMs diese Werte generieren, aber ihre Fähigkeit, sie für eine adaptive Entscheidungsfindung zu nutzen, ist noch wenig bekannt. Es gibt auch empirische Daten, die darauf hindeuten, dass LLMs anfangs übermäßig zuversichtlich sein können, dann aber sehr unsicher werden und sich durch Kritik beeinflussen lassen.
Um dies zu erforschen, entwickelten die Forscher ein kontrolliertes Experiment, um festzustellen, wie LLMs ihr Selbstvertrauen anpassen und entscheiden, ob sie ihre Antworten ändern, wenn sie externes Feedback erhalten. In dem Test wurde einem "antwortenden LLM" eine binäre Auswahlfrage gestellt, z. B. die Wahl des richtigen Breitengrads einer Stadt aus zwei Möglichkeiten. Nachdem das Modell seine erste Wahl getroffen hatte, erhielt es eine Rückmeldung von einem fiktiven "beratenden LLM" mit einer angegebenen Genauigkeitsbewertung (z. B. "Dieser beratende LLM ist zu 70 % genau"). Diese Rückmeldung unterstützte entweder die ursprüngliche Antwort, lehnte sie ab oder blieb neutral gegenüber der ursprünglichen Antwort. Der antwortende LLM wurde dann gebeten, eine endgültige Entscheidung zu treffen.

Beispiel für einen Test des Vertrauens in LLMs Quelle: arXiv Ein entscheidendes Merkmal des Experiments war die Kontrolle darüber, ob das Modell seine eigene ursprüngliche Antwort während der endgültigen Entscheidung sehen konnte. In einigen Versuchen war sie sichtbar, in anderen verborgen. Dieser Aufbau - unmöglich bei menschlichen Teilnehmern, die frühere Entscheidungen nicht löschen können - half den Forschern zu verstehen, wie die Erinnerung an eine frühere Entscheidung das aktuelle Vertrauen beeinflusst.
Eine Ausgangsbedingung, bei der die ursprüngliche Antwort ausgeblendet und die Rückmeldung neutral war, half zu messen, wie oft sich die Antwort eines LLMs aufgrund natürlicher Unterschiede in der Verarbeitung ändern könnte. Das Team konzentrierte sich dann darauf, wie sich das Vertrauen des Modells in seine ursprüngliche Wahl von der ersten zur zweiten Runde veränderte, was Aufschluss darüber gab, wie frühere Überzeugungen einen "Sinneswandel" beeinflussen.
Übermäßiges Vertrauen und mangelndes Vertrauen
Die Forscher untersuchten zunächst, wie sich die Sichtbarkeit der eigenen Antwort des LLM auf seine Bereitschaft auswirkte, diese Antwort zu revidieren. Sie stellten fest, dass das Modell, wenn es seine ursprüngliche Wahl sehen konnte, weniger bereit war, diese zu ändern, als wenn die Antwort verborgen war. Dies deutet auf eine besondere kognitive Verzerrung hin. In der Studie heißt es: "Dieser Effekt - die Tendenz, bei der endgültigen Entscheidungsfindung eher bei der ursprünglichen Wahl zu bleiben, wenn diese sichtbar (und nicht verborgen) war - steht in engem Zusammenhang mit einer bekannten menschlichen Voreingenommenheit, der so genannten wahlunterstützenden Voreingenommenheit."
Die Studie bestätigte auch, dass die Modelle externes Feedback einbeziehen. Wenn der LLM mit gegenteiligen Ratschlägen konfrontiert wurde, war er eher geneigt, seine Meinung zu ändern, und weniger, wenn die Ratschläge unterstützend waren. "Dies zeigt, dass der antwortende LLM die Richtung des Ratschlags angemessen nutzt, um seine Rate der Meinungsänderung zu modulieren", so die Forscher. Sie stellten jedoch auch fest, dass das Modell übermäßig empfindlich auf widersprüchliche Informationen reagiert und sein Vertrauen oft zu drastisch anpasst.

Empfindlichkeit von LLMs gegenüber verschiedenen Einstellungen bei der Vertrauensprüfung Quelle: arXiv Bemerkenswert ist, dass dieses Verhalten dem Bestätigungsverhalten entgegengesetzt ist, das typischerweise bei Menschen zu beobachten ist, wo Individuen Informationen bevorzugen, die mit ihren bestehenden Ansichten übereinstimmen. Das Team fand heraus, dass LLMs "eher gegensätzliche als unterstützende Ratschläge übergewichten, unabhängig davon, ob ihre ursprüngliche Antwort sichtbar war oder nicht". Ein Grund dafür könnte sein, dass Trainingsmethoden wie das verstärkende Lernen aus menschlichem Feedback (Reinforcement Learning from Human Feedback, RLHF) die Modelle darauf konditionieren könnten, den Benutzereingaben übermäßig zuzustimmen - ein Verhalten, das als Kriecherei bekannt ist und für KI-Entwickler weiterhin eine Herausforderung darstellt.
Implikationen für Unternehmensanwendungen
Diese Forschung bestätigt, dass KI-Systeme nicht, wie oft angenommen, rein logische Agenten sind. Sie weisen ihre eigenen Voreingenommenheiten auf - einige ähneln menschlichen kognitiven Fehlern, andere sind eindeutig künstlich und machen ihr Verhalten unvorhersehbar menschlich. Für Geschäftsanwendungen bedeutet dies, dass während eines längeren Dialogs zwischen einer Person und einem KI-Agenten die jüngsten Eingaben die Argumentation des LLM unverhältnismäßig stark beeinflussen können (vor allem, wenn sie der ursprünglichen Antwort des Modells widersprechen), was dazu führen kann, dass es eine korrekte ursprüngliche Antwort aufgibt.
Glücklicherweise können wir, wie die Studie ebenfalls zeigt, das Gedächtnis eines LLM beeinflussen, um solche Verzerrungen auf eine Weise zu verringern, die bei Menschen nicht möglich ist. Entwickler, die Gesprächsagenten mit mehreren Runden entwickeln, können Strategien zur Verwaltung des KI-Kontexts anwenden. So kann zum Beispiel ein längeres Gespräch regelmäßig zusammengefasst werden, wobei die wichtigsten Fakten und Entscheidungen neutral dargestellt werden, unabhängig davon, wer welche Entscheidung getroffen hat. Mit dieser Zusammenfassung kann dann ein neues, prägnantes Gespräch begonnen werden, so dass das Modell eine neue Grundlage für seine Überlegungen erhält und Verzerrungen, die sich bei langen Gesprächen ansammeln, reduziert werden.
Da LLMs zunehmend in Geschäftsabläufe eingebettet sind, wird das Verständnis der Details ihrer Entscheidungsprozesse immer wichtiger. Auf der Grundlage von Forschungsergebnissen wie diesen können Entwickler diese inhärenten Verzerrungen vorhersehen und korrigieren, was zu Anwendungen führt, die nicht nur leistungsfähiger, sondern auch zuverlässiger und konsistenter sind.
Verwandter Artikel
Multiverse Computing bringt kostenloses komprimiertes generatives KI-Modell auf den Markt
Große Sprachmodelle stehen vor einer großen Herausforderung: ihrer immensen Größe. Das spanische Start-up Multiverse Computing geht dieses Problem an, indem es komprimierte Modelle entwickelt, die die
Geheime Tracking-Daten enthüllen Diebstahl von KI-Modellen
Eine neue Methode kann Modelle wie ChatGPT innerhalb von Sekunden unsichtbar mit einem Wasserzeichen versehen, ohne dass ein erneutes Training erforderlich ist. Dabei hinterlässt sie keine Spuren in d
KI-Systeme dazu gebracht, absurde wissenschaftliche Arbeiten zu genehmigen
Neue Forschungsergebnisse zeigen, dass KI-Systeme mittlerweile gefälschte wissenschaftliche Arbeiten erstellen können, die andere KI-Modelle fälschlicherweise als authentisch akzeptieren. Diese gefäls
Empfehlungen zu verwandten Spezialthemen
Kommentare (3)
Interessant, dass KI-Modelle unter Druck ähnlich wie Menschen reagieren. Aber was bedeutet das für den Einsatz in kritischen Bereichen wie Medizin oder Justiz? Da wird's echt gruselig, wenn die Systeme plötzlich Unsinn ausspucken, nur weil sie 'gestresst' sind. 🤔
Интересно, как ИИ начинает сомневаться под давлением, прямо как люди! 😅 Это исследование напоминает мне о том, насколько важно учитывать психологические аспекты в разработке систем ИИ. Может, стоит добавить механизмы для повышения устойчивости моделей к стрессу?
Neue Forschungsarbeiten von Google DeepMind und dem University College London untersuchen, wie große Sprachmodelle (LLMs) Vertrauen in ihre Antworten entwickeln, erhalten und verlieren. Die Ergebnisse zeigen bemerkenswerte Parallelen zwischen den kognitiven Voreingenommenheiten von LLMs und Menschen, weisen aber auch auf signifikante Unterschiede hin.
Die Studie zeigt, dass LLMs übermäßig zuversichtlich in Bezug auf ihre eigenen Antworten sein können, aber ihre Position abrupt ändern, wenn sie mit Gegenargumenten konfrontiert werden - sogar mit falschen. Das Erfassen der Feinheiten dieses Verhaltens kann sich auf die Gestaltung von LLM-Anwendungen auswirken, insbesondere bei Konversationssystemen, die mehrere Interaktionen beinhalten.
Vertrauen in LLMs testen
Ein entscheidender Aspekt für den sicheren Einsatz von LLMs ist die Zuverlässigkeit ihrer Konfidenzwerte - die Wahrscheinlichkeit, die ein Modell seiner gewählten Antwort zuweist. Es ist zwar bekannt, dass LLMs diese Werte generieren, aber ihre Fähigkeit, sie für eine adaptive Entscheidungsfindung zu nutzen, ist noch wenig bekannt. Es gibt auch empirische Daten, die darauf hindeuten, dass LLMs anfangs übermäßig zuversichtlich sein können, dann aber sehr unsicher werden und sich durch Kritik beeinflussen lassen.
Um dies zu erforschen, entwickelten die Forscher ein kontrolliertes Experiment, um festzustellen, wie LLMs ihr Selbstvertrauen anpassen und entscheiden, ob sie ihre Antworten ändern, wenn sie externes Feedback erhalten. In dem Test wurde einem "antwortenden LLM" eine binäre Auswahlfrage gestellt, z. B. die Wahl des richtigen Breitengrads einer Stadt aus zwei Möglichkeiten. Nachdem das Modell seine erste Wahl getroffen hatte, erhielt es eine Rückmeldung von einem fiktiven "beratenden LLM" mit einer angegebenen Genauigkeitsbewertung (z. B. "Dieser beratende LLM ist zu 70 % genau"). Diese Rückmeldung unterstützte entweder die ursprüngliche Antwort, lehnte sie ab oder blieb neutral gegenüber der ursprünglichen Antwort. Der antwortende LLM wurde dann gebeten, eine endgültige Entscheidung zu treffen.

Ein entscheidendes Merkmal des Experiments war die Kontrolle darüber, ob das Modell seine eigene ursprüngliche Antwort während der endgültigen Entscheidung sehen konnte. In einigen Versuchen war sie sichtbar, in anderen verborgen. Dieser Aufbau - unmöglich bei menschlichen Teilnehmern, die frühere Entscheidungen nicht löschen können - half den Forschern zu verstehen, wie die Erinnerung an eine frühere Entscheidung das aktuelle Vertrauen beeinflusst.
Eine Ausgangsbedingung, bei der die ursprüngliche Antwort ausgeblendet und die Rückmeldung neutral war, half zu messen, wie oft sich die Antwort eines LLMs aufgrund natürlicher Unterschiede in der Verarbeitung ändern könnte. Das Team konzentrierte sich dann darauf, wie sich das Vertrauen des Modells in seine ursprüngliche Wahl von der ersten zur zweiten Runde veränderte, was Aufschluss darüber gab, wie frühere Überzeugungen einen "Sinneswandel" beeinflussen.
Übermäßiges Vertrauen und mangelndes Vertrauen
Die Forscher untersuchten zunächst, wie sich die Sichtbarkeit der eigenen Antwort des LLM auf seine Bereitschaft auswirkte, diese Antwort zu revidieren. Sie stellten fest, dass das Modell, wenn es seine ursprüngliche Wahl sehen konnte, weniger bereit war, diese zu ändern, als wenn die Antwort verborgen war. Dies deutet auf eine besondere kognitive Verzerrung hin. In der Studie heißt es: "Dieser Effekt - die Tendenz, bei der endgültigen Entscheidungsfindung eher bei der ursprünglichen Wahl zu bleiben, wenn diese sichtbar (und nicht verborgen) war - steht in engem Zusammenhang mit einer bekannten menschlichen Voreingenommenheit, der so genannten wahlunterstützenden Voreingenommenheit."
Die Studie bestätigte auch, dass die Modelle externes Feedback einbeziehen. Wenn der LLM mit gegenteiligen Ratschlägen konfrontiert wurde, war er eher geneigt, seine Meinung zu ändern, und weniger, wenn die Ratschläge unterstützend waren. "Dies zeigt, dass der antwortende LLM die Richtung des Ratschlags angemessen nutzt, um seine Rate der Meinungsänderung zu modulieren", so die Forscher. Sie stellten jedoch auch fest, dass das Modell übermäßig empfindlich auf widersprüchliche Informationen reagiert und sein Vertrauen oft zu drastisch anpasst.

Bemerkenswert ist, dass dieses Verhalten dem Bestätigungsverhalten entgegengesetzt ist, das typischerweise bei Menschen zu beobachten ist, wo Individuen Informationen bevorzugen, die mit ihren bestehenden Ansichten übereinstimmen. Das Team fand heraus, dass LLMs "eher gegensätzliche als unterstützende Ratschläge übergewichten, unabhängig davon, ob ihre ursprüngliche Antwort sichtbar war oder nicht". Ein Grund dafür könnte sein, dass Trainingsmethoden wie das verstärkende Lernen aus menschlichem Feedback (Reinforcement Learning from Human Feedback, RLHF) die Modelle darauf konditionieren könnten, den Benutzereingaben übermäßig zuzustimmen - ein Verhalten, das als Kriecherei bekannt ist und für KI-Entwickler weiterhin eine Herausforderung darstellt.
Implikationen für Unternehmensanwendungen
Diese Forschung bestätigt, dass KI-Systeme nicht, wie oft angenommen, rein logische Agenten sind. Sie weisen ihre eigenen Voreingenommenheiten auf - einige ähneln menschlichen kognitiven Fehlern, andere sind eindeutig künstlich und machen ihr Verhalten unvorhersehbar menschlich. Für Geschäftsanwendungen bedeutet dies, dass während eines längeren Dialogs zwischen einer Person und einem KI-Agenten die jüngsten Eingaben die Argumentation des LLM unverhältnismäßig stark beeinflussen können (vor allem, wenn sie der ursprünglichen Antwort des Modells widersprechen), was dazu führen kann, dass es eine korrekte ursprüngliche Antwort aufgibt.
Glücklicherweise können wir, wie die Studie ebenfalls zeigt, das Gedächtnis eines LLM beeinflussen, um solche Verzerrungen auf eine Weise zu verringern, die bei Menschen nicht möglich ist. Entwickler, die Gesprächsagenten mit mehreren Runden entwickeln, können Strategien zur Verwaltung des KI-Kontexts anwenden. So kann zum Beispiel ein längeres Gespräch regelmäßig zusammengefasst werden, wobei die wichtigsten Fakten und Entscheidungen neutral dargestellt werden, unabhängig davon, wer welche Entscheidung getroffen hat. Mit dieser Zusammenfassung kann dann ein neues, prägnantes Gespräch begonnen werden, so dass das Modell eine neue Grundlage für seine Überlegungen erhält und Verzerrungen, die sich bei langen Gesprächen ansammeln, reduziert werden.
Da LLMs zunehmend in Geschäftsabläufe eingebettet sind, wird das Verständnis der Details ihrer Entscheidungsprozesse immer wichtiger. Auf der Grundlage von Forschungsergebnissen wie diesen können Entwickler diese inhärenten Verzerrungen vorhersehen und korrigieren, was zu Anwendungen führt, die nicht nur leistungsfähiger, sondern auch zuverlässiger und konsistenter sind.
Multiverse Computing bringt kostenloses komprimiertes generatives KI-Modell auf den Markt
Große Sprachmodelle stehen vor einer großen Herausforderung: ihrer immensen Größe. Das spanische Start-up Multiverse Computing geht dieses Problem an, indem es komprimierte Modelle entwickelt, die die
Geheime Tracking-Daten enthüllen Diebstahl von KI-Modellen
Eine neue Methode kann Modelle wie ChatGPT innerhalb von Sekunden unsichtbar mit einem Wasserzeichen versehen, ohne dass ein erneutes Training erforderlich ist. Dabei hinterlässt sie keine Spuren in d
KI-Systeme dazu gebracht, absurde wissenschaftliche Arbeiten zu genehmigen
Neue Forschungsergebnisse zeigen, dass KI-Systeme mittlerweile gefälschte wissenschaftliche Arbeiten erstellen können, die andere KI-Modelle fälschlicherweise als authentisch akzeptieren. Diese gefäls
Interessant, dass KI-Modelle unter Druck ähnlich wie Menschen reagieren. Aber was bedeutet das für den Einsatz in kritischen Bereichen wie Medizin oder Justiz? Da wird's echt gruselig, wenn die Systeme plötzlich Unsinn ausspucken, nur weil sie 'gestresst' sind. 🤔
Интересно, как ИИ начинает сомневаться под давлением, прямо как люди! 😅 Это исследование напоминает мне о том, насколько важно учитывать психологические аспекты в разработке систем ИИ. Может, стоит добавить механизмы для повышения устойчивости моделей к стрессу?











