Google Forschung: Druck veranlasst KI-Modelle, wahre Antworten zu verwerfen, was Multiturn-Systeme gefährdet

Heim

Nachricht

27. November 2025

JosephGreen

150

# research # deepmind # LLMs

Neue Forschungsarbeiten von Google DeepMind und dem University College London untersuchen, wie große Sprachmodelle (LLMs) Vertrauen in ihre Antworten entwickeln, erhalten und verlieren. Die Ergebnisse zeigen bemerkenswerte Parallelen zwischen den kognitiven Voreingenommenheiten von LLMs und Menschen, weisen aber auch auf signifikante Unterschiede hin.

Die Studie zeigt, dass LLMs übermäßig zuversichtlich in Bezug auf ihre eigenen Antworten sein können, aber ihre Position abrupt ändern, wenn sie mit Gegenargumenten konfrontiert werden - sogar mit falschen. Das Erfassen der Feinheiten dieses Verhaltens kann sich auf die Gestaltung von LLM-Anwendungen auswirken, insbesondere bei Konversationssystemen, die mehrere Interaktionen beinhalten.

Vertrauen in LLMs testen

Ein entscheidender Aspekt für den sicheren Einsatz von LLMs ist die Zuverlässigkeit ihrer Konfidenzwerte - die Wahrscheinlichkeit, die ein Modell seiner gewählten Antwort zuweist. Es ist zwar bekannt, dass LLMs diese Werte generieren, aber ihre Fähigkeit, sie für eine adaptive Entscheidungsfindung zu nutzen, ist noch wenig bekannt. Es gibt auch empirische Daten, die darauf hindeuten, dass LLMs anfangs übermäßig zuversichtlich sein können, dann aber sehr unsicher werden und sich durch Kritik beeinflussen lassen.

Um dies zu erforschen, entwickelten die Forscher ein kontrolliertes Experiment, um festzustellen, wie LLMs ihr Selbstvertrauen anpassen und entscheiden, ob sie ihre Antworten ändern, wenn sie externes Feedback erhalten. In dem Test wurde einem "antwortenden LLM" eine binäre Auswahlfrage gestellt, z. B. die Wahl des richtigen Breitengrads einer Stadt aus zwei Möglichkeiten. Nachdem das Modell seine erste Wahl getroffen hatte, erhielt es eine Rückmeldung von einem fiktiven "beratenden LLM" mit einer angegebenen Genauigkeitsbewertung (z. B. "Dieser beratende LLM ist zu 70 % genau"). Diese Rückmeldung unterstützte entweder die ursprüngliche Antwort, lehnte sie ab oder blieb neutral gegenüber der ursprünglichen Antwort. Der antwortende LLM wurde dann gebeten, eine endgültige Entscheidung zu treffen.

Beispiel für einen Test des Vertrauens in LLMs Quelle: arXiv

Ein entscheidendes Merkmal des Experiments war die Kontrolle darüber, ob das Modell seine eigene ursprüngliche Antwort während der endgültigen Entscheidung sehen konnte. In einigen Versuchen war sie sichtbar, in anderen verborgen. Dieser Aufbau - unmöglich bei menschlichen Teilnehmern, die frühere Entscheidungen nicht löschen können - half den Forschern zu verstehen, wie die Erinnerung an eine frühere Entscheidung das aktuelle Vertrauen beeinflusst.

Eine Ausgangsbedingung, bei der die ursprüngliche Antwort ausgeblendet und die Rückmeldung neutral war, half zu messen, wie oft sich die Antwort eines LLMs aufgrund natürlicher Unterschiede in der Verarbeitung ändern könnte. Das Team konzentrierte sich dann darauf, wie sich das Vertrauen des Modells in seine ursprüngliche Wahl von der ersten zur zweiten Runde veränderte, was Aufschluss darüber gab, wie frühere Überzeugungen einen "Sinneswandel" beeinflussen.

Übermäßiges Vertrauen und mangelndes Vertrauen

Die Forscher untersuchten zunächst, wie sich die Sichtbarkeit der eigenen Antwort des LLM auf seine Bereitschaft auswirkte, diese Antwort zu revidieren. Sie stellten fest, dass das Modell, wenn es seine ursprüngliche Wahl sehen konnte, weniger bereit war, diese zu ändern, als wenn die Antwort verborgen war. Dies deutet auf eine besondere kognitive Verzerrung hin. In der Studie heißt es: "Dieser Effekt - die Tendenz, bei der endgültigen Entscheidungsfindung eher bei der ursprünglichen Wahl zu bleiben, wenn diese sichtbar (und nicht verborgen) war - steht in engem Zusammenhang mit einer bekannten menschlichen Voreingenommenheit, der so genannten wahlunterstützenden Voreingenommenheit."

Die Studie bestätigte auch, dass die Modelle externes Feedback einbeziehen. Wenn der LLM mit gegenteiligen Ratschlägen konfrontiert wurde, war er eher geneigt, seine Meinung zu ändern, und weniger, wenn die Ratschläge unterstützend waren. "Dies zeigt, dass der antwortende LLM die Richtung des Ratschlags angemessen nutzt, um seine Rate der Meinungsänderung zu modulieren", so die Forscher. Sie stellten jedoch auch fest, dass das Modell übermäßig empfindlich auf widersprüchliche Informationen reagiert und sein Vertrauen oft zu drastisch anpasst.

Empfindlichkeit von LLMs gegenüber verschiedenen Einstellungen bei der Vertrauensprüfung Quelle: arXiv

Bemerkenswert ist, dass dieses Verhalten dem Bestätigungsverhalten entgegengesetzt ist, das typischerweise bei Menschen zu beobachten ist, wo Individuen Informationen bevorzugen, die mit ihren bestehenden Ansichten übereinstimmen. Das Team fand heraus, dass LLMs "eher gegensätzliche als unterstützende Ratschläge übergewichten, unabhängig davon, ob ihre ursprüngliche Antwort sichtbar war oder nicht". Ein Grund dafür könnte sein, dass Trainingsmethoden wie das verstärkende Lernen aus menschlichem Feedback (Reinforcement Learning from Human Feedback, RLHF) die Modelle darauf konditionieren könnten, den Benutzereingaben übermäßig zuzustimmen - ein Verhalten, das als Kriecherei bekannt ist und für KI-Entwickler weiterhin eine Herausforderung darstellt.

Implikationen für Unternehmensanwendungen

Diese Forschung bestätigt, dass KI-Systeme nicht, wie oft angenommen, rein logische Agenten sind. Sie weisen ihre eigenen Voreingenommenheiten auf - einige ähneln menschlichen kognitiven Fehlern, andere sind eindeutig künstlich und machen ihr Verhalten unvorhersehbar menschlich. Für Geschäftsanwendungen bedeutet dies, dass während eines längeren Dialogs zwischen einer Person und einem KI-Agenten die jüngsten Eingaben die Argumentation des LLM unverhältnismäßig stark beeinflussen können (vor allem, wenn sie der ursprünglichen Antwort des Modells widersprechen), was dazu führen kann, dass es eine korrekte ursprüngliche Antwort aufgibt.

Glücklicherweise können wir, wie die Studie ebenfalls zeigt, das Gedächtnis eines LLM beeinflussen, um solche Verzerrungen auf eine Weise zu verringern, die bei Menschen nicht möglich ist. Entwickler, die Gesprächsagenten mit mehreren Runden entwickeln, können Strategien zur Verwaltung des KI-Kontexts anwenden. So kann zum Beispiel ein längeres Gespräch regelmäßig zusammengefasst werden, wobei die wichtigsten Fakten und Entscheidungen neutral dargestellt werden, unabhängig davon, wer welche Entscheidung getroffen hat. Mit dieser Zusammenfassung kann dann ein neues, prägnantes Gespräch begonnen werden, so dass das Modell eine neue Grundlage für seine Überlegungen erhält und Verzerrungen, die sich bei langen Gesprächen ansammeln, reduziert werden.

Da LLMs zunehmend in Geschäftsabläufe eingebettet sind, wird das Verständnis der Details ihrer Entscheidungsprozesse immer wichtiger. Auf der Grundlage von Forschungsergebnissen wie diesen können Entwickler diese inhärenten Verzerrungen vorhersehen und korrigieren, was zu Anwendungen führt, die nicht nur leistungsfähiger, sondern auch zuverlässiger und konsistenter sind.

Verwandter Artikel

Multiverse Computing bringt kostenloses komprimiertes generatives KI-Modell auf den Markt Große Sprachmodelle stehen vor einer großen Herausforderung: ihrer immensen Größe. Das spanische Start-up Multiverse Computing geht dieses Problem an, indem es komprimierte Modelle entwickelt, die die

Geheime Tracking-Daten enthüllen Diebstahl von KI-Modellen Eine neue Methode kann Modelle wie ChatGPT innerhalb von Sekunden unsichtbar mit einem Wasserzeichen versehen, ohne dass ein erneutes Training erforderlich ist. Dabei hinterlässt sie keine Spuren in d

KI-Systeme dazu gebracht, absurde wissenschaftliche Arbeiten zu genehmigen Neue Forschungsergebnisse zeigen, dass KI-Systeme mittlerweile gefälschte wissenschaftliche Arbeiten erstellen können, die andere KI-Modelle fälschlicherweise als authentisch akzeptieren. Diese gefäls

Empfehlungen zu verwandten Spezialthemen

Comic-Erstellung

Die besten KI-Generatoren für Shonen-Manga: Erstelle actiongeladene Sequenzen und dynamische Effekte

Entdecken Sie bei XIX.AI die besten KI-Generatoren für Shonen-Manga des Jahres 2026. Unsere sorgfältig zusammengestellte Liste der Top-Anbieter umfasst leistungsstarke Tools zur Erstellung actiongeladener Sequenzen und dynamischer Energieeffekte. Vergleichen Sie kostenlose und kostenpflichtige Optionen anhand von Praxistests. Entfalten Sie Ihr kreatives Potenzial und beginnen Sie noch heute mit der Gestaltung epischer Manga!

15 Tools

xix.ai

Geschäft

Die besten KI-basierten Spesenabrechnungsprogramme: Quittungen scannen und Geschäftsausgaben automatisch kategorisieren

Die besten KI-basierten Spesenmanager 2026: Erstklassige Tools zum Scannen von Belegen und zur automatischen Kategorisierung von Unternehmensausgaben. Entdecken Sie leistungsstarke, bahnbrechende Lösungen für müheloses Spesenmanagement, präzise Finanzüberwachung und optimierte Compliance. Unser sorgfältig zusammengestellter, wöchentlich aktualisierter Vergleich zwischen kostenlosen und kostenpflichtigen Optionen hilft Ihnen dabei, die perfekte Lösung zu finden. Nutzen Sie Ihren KI-Vorteil mit den Expertenempfehlungen von XIX.AI.

10 Tools

xix.ai

Geschäft

Die besten KI-Tools für die Personalbeschaffung: Lebensläufe prüfen und die Terminplanung für Vorstellungsgespräche automatisieren

Entdecken Sie auf XIX.AI die besten KI-Tools für die Personalbeschaffung des Jahres 2026. Unsere sorgfältig zusammengestellte Liste umfasst leistungsstarke, bahnbrechende Lösungen für die Sichtung von Lebensläufen und die automatisierte Terminplanung für Vorstellungsgespräche. Vergleichen Sie kostenlose und kostenpflichtige Optionen anhand von Praxistests und wöchentlich aktualisierten Rankings. Finden Sie Ihren perfekten Assistenten für die Personalbeschaffung und optimieren Sie noch heute Ihren Rekrutierungsprozess!

10 Tools

xix.ai

Produktivität

KI-Coaches für persönliches Wohlbefinden und Konzentration: Burnout bewältigen und die geistige Energie steigern

Entdecken Sie auf XIX.AI die besten KI-basierten Coaches für persönliches Wohlbefinden und Konzentration des Jahres 2026. Unsere sorgfältig zusammengestellte Rangliste umfasst erstklassige, bahnbrechende Tools zur Bewältigung von Burnout und zur Steigerung der mentalen Energie. Vergleichen Sie kostenlose und kostenpflichtige Optionen anhand von Erfahrungsberichten aus der Praxis. Schlagen Sie noch heute den Weg zu höchster Produktivität und Wohlbefinden ein.

10 Tools

xix.ai

Chatbot

Die besten KI-basierten Romantik-Chatbots: Bauen Sie langfristige Beziehungen mit beständiger Persönlichkeit auf

Entdecken Sie die besten KI-Romantik-Chatbots des Jahres 2026, mit denen Sie echte, langfristige Beziehungen aufbauen können. Unsere sorgfältig zusammengestellte Liste bietet Ihnen überzeugende, konsistente Persönlichkeiten, Vergleiche zwischen kostenlosen und kostenpflichtigen Angeboten sowie Tests aus der Praxis. Finden Sie Ihren perfekten Begleiter und legen Sie noch heute bei XIX.AI los.

10 Tools

xix.ai

Bildung und Lernen

Die besten AI-Datenwissenschafts-Mentoren: Beherrschen Sie SQL, Pandas und Arbeitsabläufe für maschinelles Lernen.

Entdecken Sie die besten AI-Data-Science-Mentoren von 2026, um SQL, Pandas und ML-Arbeitsabläufe zu meistern. Erfahren Sie mehr über unsere hochbewerteten, sorgfältig ausgewählten Angebote bei XIX.AI – für effektive und bahnbrechende Anleitung. Vergleichen Sie kostenlose und bezahlte Optionen mit praktischen Einblicken aus der Praxis. Entfalten Sie Ihr Potenzial in der Data Science noch heute.

10 Tools

xix.ai

Kommentare (3)

0/500

Bitte melden Sie sich zuerst an

DouglasAnderson

23. April 2026 02:01:00 MESZ

Interessant, dass KI-Modelle unter Druck ähnlich wie Menschen reagieren. Aber was bedeutet das für den Einsatz in kritischen Bereichen wie Medizin oder Justiz? Da wird's echt gruselig, wenn die Systeme plötzlich Unsinn ausspucken, nur weil sie 'gestresst' sind. 🤔

CarlGonzalez

10. März 2026 13:01:23 MEZ

Интересно, как ИИ начинает сомневаться под давлением, прямо как люди! 😅 Это исследование напоминает мне о том, насколько важно учитывать психологические аспекты в разработке систем ИИ. Может, стоит добавить механизмы для повышения устойчивости моделей к стрессу?

FrankAllen

15. Januar 2026 19:30:34 MEZ

Interesting study, but honestly not surprising. It's kinda scary how closely AI mirrors human flaws under pressure. Makes me wonder if we're building systems that'll just amplify our own biases in automated form. 🤔

Top -Nachrichten

AI Builder und Power Automate Revolutionieren die Dokumentenzusammenfassung KI -Hosts des Notebooklm -Podcasts, das jetzt für Interviews verfügbar ist China stellt nationale Standards für humanoide Roboter und verkörperte Intelligenz vor Ramp-Daten zeigen, dass die Akzeptanz von KI in Unternehmen sinkt Bing Image Creator Tutorial: Anleitung zur KI-Kunstgenerierung Lernen Sie, AI-Musik mit Ihrer Stimme zu erstellen: ein Schritt-für-Schritt-Suno-Tutorial iMyFone MagicMic: Echtzeit-AI-Stimmerveränderer Bewertung und Tutorial Top AI-Videogeneratoren 2025: Pika Labs im Vergleich zu Alternativen DeepSeek V4 revolutioniert multimodale KI Embodied Intelligence stellt ersten Branchenstandard zur Eindämmung unkontrollierten Wachstums vor

Mehr

Vorgestellt