Heim
Große Sprachmodelle – Fehler während der Konversation decken kritische Schwachstelle der KI auf
Da große Sprachmodelle (LLMs) zunehmend für die Zusammenfassung von Dokumenten, die Analyse von Rechtsfragen und die Überprüfung von Krankenakten eingesetzt werden, ist es von größter Bedeutung, ihre Grenzen zu erkennen. Über bekannte Probleme wie Halluzinationen und Voreingenommenheit hinaus haben Forscher einen gravierenden strukturellen Mangel aufgedeckt: Bei der Analyse langer Texte neigen LLMs dazu, sich auf den Anfang und das Ende zu konzentrieren und dabei wichtige Inhalte in der Mitte zu vernachlässigen.
Dieses „Lost-in-the-Middle”-Phänomen kann die praktische Anwendbarkeit erheblich beeinträchtigen. Beispielsweise könnte eine KI, die einen komplexen Rechtsvertrag zusammenfasst, einen irreführenden Bericht erstellen, wenn sie wichtige Klauseln aus dem Kern des Dokuments auslässt. Im Gesundheitswesen können fehlende zentrale Details aus der Krankengeschichte eines Patienten zu fehlerhaften Beurteilungen führen. Die Ermittlung der Ursache war bisher schwierig, aber aktuelle Forschungsergebnisse liefern klare Erkenntnisse und führen das Problem auf grundlegende Aspekte der Modellarchitektur zurück.
Das „Lost-in-the-Middle“-Problem
Der „Lost-in-the-Middle“-Effekt beschreibt, wie LLMs Informationen, die sich in der Mitte langer Eingabesequenzen befinden, oft weniger Aufmerksamkeit schenken. Dies spiegelt die kognitive Verzerrung des Menschen wider, sich leichter an den ersten und letzten Elementen einer Liste zu erinnern als an denen in der Mitte, was als Primacy- und Recency-Effekt bekannt ist. Für LLMs bedeutet dies eine starke Leistung, wenn wichtige Daten am Anfang oder am Ende eines Textes stehen, und einen deutlichen Rückgang der Genauigkeit, wenn sie in der Mitte positioniert sind, was zu einer „U-förmigen” Leistungskurve führt.
Dies ist nicht nur eine hypothetische Sorge. Es wurde bei verschiedenen Aufgaben dokumentiert, von der Beantwortung von Fragen bis zur Zusammenfassung. Ein LLM antwortet in der Regel korrekt, wenn sich die relevanten Informationen im ersten oder letzten Absatz eines langen Artikels befinden. Befindet sich die Antwort jedoch in den mittleren Abschnitten, sinkt die Genauigkeit drastisch. Dies stellt eine kritische Schwachstelle dar, da diese Modelle bei Aufgaben, die das Verständnis umfangreicher, komplexer Zusammenhänge erfordern, nicht vollständig vertrauenswürdig sind. Es öffnet auch Tür und Tor für Manipulationen, bei denen strategisch platzierte irreführende Informationen am Rand eines Dokuments die Ausgabe der KI verzerren könnten.
Die Architektur von LLMs verstehen
Um zu verstehen, warum LLMs den Mittelteil vergessen, müssen wir ihre zugrunde liegende Struktur untersuchen. Moderne LLMs basieren auf der Transformer-Architektur, die mit ihrem Selbstaufmerksamkeitsmechanismus die KI revolutioniert hat. Durch Selbstaufmerksamkeit kann das Modell bei der Verarbeitung eines bestimmten Wortes die Relevanz aller Wörter in der Eingabe bewerten, was ein nuanciertes Verständnis der kontextuellen Beziehungen ermöglicht, das weit über frühere Modelle hinausgeht.
Positionskodierung ist ein weiteres entscheidendes Element. Da der Selbstaufmerksamkeit ein angeborenes Gespür für die Wortreihenfolge fehlt, werden Positionskodierungen in die Eingabe eingefügt, um das Modell über die Sequenzposition jedes Wortes zu informieren. Ohne diese Kodierungen würde der Text als unstrukturierte Ansammlung von Wörtern wahrgenommen werden. Während Selbstaufmerksamkeit und Positionskodierung zusammen LLMs leistungsstark machen, deuten neue Forschungsergebnisse darauf hin, dass genau diese Interaktion den versteckten blinden Fleck verursacht.
Wie Positionsverzerrungen entstehen
Eine aktuelle Studie verwendet eine neuartige graphbasierte Methode, um dieses Phänomen zu erklären. Durch die Modellierung des Informationsflusses des Transformers als ein Netzwerk aus Knoten (Wörtern) und Kanten (Aufmerksamkeitsverknüpfungen) konnten die Forscher mathematisch nachverfolgen, wie sich Daten aus verschiedenen Positionen durch die Schichten des Modells ausbreiten.
Die Analyse ergab zwei wichtige Erkenntnisse. Erstens führt das in vielen LLMs verwendete kausale Maskieren zu einer inhärenten Verzerrung des Modells in Richtung des Sequenzanfangs. Das kausale Maskieren stellt sicher, dass das Modell bei der Generierung eines Wortes nur die vorangehenden Wörter berücksichtigt, was für eine kohärente Textgenerierung unerlässlich ist. Über mehrere Schichten hinweg verstärkt sich dieser Effekt; die ersten Wörter werden wiederholt verarbeitet, wodurch ihre Darstellungen einen unverhältnismäßig großen Einfluss haben. Folglich werden Wörter in der Mitte immer durch die Linse dieses dominanten frühen Kontexts betrachtet, wodurch ihre eigenen spezifischen Beiträge verwässert werden.
Zweitens untersuchte die Studie, wie Positionskodierungen mit kausaler Maskierung interagieren. Moderne LLMs verwenden häufig relative Positionskodierungen, die eher den Abstand zwischen Wörtern als ihre absolute Position betonen. Dies hilft bei der Verallgemeinerung über Texte unterschiedlicher Länge hinweg. Allerdings entsteht dadurch ein Konflikt: Die kausale Maskierung lenkt den Fokus auf den Anfang, während die relative Kodierung die Konzentration auf den nahegelegenen lokalen Kontext fördert. Das Tauziehen führt dazu, dass das Modell den Anfang des Textes und die unmittelbare Umgebung eines bestimmten Wortes priorisiert. Informationen, die sowohl weit entfernt als auch nicht am Anfang stehen – also in der Mitte des Textes –, erhalten am wenigsten Aufmerksamkeit.
Die weiterreichenden Auswirkungen
Das Problem des „Verlorenseins in der Mitte” hat schwerwiegende Auswirkungen auf Anwendungen, die lange Dokumente verarbeiten. Die Forschung bestätigt, dass das Problem nicht zufällig ist, sondern ein grundlegendes Nebenprodukt des aktuellen Modelldesigns, was bedeutet, dass es nicht durch einfaches Training mit mehr Daten behoben werden kann. Um es zu beheben, muss möglicherweise die Kernarchitektur von Transformer überdacht werden.
Für KI-Entwickler und -Anwender ist dies eine wichtige Warnung. Anwendungen, die sich für Aufgaben mit langem Kontext auf LLMs stützen, müssen diese Einschränkung berücksichtigen. Zu den Strategien zur Risikominderung könnten die Aufteilung von Dokumenten in kleinere Abschnitte oder die Entwicklung von Modellen gehören, die die Aufmerksamkeit explizit auf verschiedene Textabschnitte lenken. Dies unterstreicht auch die Notwendigkeit strenger, längenspezifischer Tests; eine starke Leistung bei kurzen Texten garantiert keine Zuverlässigkeit bei längeren, komplexeren Eingaben.
Fazit
Fortschritte in der KI waren schon immer mit der Identifizierung und Überwindung von Einschränkungen verbunden. Das „Lost-in-the-Middle”-Problem ist ein wesentlicher Mangel großer Sprachmodelle, bei denen Informationen in der Mitte langer Sequenzen durchweg unterbewertet werden. Dies ist auf inhärente Verzerrungen in der Transformer-Architektur zurückzuführen, insbesondere auf das Zusammenspiel zwischen kausaler Maskierung und relativer Positionskodierung. Während LLMs mit Informationen an den Enden eines Textes hervorragende Leistungen erbringen, schwächelt ihre Leistung, wenn wichtige Details in der Mitte liegen. Diese Schwäche kann die Genauigkeit bei Aufgaben wie der Zusammenfassung von Dokumenten und der Beantwortung von Fragen beeinträchtigen, was in Bereichen wie Recht und Medizin schwerwiegende Folgen haben kann. Die Lösung dieses Problems ist für Entwickler und Forscher, die die praktische Zuverlässigkeit von LLMs verbessern wollen, von entscheidender Bedeutung.
Verwandter Artikel
MIT-Startup bekämpft KI-Halluzinationen, indem es Systemen beibringt, Ungewissheit zuzulassen
Die Risiken, die mit KI-Halluzinationen verbunden sind, nehmen zu, da man sich zunehmend auf diese Modelle verlässt, wenn es darum geht, kritische Informationen zu finden und Entscheidungen zu treffen
Neue Technik ermöglicht es Deepseek und anderen Modellen, auf sensible Fragen zu reagieren
Das Entfernen von Voreingenommenheit und Zensur aus Großsprachenmodellen (LLMs) wie Chinas Deepseek ist eine komplexe Herausforderung, die die Aufmerksamkeit der politischen Entscheidungsträger und Geschäftsführer der USA auf sich gezogen hat, die dies als potenzielle nationale Sicherheitsbedrohung ansehen. Ein aktueller Bericht eines US -Kongressauswahlausschusses als Deeps bezeichnet
Der KI-Browser Comet startet mit vollständiger Multitasking-Unterstützung auf dem iPad
Der KI-Browser „Comet“ von Perplexity hat offiziell seine iPad-Version veröffentlicht, die nun vollständig mit iPadOS kompatibel ist. Das Update bietet nun das Surfen in mehreren Fenstern, Multitaskin
Empfehlungen zu verwandten Spezialthemen
Kommentare (0)
Da große Sprachmodelle (LLMs) zunehmend für die Zusammenfassung von Dokumenten, die Analyse von Rechtsfragen und die Überprüfung von Krankenakten eingesetzt werden, ist es von größter Bedeutung, ihre Grenzen zu erkennen. Über bekannte Probleme wie Halluzinationen und Voreingenommenheit hinaus haben Forscher einen gravierenden strukturellen Mangel aufgedeckt: Bei der Analyse langer Texte neigen LLMs dazu, sich auf den Anfang und das Ende zu konzentrieren und dabei wichtige Inhalte in der Mitte zu vernachlässigen.
Dieses „Lost-in-the-Middle”-Phänomen kann die praktische Anwendbarkeit erheblich beeinträchtigen. Beispielsweise könnte eine KI, die einen komplexen Rechtsvertrag zusammenfasst, einen irreführenden Bericht erstellen, wenn sie wichtige Klauseln aus dem Kern des Dokuments auslässt. Im Gesundheitswesen können fehlende zentrale Details aus der Krankengeschichte eines Patienten zu fehlerhaften Beurteilungen führen. Die Ermittlung der Ursache war bisher schwierig, aber aktuelle Forschungsergebnisse liefern klare Erkenntnisse und führen das Problem auf grundlegende Aspekte der Modellarchitektur zurück.
Das „Lost-in-the-Middle“-Problem
Der „Lost-in-the-Middle“-Effekt beschreibt, wie LLMs Informationen, die sich in der Mitte langer Eingabesequenzen befinden, oft weniger Aufmerksamkeit schenken. Dies spiegelt die kognitive Verzerrung des Menschen wider, sich leichter an den ersten und letzten Elementen einer Liste zu erinnern als an denen in der Mitte, was als Primacy- und Recency-Effekt bekannt ist. Für LLMs bedeutet dies eine starke Leistung, wenn wichtige Daten am Anfang oder am Ende eines Textes stehen, und einen deutlichen Rückgang der Genauigkeit, wenn sie in der Mitte positioniert sind, was zu einer „U-förmigen” Leistungskurve führt.
Dies ist nicht nur eine hypothetische Sorge. Es wurde bei verschiedenen Aufgaben dokumentiert, von der Beantwortung von Fragen bis zur Zusammenfassung. Ein LLM antwortet in der Regel korrekt, wenn sich die relevanten Informationen im ersten oder letzten Absatz eines langen Artikels befinden. Befindet sich die Antwort jedoch in den mittleren Abschnitten, sinkt die Genauigkeit drastisch. Dies stellt eine kritische Schwachstelle dar, da diese Modelle bei Aufgaben, die das Verständnis umfangreicher, komplexer Zusammenhänge erfordern, nicht vollständig vertrauenswürdig sind. Es öffnet auch Tür und Tor für Manipulationen, bei denen strategisch platzierte irreführende Informationen am Rand eines Dokuments die Ausgabe der KI verzerren könnten.
Die Architektur von LLMs verstehen
Um zu verstehen, warum LLMs den Mittelteil vergessen, müssen wir ihre zugrunde liegende Struktur untersuchen. Moderne LLMs basieren auf der Transformer-Architektur, die mit ihrem Selbstaufmerksamkeitsmechanismus die KI revolutioniert hat. Durch Selbstaufmerksamkeit kann das Modell bei der Verarbeitung eines bestimmten Wortes die Relevanz aller Wörter in der Eingabe bewerten, was ein nuanciertes Verständnis der kontextuellen Beziehungen ermöglicht, das weit über frühere Modelle hinausgeht.
Positionskodierung ist ein weiteres entscheidendes Element. Da der Selbstaufmerksamkeit ein angeborenes Gespür für die Wortreihenfolge fehlt, werden Positionskodierungen in die Eingabe eingefügt, um das Modell über die Sequenzposition jedes Wortes zu informieren. Ohne diese Kodierungen würde der Text als unstrukturierte Ansammlung von Wörtern wahrgenommen werden. Während Selbstaufmerksamkeit und Positionskodierung zusammen LLMs leistungsstark machen, deuten neue Forschungsergebnisse darauf hin, dass genau diese Interaktion den versteckten blinden Fleck verursacht.
Wie Positionsverzerrungen entstehen
Eine aktuelle Studie verwendet eine neuartige graphbasierte Methode, um dieses Phänomen zu erklären. Durch die Modellierung des Informationsflusses des Transformers als ein Netzwerk aus Knoten (Wörtern) und Kanten (Aufmerksamkeitsverknüpfungen) konnten die Forscher mathematisch nachverfolgen, wie sich Daten aus verschiedenen Positionen durch die Schichten des Modells ausbreiten.
Die Analyse ergab zwei wichtige Erkenntnisse. Erstens führt das in vielen LLMs verwendete kausale Maskieren zu einer inhärenten Verzerrung des Modells in Richtung des Sequenzanfangs. Das kausale Maskieren stellt sicher, dass das Modell bei der Generierung eines Wortes nur die vorangehenden Wörter berücksichtigt, was für eine kohärente Textgenerierung unerlässlich ist. Über mehrere Schichten hinweg verstärkt sich dieser Effekt; die ersten Wörter werden wiederholt verarbeitet, wodurch ihre Darstellungen einen unverhältnismäßig großen Einfluss haben. Folglich werden Wörter in der Mitte immer durch die Linse dieses dominanten frühen Kontexts betrachtet, wodurch ihre eigenen spezifischen Beiträge verwässert werden.
Zweitens untersuchte die Studie, wie Positionskodierungen mit kausaler Maskierung interagieren. Moderne LLMs verwenden häufig relative Positionskodierungen, die eher den Abstand zwischen Wörtern als ihre absolute Position betonen. Dies hilft bei der Verallgemeinerung über Texte unterschiedlicher Länge hinweg. Allerdings entsteht dadurch ein Konflikt: Die kausale Maskierung lenkt den Fokus auf den Anfang, während die relative Kodierung die Konzentration auf den nahegelegenen lokalen Kontext fördert. Das Tauziehen führt dazu, dass das Modell den Anfang des Textes und die unmittelbare Umgebung eines bestimmten Wortes priorisiert. Informationen, die sowohl weit entfernt als auch nicht am Anfang stehen – also in der Mitte des Textes –, erhalten am wenigsten Aufmerksamkeit.
Die weiterreichenden Auswirkungen
Das Problem des „Verlorenseins in der Mitte” hat schwerwiegende Auswirkungen auf Anwendungen, die lange Dokumente verarbeiten. Die Forschung bestätigt, dass das Problem nicht zufällig ist, sondern ein grundlegendes Nebenprodukt des aktuellen Modelldesigns, was bedeutet, dass es nicht durch einfaches Training mit mehr Daten behoben werden kann. Um es zu beheben, muss möglicherweise die Kernarchitektur von Transformer überdacht werden.
Für KI-Entwickler und -Anwender ist dies eine wichtige Warnung. Anwendungen, die sich für Aufgaben mit langem Kontext auf LLMs stützen, müssen diese Einschränkung berücksichtigen. Zu den Strategien zur Risikominderung könnten die Aufteilung von Dokumenten in kleinere Abschnitte oder die Entwicklung von Modellen gehören, die die Aufmerksamkeit explizit auf verschiedene Textabschnitte lenken. Dies unterstreicht auch die Notwendigkeit strenger, längenspezifischer Tests; eine starke Leistung bei kurzen Texten garantiert keine Zuverlässigkeit bei längeren, komplexeren Eingaben.
Fazit
Fortschritte in der KI waren schon immer mit der Identifizierung und Überwindung von Einschränkungen verbunden. Das „Lost-in-the-Middle”-Problem ist ein wesentlicher Mangel großer Sprachmodelle, bei denen Informationen in der Mitte langer Sequenzen durchweg unterbewertet werden. Dies ist auf inhärente Verzerrungen in der Transformer-Architektur zurückzuführen, insbesondere auf das Zusammenspiel zwischen kausaler Maskierung und relativer Positionskodierung. Während LLMs mit Informationen an den Enden eines Textes hervorragende Leistungen erbringen, schwächelt ihre Leistung, wenn wichtige Details in der Mitte liegen. Diese Schwäche kann die Genauigkeit bei Aufgaben wie der Zusammenfassung von Dokumenten und der Beantwortung von Fragen beeinträchtigen, was in Bereichen wie Recht und Medizin schwerwiegende Folgen haben kann. Die Lösung dieses Problems ist für Entwickler und Forscher, die die praktische Zuverlässigkeit von LLMs verbessern wollen, von entscheidender Bedeutung.
Neue Technik ermöglicht es Deepseek und anderen Modellen, auf sensible Fragen zu reagieren
Das Entfernen von Voreingenommenheit und Zensur aus Großsprachenmodellen (LLMs) wie Chinas Deepseek ist eine komplexe Herausforderung, die die Aufmerksamkeit der politischen Entscheidungsträger und Geschäftsführer der USA auf sich gezogen hat, die dies als potenzielle nationale Sicherheitsbedrohung ansehen. Ein aktueller Bericht eines US -Kongressauswahlausschusses als Deeps bezeichnet
Der KI-Browser Comet startet mit vollständiger Multitasking-Unterstützung auf dem iPad
Der KI-Browser „Comet“ von Perplexity hat offiziell seine iPad-Version veröffentlicht, die nun vollständig mit iPadOS kompatibel ist. Das Update bietet nun das Surfen in mehreren Fenstern, Multitaskin











