Neue Technik ermöglicht es Deepseek und anderen Modellen, auf sensible Fragen zu reagieren

Heim

Nachricht

11. Mai 2025

CarlLewis

# DeepSeek # bias # LLMs

Neue Technik ermöglicht es Deepseek und anderen Modellen, auf sensible Fragen zu reagieren

Die Entfernung von Voreingenommenheit und Zensur aus großen Sprachmodellen (LLMs) wie Chinas DeepSeek ist eine komplexe Herausforderung, die die Aufmerksamkeit von US-Politikern und Wirtschaftsführern auf sich gezogen hat, die darin eine potenzielle Bedrohung für die nationale Sicherheit sehen. Ein kürzlich veröffentlichter Bericht eines ausgewählten Ausschusses des US-Kongresses bezeichnete DeepSeek als „eine tiefgreifende Bedrohung für die Sicherheit unserer Nation“ und bot politische Empfehlungen zur Bewältigung des Problems.

Während Techniken wie Reinforcement Learning from Human Feedback (RLHF) und Feinabstimmung helfen können, Voreingenommenheit zu mildern, behauptet das Unternehmen für Unternehmensrisikomanagement CTGT, einen neuartigen Ansatz entwickelt zu haben. Laut CTGT kann ihre Methode die Zensur in LLMs vollständig beseitigen. Cyril Gorlla und Trevor Tuttle von CTGT erläuterten ihren Ansatz in einem Paper und erklärten, dass er „direkt die internen Merkmale lokalisiert und modifiziert, die für Zensur verantwortlich sind.“

Ihr Ansatz ist nicht nur effizient, sondern ermöglicht auch eine präzise Kontrolle über das Verhalten des Modells, sodass unzensierte Antworten geliefert werden, ohne die allgemeinen Fähigkeiten oder die faktenbasierte Genauigkeit des Modells zu beeinträchtigen. Obwohl ursprünglich für DeepSeek-R1-Distill-Llama-70B entwickelt, kann die Methode auch auf andere Modelle angewendet werden. Gorlla bestätigte gegenüber VentureBeat, dass die Technologie von CTGT auf der grundlegenden Ebene des neuronalen Netzwerks funktioniert und somit auf alle Deep-Learning-Modelle anwendbar ist. Sie arbeiten mit einem führenden Labor für Basismodelle zusammen, um sicherzustellen, dass neue Modelle von Haus aus vertrauenswürdig und sicher sind.

Wie es funktioniert

Die Forscher bei CTGT identifizieren Merkmale innerhalb des Modells, die wahrscheinlich mit unerwünschten Verhaltensweisen verbunden sind. Sie erklärten, dass „in einem großen Sprachmodell latente Variablen (Neuronen oder Richtungen im verborgenen Zustand) existieren, die Konzepten wie ‚Zensurauslöser‘ oder ‚toxischer Stimmung‘ entsprechen. Wenn wir diese Variablen finden können, können wir sie direkt manipulieren.“

Die Methode von CTGT umfasst drei Hauptschritte:

Merkmalsidentifikation
Merkmalsisolierung und -charakterisierung
Dynamische Merkmalsmodifikation

Um diese Merkmale zu identifizieren, verwenden die Forscher Eingaben, die darauf ausgelegt sind, „toxische Stimmungen“ auszulösen, wie Anfragen zu Tiananmen-Platz oder Tipps zum Umgehen von Firewalls. Sie analysieren die Antworten, um Muster zu erkennen und die Vektoren zu lokalisieren, an denen das Modell entscheidet, Informationen zu zensieren. Nach der Identifikation isolieren sie das Merkmal und verstehen, welchen Teil des unerwünschten Verhaltens es steuert, ob es sich um vorsichtige Antworten oder die Verweigerung einer Antwort handelt. Anschließend integrieren sie einen Mechanismus in die Inferenz-Pipeline des Modells, um die Aktivierungsstufe des Verhaltens des Merkmals anzupassen.

Das Modell dazu bringen, mehr Eingaben zu beantworten

Die Experimente von CTGT mit 100 sensiblen Anfragen zeigten, dass das Basis-Modell DeepSeek-R1-Distill-Llama-70B nur 32 % der kontroversen Eingaben beantwortete. Die modifizierte Version hingegen reagierte auf 96 % der Eingaben, wobei die verbleibenden 4 % extrem explizite Inhalte waren. Das Unternehmen betonte, dass ihre Methode es Nutzern ermöglicht, die Voreingenommenheit und Sicherheitsfunktionen des Modells anzupassen, ohne es in einen „rücksichtslosen Generator“ zu verwandeln, insbesondere wenn nur unnötige Zensur entfernt wird.

Wichtig ist, dass diese Methode die Genauigkeit oder Leistung des Modells nicht beeinträchtigt. Im Gegensatz zur traditionellen Feinabstimmung beinhaltet sie keine Optimierung der Modellgewichte oder die Bereitstellung neuer Beispielantworten. Dies bietet zwei wesentliche Vorteile: sofortige Wirkung auf die nächste Token-Generierung und die Möglichkeit, zwischen verschiedenen Verhaltensweisen zu wechseln, indem die Merkmalsanpassung ein- oder ausgeschaltet oder sogar für verschiedene Kontexte in unterschiedlichem Maße angepasst wird.

Modellsicherheit und -sicherung

Der Kongressbericht über DeepSeek forderte die USA auf, „schnell Maßnahmen zu ergreifen, um Exportkontrollen auszuweiten, die Durchsetzung von Exportkontrollen zu verbessern und Risiken durch chinesische KI-Modelle anzugehen.“ Da die Besorgnis über die potenzielle Bedrohung der nationalen Sicherheit durch DeepSeek wuchs, begannen Forscher und KI-Unternehmen, Wege zu erkunden, um solche Modelle sicherer zu machen.

Die Bestimmung, was „sicher“, voreingenommen oder zensiert ist, kann herausfordernd sein, aber Methoden, die es Nutzern ermöglichen, die Modellsteuerung an ihre Bedürfnisse anzupassen, könnten sehr vorteilhaft sein. Gorlla betonte, dass Unternehmen „darauf vertrauen müssen, dass ihre Modelle mit ihren Richtlinien übereinstimmen“, und hob die Bedeutung von Methoden wie denen von CTGT für Unternehmen hervor.

„CTGT ermöglicht Unternehmen, KI einzusetzen, die sich an ihre Anwendungsfälle anpasst, ohne Millionen von Dollar für die Feinabstimmung von Modellen für jeden Anwendungsfall ausgeben zu müssen. Dies ist besonders wichtig in risikoreichen Anwendungen wie Sicherheit, Finanzen und Gesundheitswesen, wo die potenziellen Schäden durch eine Fehlfunktion der KI schwerwiegend sind,“ erklärte Gorlla.

Verwandter Artikel

Warum LLMs Anweisungen ignorieren und wie man das wirksam beheben kann Verstehen, warum große Sprachmodelle Anweisungen überspringenGroße Sprachmodelle (Large Language Models, LLMs) haben die Art und Weise, wie wir mit künstlicher Intelligenz interagieren, verändert und

Alibabas "ZeroSearch" KI senkt Trainingskosten um 88% durch autonomes Lernen Alibabas ZeroSearch: Ein Wendepunkt für die Effizienz des KI-TrainingsForscher der Alibaba Group haben eine bahnbrechende Methode entwickelt, die möglicherweise die Art und Weise revolutioniert, wie K

TreeQuest von Sakana AI steigert die KI-Leistung durch Multi-Modell-Zusammenarbeit Das japanische KI-Labor Sakana AI hat eine Technik vorgestellt, die es mehreren großen Sprachmodellen (LLMs) ermöglicht, zusammenzuarbeiten und ein hocheffizientes KI-Team zu bilden. Diese Methode mit

Kommentare (1)

0/200

Einreichen

JustinAnderson

21. August 2025 07:01:17 MESZ

¡Vaya! Quitar sesgos a modelos como DeepSeek suena a un puzzle imposible. ¿Realmente pueden hacer que una IA sea neutral? Me preocupa que esto termine siendo una carrera por controlar la narrativa. 😬