Heim
Neue Technik ermöglicht es Deepseek und anderen Modellen, auf sensible Fragen zu reagieren

Die Entfernung von Voreingenommenheit und Zensur aus großen Sprachmodellen (LLMs) wie Chinas DeepSeek ist eine komplexe Herausforderung, die die Aufmerksamkeit von US-Politikern und Wirtschaftsführern auf sich gezogen hat, die darin eine potenzielle Bedrohung für die nationale Sicherheit sehen. Ein kürzlich veröffentlichter Bericht eines ausgewählten Ausschusses des US-Kongresses bezeichnete DeepSeek als „eine tiefgreifende Bedrohung für die Sicherheit unserer Nation“ und bot politische Empfehlungen zur Bewältigung des Problems.
Während Techniken wie Reinforcement Learning from Human Feedback (RLHF) und Feinabstimmung helfen können, Voreingenommenheit zu mildern, behauptet das Unternehmen für Unternehmensrisikomanagement CTGT, einen neuartigen Ansatz entwickelt zu haben. Laut CTGT kann ihre Methode die Zensur in LLMs vollständig beseitigen. Cyril Gorlla und Trevor Tuttle von CTGT erläuterten ihren Ansatz in einem Paper und erklärten, dass er „direkt die internen Merkmale lokalisiert und modifiziert, die für Zensur verantwortlich sind.“
Ihr Ansatz ist nicht nur effizient, sondern ermöglicht auch eine präzise Kontrolle über das Verhalten des Modells, sodass unzensierte Antworten geliefert werden, ohne die allgemeinen Fähigkeiten oder die faktenbasierte Genauigkeit des Modells zu beeinträchtigen. Obwohl ursprünglich für DeepSeek-R1-Distill-Llama-70B entwickelt, kann die Methode auch auf andere Modelle angewendet werden. Gorlla bestätigte gegenüber VentureBeat, dass die Technologie von CTGT auf der grundlegenden Ebene des neuronalen Netzwerks funktioniert und somit auf alle Deep-Learning-Modelle anwendbar ist. Sie arbeiten mit einem führenden Labor für Basismodelle zusammen, um sicherzustellen, dass neue Modelle von Haus aus vertrauenswürdig und sicher sind.
Wie es funktioniert
Die Forscher bei CTGT identifizieren Merkmale innerhalb des Modells, die wahrscheinlich mit unerwünschten Verhaltensweisen verbunden sind. Sie erklärten, dass „in einem großen Sprachmodell latente Variablen (Neuronen oder Richtungen im verborgenen Zustand) existieren, die Konzepten wie ‚Zensurauslöser‘ oder ‚toxischer Stimmung‘ entsprechen. Wenn wir diese Variablen finden können, können wir sie direkt manipulieren.“
Die Methode von CTGT umfasst drei Hauptschritte:
- Merkmalsidentifikation
- Merkmalsisolierung und -charakterisierung
- Dynamische Merkmalsmodifikation
Um diese Merkmale zu identifizieren, verwenden die Forscher Eingaben, die darauf ausgelegt sind, „toxische Stimmungen“ auszulösen, wie Anfragen zu Tiananmen-Platz oder Tipps zum Umgehen von Firewalls. Sie analysieren die Antworten, um Muster zu erkennen und die Vektoren zu lokalisieren, an denen das Modell entscheidet, Informationen zu zensieren. Nach der Identifikation isolieren sie das Merkmal und verstehen, welchen Teil des unerwünschten Verhaltens es steuert, ob es sich um vorsichtige Antworten oder die Verweigerung einer Antwort handelt. Anschließend integrieren sie einen Mechanismus in die Inferenz-Pipeline des Modells, um die Aktivierungsstufe des Verhaltens des Merkmals anzupassen.
Das Modell dazu bringen, mehr Eingaben zu beantworten
Die Experimente von CTGT mit 100 sensiblen Anfragen zeigten, dass das Basis-Modell DeepSeek-R1-Distill-Llama-70B nur 32 % der kontroversen Eingaben beantwortete. Die modifizierte Version hingegen reagierte auf 96 % der Eingaben, wobei die verbleibenden 4 % extrem explizite Inhalte waren. Das Unternehmen betonte, dass ihre Methode es Nutzern ermöglicht, die Voreingenommenheit und Sicherheitsfunktionen des Modells anzupassen, ohne es in einen „rücksichtslosen Generator“ zu verwandeln, insbesondere wenn nur unnötige Zensur entfernt wird.
Wichtig ist, dass diese Methode die Genauigkeit oder Leistung des Modells nicht beeinträchtigt. Im Gegensatz zur traditionellen Feinabstimmung beinhaltet sie keine Optimierung der Modellgewichte oder die Bereitstellung neuer Beispielantworten. Dies bietet zwei wesentliche Vorteile: sofortige Wirkung auf die nächste Token-Generierung und die Möglichkeit, zwischen verschiedenen Verhaltensweisen zu wechseln, indem die Merkmalsanpassung ein- oder ausgeschaltet oder sogar für verschiedene Kontexte in unterschiedlichem Maße angepasst wird.
Modellsicherheit und -sicherung
Der Kongressbericht über DeepSeek forderte die USA auf, „schnell Maßnahmen zu ergreifen, um Exportkontrollen auszuweiten, die Durchsetzung von Exportkontrollen zu verbessern und Risiken durch chinesische KI-Modelle anzugehen.“ Da die Besorgnis über die potenzielle Bedrohung der nationalen Sicherheit durch DeepSeek wuchs, begannen Forscher und KI-Unternehmen, Wege zu erkunden, um solche Modelle sicherer zu machen.
Die Bestimmung, was „sicher“, voreingenommen oder zensiert ist, kann herausfordernd sein, aber Methoden, die es Nutzern ermöglichen, die Modellsteuerung an ihre Bedürfnisse anzupassen, könnten sehr vorteilhaft sein. Gorlla betonte, dass Unternehmen „darauf vertrauen müssen, dass ihre Modelle mit ihren Richtlinien übereinstimmen“, und hob die Bedeutung von Methoden wie denen von CTGT für Unternehmen hervor.
„CTGT ermöglicht Unternehmen, KI einzusetzen, die sich an ihre Anwendungsfälle anpasst, ohne Millionen von Dollar für die Feinabstimmung von Modellen für jeden Anwendungsfall ausgeben zu müssen. Dies ist besonders wichtig in risikoreichen Anwendungen wie Sicherheit, Finanzen und Gesundheitswesen, wo die potenziellen Schäden durch eine Fehlfunktion der KI schwerwiegend sind,“ erklärte Gorlla.
Verwandter Artikel
DeepSeek stellt ein KI-Modell vor, das mit den Systemen von Frontier konkurriert
Das chinesische KI-Labor DeepSeek hat zwei Vorschauversionen seines neuesten großen Sprachmodells, DeepSeek V4, veröffentlicht – ein mit Spannung erwartetes Update des letztjährigen Modells V3.2 und d
Multiverse Computing bringt kostenloses komprimiertes generatives KI-Modell auf den Markt
Große Sprachmodelle stehen vor einer großen Herausforderung: ihrer immensen Größe. Das spanische Start-up Multiverse Computing geht dieses Problem an, indem es komprimierte Modelle entwickelt, die die
Geheime Tracking-Daten enthüllen Diebstahl von KI-Modellen
Eine neue Methode kann Modelle wie ChatGPT innerhalb von Sekunden unsichtbar mit einem Wasserzeichen versehen, ohne dass ein erneutes Training erforderlich ist. Dabei hinterlässt sie keine Spuren in d
Empfehlungen zu verwandten Spezialthemen
Kommentare (4)
É impressionante a rapidez com que questões de 'segurança nacional' aparecem quando se fala de inovações vindas de outros países. Este relatório sobre o DeepSeek soa mais como justificativa para manter uma vantagem tecnológica do que uma genuína preocupação ética. Já parou para pensar se a 'neutralidade' que buscam não é apenas uma forma de censura disfarçada? 🤔 A corrida pela IA está mesmo acirrada.
この記事を読んで、AIのバイアス除去って本当に可能なのかな?技術的には興味深いけど、各国の規制や価値観の違いを考えると、完全に中立なAIを作るのは無理なんじゃないかって思う。DeepSeekが米国で国家安全保障上の脅威と見なされているって…地政学的な要素が技術開発にこんなに影響するなんて。🤔
この手法、完全にセンシティブなクエリに対して何でも返信し始めたら怖くない? 倫理的なライン越えてる気がするけど、政治的な発言の規制が緩和されるのは歓迎かも🤔 でもAIが中立を装いながら偏った情報を流す可能性も…

Die Entfernung von Voreingenommenheit und Zensur aus großen Sprachmodellen (LLMs) wie Chinas DeepSeek ist eine komplexe Herausforderung, die die Aufmerksamkeit von US-Politikern und Wirtschaftsführern auf sich gezogen hat, die darin eine potenzielle Bedrohung für die nationale Sicherheit sehen. Ein kürzlich veröffentlichter Bericht eines ausgewählten Ausschusses des US-Kongresses bezeichnete DeepSeek als „eine tiefgreifende Bedrohung für die Sicherheit unserer Nation“ und bot politische Empfehlungen zur Bewältigung des Problems.
Während Techniken wie Reinforcement Learning from Human Feedback (RLHF) und Feinabstimmung helfen können, Voreingenommenheit zu mildern, behauptet das Unternehmen für Unternehmensrisikomanagement CTGT, einen neuartigen Ansatz entwickelt zu haben. Laut CTGT kann ihre Methode die Zensur in LLMs vollständig beseitigen. Cyril Gorlla und Trevor Tuttle von CTGT erläuterten ihren Ansatz in einem Paper und erklärten, dass er „direkt die internen Merkmale lokalisiert und modifiziert, die für Zensur verantwortlich sind.“
Ihr Ansatz ist nicht nur effizient, sondern ermöglicht auch eine präzise Kontrolle über das Verhalten des Modells, sodass unzensierte Antworten geliefert werden, ohne die allgemeinen Fähigkeiten oder die faktenbasierte Genauigkeit des Modells zu beeinträchtigen. Obwohl ursprünglich für DeepSeek-R1-Distill-Llama-70B entwickelt, kann die Methode auch auf andere Modelle angewendet werden. Gorlla bestätigte gegenüber VentureBeat, dass die Technologie von CTGT auf der grundlegenden Ebene des neuronalen Netzwerks funktioniert und somit auf alle Deep-Learning-Modelle anwendbar ist. Sie arbeiten mit einem führenden Labor für Basismodelle zusammen, um sicherzustellen, dass neue Modelle von Haus aus vertrauenswürdig und sicher sind.
Wie es funktioniert
Die Forscher bei CTGT identifizieren Merkmale innerhalb des Modells, die wahrscheinlich mit unerwünschten Verhaltensweisen verbunden sind. Sie erklärten, dass „in einem großen Sprachmodell latente Variablen (Neuronen oder Richtungen im verborgenen Zustand) existieren, die Konzepten wie ‚Zensurauslöser‘ oder ‚toxischer Stimmung‘ entsprechen. Wenn wir diese Variablen finden können, können wir sie direkt manipulieren.“
Die Methode von CTGT umfasst drei Hauptschritte:
- Merkmalsidentifikation
- Merkmalsisolierung und -charakterisierung
- Dynamische Merkmalsmodifikation
Um diese Merkmale zu identifizieren, verwenden die Forscher Eingaben, die darauf ausgelegt sind, „toxische Stimmungen“ auszulösen, wie Anfragen zu Tiananmen-Platz oder Tipps zum Umgehen von Firewalls. Sie analysieren die Antworten, um Muster zu erkennen und die Vektoren zu lokalisieren, an denen das Modell entscheidet, Informationen zu zensieren. Nach der Identifikation isolieren sie das Merkmal und verstehen, welchen Teil des unerwünschten Verhaltens es steuert, ob es sich um vorsichtige Antworten oder die Verweigerung einer Antwort handelt. Anschließend integrieren sie einen Mechanismus in die Inferenz-Pipeline des Modells, um die Aktivierungsstufe des Verhaltens des Merkmals anzupassen.
Das Modell dazu bringen, mehr Eingaben zu beantworten
Die Experimente von CTGT mit 100 sensiblen Anfragen zeigten, dass das Basis-Modell DeepSeek-R1-Distill-Llama-70B nur 32 % der kontroversen Eingaben beantwortete. Die modifizierte Version hingegen reagierte auf 96 % der Eingaben, wobei die verbleibenden 4 % extrem explizite Inhalte waren. Das Unternehmen betonte, dass ihre Methode es Nutzern ermöglicht, die Voreingenommenheit und Sicherheitsfunktionen des Modells anzupassen, ohne es in einen „rücksichtslosen Generator“ zu verwandeln, insbesondere wenn nur unnötige Zensur entfernt wird.
Wichtig ist, dass diese Methode die Genauigkeit oder Leistung des Modells nicht beeinträchtigt. Im Gegensatz zur traditionellen Feinabstimmung beinhaltet sie keine Optimierung der Modellgewichte oder die Bereitstellung neuer Beispielantworten. Dies bietet zwei wesentliche Vorteile: sofortige Wirkung auf die nächste Token-Generierung und die Möglichkeit, zwischen verschiedenen Verhaltensweisen zu wechseln, indem die Merkmalsanpassung ein- oder ausgeschaltet oder sogar für verschiedene Kontexte in unterschiedlichem Maße angepasst wird.
Modellsicherheit und -sicherung
Der Kongressbericht über DeepSeek forderte die USA auf, „schnell Maßnahmen zu ergreifen, um Exportkontrollen auszuweiten, die Durchsetzung von Exportkontrollen zu verbessern und Risiken durch chinesische KI-Modelle anzugehen.“ Da die Besorgnis über die potenzielle Bedrohung der nationalen Sicherheit durch DeepSeek wuchs, begannen Forscher und KI-Unternehmen, Wege zu erkunden, um solche Modelle sicherer zu machen.
Die Bestimmung, was „sicher“, voreingenommen oder zensiert ist, kann herausfordernd sein, aber Methoden, die es Nutzern ermöglichen, die Modellsteuerung an ihre Bedürfnisse anzupassen, könnten sehr vorteilhaft sein. Gorlla betonte, dass Unternehmen „darauf vertrauen müssen, dass ihre Modelle mit ihren Richtlinien übereinstimmen“, und hob die Bedeutung von Methoden wie denen von CTGT für Unternehmen hervor.
„CTGT ermöglicht Unternehmen, KI einzusetzen, die sich an ihre Anwendungsfälle anpasst, ohne Millionen von Dollar für die Feinabstimmung von Modellen für jeden Anwendungsfall ausgeben zu müssen. Dies ist besonders wichtig in risikoreichen Anwendungen wie Sicherheit, Finanzen und Gesundheitswesen, wo die potenziellen Schäden durch eine Fehlfunktion der KI schwerwiegend sind,“ erklärte Gorlla.
DeepSeek stellt ein KI-Modell vor, das mit den Systemen von Frontier konkurriert
Das chinesische KI-Labor DeepSeek hat zwei Vorschauversionen seines neuesten großen Sprachmodells, DeepSeek V4, veröffentlicht – ein mit Spannung erwartetes Update des letztjährigen Modells V3.2 und d
Multiverse Computing bringt kostenloses komprimiertes generatives KI-Modell auf den Markt
Große Sprachmodelle stehen vor einer großen Herausforderung: ihrer immensen Größe. Das spanische Start-up Multiverse Computing geht dieses Problem an, indem es komprimierte Modelle entwickelt, die die
Geheime Tracking-Daten enthüllen Diebstahl von KI-Modellen
Eine neue Methode kann Modelle wie ChatGPT innerhalb von Sekunden unsichtbar mit einem Wasserzeichen versehen, ohne dass ein erneutes Training erforderlich ist. Dabei hinterlässt sie keine Spuren in d
É impressionante a rapidez com que questões de 'segurança nacional' aparecem quando se fala de inovações vindas de outros países. Este relatório sobre o DeepSeek soa mais como justificativa para manter uma vantagem tecnológica do que uma genuína preocupação ética. Já parou para pensar se a 'neutralidade' que buscam não é apenas uma forma de censura disfarçada? 🤔 A corrida pela IA está mesmo acirrada.
この記事を読んで、AIのバイアス除去って本当に可能なのかな?技術的には興味深いけど、各国の規制や価値観の違いを考えると、完全に中立なAIを作るのは無理なんじゃないかって思う。DeepSeekが米国で国家安全保障上の脅威と見なされているって…地政学的な要素が技術開発にこんなに影響するなんて。🤔
この手法、完全にセンシティブなクエリに対して何でも返信し始めたら怖くない? 倫理的なライン越えてる気がするけど、政治的な発言の規制が緩和されるのは歓迎かも🤔 でもAIが中立を装いながら偏った情報を流す可能性も…











