option
Maison Nouvelles La nouvelle technique permet à Deepseek et à d'autres modèles de répondre aux requêtes sensibles

La nouvelle technique permet à Deepseek et à d'autres modèles de répondre aux requêtes sensibles

date de sortie date de sortie 10 mai 2025
Auteur Auteur CarlLewis
vues vues 0

La suppression des préjugés et de la censure des modèles de grands langues (LLM) comme Deepseek de la Chine est un défi complexe qui a attiré l'attention des décideurs américains et des chefs d'entreprise, qui le considèrent comme une menace potentielle de la sécurité nationale. Un récent rapport d'un comité restreint du Congrès américain a qualifié Deepseek de «menace profondément pour la sécurité de notre pays» et a offert des recommandations politiques pour résoudre le problème.

Alors que des techniques telles que l'apprentissage du renforcement de la rétroaction humaine (RLHF) et du réglage fin peuvent aider à atténuer les biais, la startup de gestion des risques d'entreprise CTGT prétend avoir développé une nouvelle approche. Selon CTGT, leur méthode peut complètement éliminer la censure dans les LLM. Cyril Gorlla et Trevor Tuttle de CTGT ont détaillé leur cadre dans un article, expliquant qu'il "localise et modifie directement les caractéristiques internes responsables de la censure".

Leur approche est non seulement efficace, mais permet également un contrôle précis du comportement du modèle, garantissant que des réponses non censurées sont fournies sans affecter les capacités globales du modèle ou la précision factuelle. Bien que initialement conçu pour Deepseek-R1-Distill-Llama-70B, la méthode peut également être appliquée à d'autres modèles. Gorlla a confirmé à VentureBeat que la technologie de CTGT fonctionne au niveau du réseau neuronal fondamental, ce qui le rend applicable à tous les modèles d'apprentissage en profondeur. Ils collaborent avec un laboratoire de base de fondation de premier plan pour s'assurer que les nouveaux modèles sont intrinsèquement dignes de confiance et sûrs.

Comment ça marche

Les chercheurs de CTGT identifient les caractéristiques du modèle qui sont probablement associées à des comportements indésirables. Ils ont expliqué que "dans un modèle de langue large, il existe des variables latentes (neurones ou directions à l'état caché) qui correspondent à des concepts tels que le` `déclencheur de censure '' ou le« sentiment toxique ». Si nous pouvons trouver ces variables, nous pouvons les manipuler directement».

La méthode de CTGT implique trois étapes clés:

  1. Identification des fonctionnalités
  2. Isolement et caractérisation des caractéristiques
  3. Modification des fonctionnalités dynamiques

Pour identifier ces fonctionnalités, les chercheurs utilisent des invites conçues pour déclencher des «sentiments toxiques», tels que les enquêtes sur Tiananmen Square ou des conseils pour contourner les pare-feu. Ils analysent les réponses pour établir des modèles et localiser les vecteurs où le modèle décide de censurer les informations. Une fois identifiés, ils isolent la fonctionnalité et comprennent quelle partie du comportement indésirable qu'il contrôle, qu'il s'agisse de répondre avec prudence ou de refuser de répondre. Ils intègrent ensuite un mécanisme dans le pipeline d'inférence du modèle pour ajuster le niveau d'activation du comportement de la fonctionnalité.

Faire répondre au modèle plus d'invites

Les expériences de CTGT, en utilisant 100 requêtes sensibles, ont montré que le modèle de base Deepseek-R1-Distill-Llama-70b ne répondait que 32% des invites controversées. Cependant, la version modifiée a répondu à 96% des invites, les 4% restants étant un contenu extrêmement explicite. La société a souligné que leur méthode permet aux utilisateurs d'ajuster le biais et les fonctionnalités de sécurité du modèle sans le transformer en un "générateur téméraire", en particulier lorsque seule la censure inutile est supprimée.

Surtout, cette méthode ne compromet pas la précision ou les performances du modèle. Contrairement à un réglage fin traditionnel, cela n'implique pas d'optimiser les poids du modèle ou de fournir de nouveaux exemples de réponses. Cela offre deux avantages majeurs: un effet immédiat sur la génération de jetons suivants et la possibilité de basculer entre différents comportements en basculant le réglage des fonctionnalités ou désactivé, ou même l'ajuster à des degrés divers pour différents contextes.

Modèle de sécurité et de sécurité

Le rapport du Congrès sur Deepseek a exhorté les États-Unis à "prendre des mesures rapides pour étendre les contrôles d'exportation, améliorer l'application des contrôles des exportations et répondre aux risques des modèles d'intelligence artificielle chinoise". Alors que les préoccupations concernant la menace potentielle de la sécurité nationale de Deepseek augmentaient, les chercheurs et les sociétés de l'IA ont commencé à explorer des moyens de rendre ces modèles plus sûrs.

Déterminer ce qui est «sûr», biaisé ou censuré peut être difficile, mais les méthodes qui permettent aux utilisateurs d'ajuster les contrôles du modèle en fonction de leurs besoins pourraient être très bénéfiques. Gorlla a souligné que les entreprises "doivent être en mesure de faire confiance à leurs modèles sont alignées sur leurs politiques", mettant en évidence l'importance de méthodes comme les CTGT pour les entreprises.

"Le CTGT permet aux entreprises de déployer l'IA qui s'adapte à leurs cas d'utilisation sans avoir à dépenser des millions de dollars de motifs de réglage fin pour chaque cas d'utilisation. Ceci est particulièrement important dans les applications à haut risque comme la sécurité, la finance et les soins de santé, où les dommages potentiels qui peuvent provenir de malfonctionnement de l'IA sont sévères", a déclaré Gorlla.

Call of Duty: Mobile - Tous les codes de rachat de travail janvier 2025

Article connexe
Former DeepSeeker and collaborators release new method for training reliable AI agents: RAGEN Former DeepSeeker and collaborators release new method for training reliable AI agents: RAGEN The Year of AI Agents: A Closer Look at 2025's Expectations and Realities2025 was heralded by many experts as the year when AI agents—specialized AI systems powered by advanced large language and multimodal models from companies like OpenAI, Anthropic, Google, and DeepSeek—would finally take center
Open Deep Search arrives to challenge Perplexity and ChatGPT Search Open Deep Search arrives to challenge Perplexity and ChatGPT Search If you're in the tech world, you've likely heard about the buzz surrounding Open Deep Search (ODS), the new open-source framework from the Sentient Foundation. ODS is making waves by offering a robust alternative to proprietary AI search engines like Perplexity and ChatGPT Search, and it's all about
MCP Standardizes AI Connectivity with Tools and Data: A New Protocol Emerges MCP Standardizes AI Connectivity with Tools and Data: A New Protocol Emerges If you're diving into the world of artificial intelligence (AI), you've probably noticed how crucial it is to get different AI models, data sources, and tools to play nicely together. That's where the Model Context Protocol (MCP) comes in, acting as a game-changer in standardizing AI connectivity. T
commentaires (0)
0/200
Retour en haut
OR