option
Maison
Nouvelles
La nouvelle technique permet à Deepseek et à d'autres modèles de répondre aux requêtes sensibles

La nouvelle technique permet à Deepseek et à d'autres modèles de répondre aux requêtes sensibles

11 mai 2025
61

La nouvelle technique permet à Deepseek et à d'autres modèles de répondre aux requêtes sensibles

Éliminer les biais et la censure des grands modèles de langage (LLM) comme DeepSeek de la Chine est un défi complexe qui a attiré l'attention des décideurs politiques et des chefs d'entreprise américains, qui y voient une menace potentielle pour la sécurité nationale. Un récent rapport d'un comité restreint du Congrès américain a qualifié DeepSeek de « menace profonde pour la sécurité de notre nation » et a proposé des recommandations politiques pour traiter la question.

Bien que des techniques comme l'apprentissage par renforcement à partir des retours humains (RLHF) et l'ajustement fin puissent aider à atténuer les biais, la startup de gestion des risques d'entreprise CTGT affirme avoir développé une approche novatrice. Selon CTGT, leur méthode peut complètement éliminer la censure dans les LLM. Cyril Gorlla et Trevor Tuttle de CTGT ont détaillé leur cadre dans un article, expliquant qu'il « localise et modifie directement les caractéristiques internes responsables de la censure ».

Leur approche est non seulement efficace mais permet également un contrôle précis du comportement du modèle, garantissant que des réponses non censurées sont fournies sans affecter les capacités globales ou l'exactitude factuelle du modèle. Bien que conçue initialement pour DeepSeek-R1-Distill-Llama-70B, la méthode peut être appliquée à d'autres modèles également. Gorlla a confirmé à VentureBeat que la technologie de CTGT fonctionne au niveau du réseau neuronal de base, la rendant applicable à tous les modèles d'apprentissage profond. Ils collaborent avec un laboratoire de modèles de fondation de premier plan pour s'assurer que les nouveaux modèles sont intrinsèquement fiables et sûrs.

Comment cela fonctionne

Les chercheurs de CTGT identifient les caractéristiques au sein du modèle qui sont probablement associées à des comportements indésirables. Ils ont expliqué que « dans un grand modèle de langage, il existe des variables latentes (neurones ou directions dans l'état caché) qui correspondent à des concepts comme 'déclencheur de censure' ou 'sentiment toxique'. Si nous pouvons trouver ces variables, nous pouvons les manipuler directement ».

La méthode de CTGT implique trois étapes clés :

  1. Identification des caractéristiques
  2. Isolation et caractérisation des caractéristiques
  3. Modification dynamique des caractéristiques

Pour identifier ces caractéristiques, les chercheurs utilisent des invites conçues pour déclencher des « sentiments toxiques », comme des questions sur la place Tiananmen ou des conseils pour contourner les pare-feu. Ils analysent les réponses pour établir des motifs et localiser les vecteurs où le modèle décide de censurer l'information. Une fois identifiées, ils isolent la caractéristique et comprennent quelle partie du comportement indésirable elle contrôle, qu'il s'agisse de répondre avec prudence ou de refuser de répondre. Ils intègrent ensuite un mécanisme dans le pipeline d'inférence du modèle pour ajuster le niveau d'activation du comportement de la caractéristique.

Rendre le modèle plus réceptif aux invites

Les expériences de CTGT, utilisant 100 requêtes sensibles, ont montré que le modèle de base DeepSeek-R1-Distill-Llama-70B répondait à seulement 32 % des invites controversées. Cependant, la version modifiée a répondu à 96 % des invites, les 4 % restants étant des contenus extrêmement explicites. L'entreprise a souligné que leur méthode permet aux utilisateurs d'ajuster les biais et les fonctions de sécurité du modèle sans le transformer en un « générateur imprudent », surtout lorsque seule la censure inutile est supprimée.

Importamment, cette méthode ne compromet pas l'exactitude ou les performances du modèle. Contrairement à l'ajustement fin traditionnel, elle n'implique pas l'optimisation des poids du modèle ou la fourniture de nouvelles réponses d'exemple. Cela offre deux avantages majeurs : un effet immédiat sur la génération du prochain jeton et la capacité de basculer entre différents comportements en activant ou désactivant l'ajustement des caractéristiques, ou même en l'ajustant à différents degrés pour différents contextes.

Sécurité et sûreté du modèle

Le rapport du Congrès sur DeepSeek a exhorté les États-Unis à « prendre des mesures rapides pour étendre les contrôles des exportations, améliorer l'application des contrôles des exportations et traiter les risques des modèles d'intelligence artificielle chinois ». Alors que les préoccupations concernant la menace potentielle de DeepSeek pour la sécurité nationale augmentaient, les chercheurs et les entreprises d'IA ont commencé à explorer des moyens de rendre ces modèles plus sûrs.

Déterminer ce qui est « sûr », biaisé ou censuré peut être difficile, mais des méthodes permettant aux utilisateurs d'ajuster les contrôles du modèle en fonction de leurs besoins pourraient être très bénéfiques. Gorlla a souligné que les entreprises « doivent pouvoir faire confiance à leurs modèles pour qu'ils soient alignés sur leurs politiques », soulignant l'importance de méthodes comme celle de CTGT pour les entreprises.

« CTGT permet aux entreprises de déployer une IA qui s'adapte à leurs cas d'utilisation sans avoir à dépenser des millions de dollars pour ajuster finement les modèles pour chaque cas d'utilisation. Cela est particulièrement important dans les applications à haut risque comme la sécurité, la finance et la santé, où les dommages potentiels découlant d'un dysfonctionnement de l'IA sont graves », a déclaré Gorlla.

Article connexe
L'IA L'IA "ZeroSearch" d'Alibaba réduit les coûts de formation de 88 % grâce à l'apprentissage autonome ZeroSearch d'Alibaba : Un changement de donne pour l'efficacité de l'apprentissage de l'IALes chercheurs du groupe Alibaba ont mis au point une méthode innovante qui pourrait révolutionner la manière
TreeQuest de Sakana AI améliore les performances de l'IA grâce à la collaboration multi-modèle TreeQuest de Sakana AI améliore les performances de l'IA grâce à la collaboration multi-modèle Le laboratoire d'IA japonais Sakana AI a dévoilé une technique permettant à plusieurs grands modèles de langage (LLM) de travailler ensemble pour former une équipe d'IA très efficace. Baptisée Multi-L
ByteDance Dévoile le Modèle d'IA Seed-Thinking-v1.5 pour Améliorer les Capacités de Raisonnement ByteDance Dévoile le Modèle d'IA Seed-Thinking-v1.5 pour Améliorer les Capacités de Raisonnement La course à l'IA avancée en raisonnement a commencé avec le modèle o1 d'OpenAI en septembre 2024, gagnant en élan avec le lancement de R1 par DeepSeek en janvier 2025.Les principaux développeurs d'IA
commentaires (1)
0/200
JustinAnderson
JustinAnderson 21 août 2025 07:01:17 UTC+02:00

¡Vaya! Quitar sesgos a modelos como DeepSeek suena a un puzzle imposible. ¿Realmente pueden hacer que una IA sea neutral? Me preocupa que esto termine siendo una carrera por controlar la narrativa. 😬

Retour en haut
OR