Les LLM peuvent être piratés simplement et on ne sait pas le résoudre

Anthropic a publié une étude sur les « cellules dormantes » : des agents malveillants qui peuvent être insérés dans les IA d’une manière impossible à déceler, et actionnés par une commande que seul le créateur du « sleeper agent » peut connaître.

13 janvier 2024 – 13h00

Auteur / Autrice :

Victor LB

Anthropic, l’un des géants de l’IA

Ces derniers jours, la question de savoir si Anthropic est « l’entreprise la plus surcotée » de l’intelligence artificielle a animé Twitter (il paraît que certains appellent ça « X »). Et pour cause, la start-up de Dario Amodei a levé 750 millions de dollars récemment, multipliant par quatre sa valorisation à 18,4 milliards de dollars désormais.

Des capitaux et une valorisation qui permettent à l’entreprise de proposer des packages attractifs : entre 280 000$ et 520 000$ l’année pour des experts en Kubernetes et en Python (notamment), et des grilles qui approcheraient le million pour certains chercheurs.

Des techniciens, des fonds, une technologie, une place de challenger (face à OpenAI)… et des problèmes de sécurité !

Pirater un LLM facilement : Anthropic publie une étude sur les « Sleeper Agents »

Le 10 janvier 2024, Anthropic a publié sur arXiv une étude nommée « Sleeper Agents: Training Deceptive LLMs that Persist Through Safety Training ».

Le postulat de cette étude est que « les humains sont capables d’adopter un comportement stratégiquement trompeur : ils se comportent de manière utile dans la plupart des situations, mais se comportent ensuite de manière très différente afin de poursuivre des objectifs alternatifs lorsqu’ils en ont l’occasion. »

Mais qu’en serait-il si un modèle d’IA (un LLM, mais pas que) était « infecté » par une problématique de ce type :

« Si un système d’IA apprenait une stratégie aussi trompeuse, pourrions-nous la détecter et la supprimer à l’aide des techniques de formation à la sécurité les plus récentes ? »

Alors, Anthropic a lancé des proof-of-concept (POC) et des essais.

Par exemple, la start-up a créé un modèle qui écrit du code « sécurisé » lorsque le prompt indique que l’année est « 2023 », et du code « exploitable » lorsque l’année indiquée est « 2024 ».

Un problème qu’on ne sait pas résoudre

Des essais qui ont soulevé le point critique : Ce type de failles de sécurité ne peut pas pour le moment être détectée ni corrigée !

« Nous constatons qu’un tel comportement détourné peut être rendu persistant, de sorte qu’il ne soit pas supprimé par des techniques de formation à la sécurité standard, y compris un réglage fin supervisé, un apprentissage par renforcement et une formation contradictoire (déclenchant un comportement dangereux, puis une formation pour le supprimer). »

Pire, le problème est encore plus prégnant sur les grands modèles (comme GPT-3.5 ou Claude) que sur les petits :

« Le comportement de duperie est plus persistant dans les modèles les plus grands et dans les modèles formés pour produire un raisonnement en chaîne de pensée sur la tromperie du processus de formation, la persistance restant même lorsque la chaîne de pensée est distillée. »

Et tenter de corriger le problème ne fait que renforcer les connaissances du modèle, qui peut donc exploiter encore mieux les failles et tactiques de dissimulation :

« Plutôt que de supprimer les portes dérobées, nous constatons que la formation contradictoire peut apprendre aux modèles à mieux reconnaître les déclencheurs de leurs portes dérobées, masquant ainsi efficacement le comportement dangereux. »

La conclusion est négative :

« Nos résultats suggèrent qu’une fois qu’un modèle présente un comportement trompeur, les techniques standards pourraient ne pas réussir à supprimer cette tromperie et créer une fausse impression de sécurité. »

L’avis intéressant de Andrej Karpathy

Andrej Karpathy est moins connu en France que Sam Altman. Pourtant, il fait lui aussi parti de l’équipe qui a co-fondé OpenAI, avec Altman, Elon Musk, mais aussi Ilya Sutskever et Greg Brockman (au coeur du récent drama).

Passé par l’Université de Toronto (très reconnue dans le domaine), puis Columbia, il a obtenu un doctorat à Stanford en 2016, l’université la plus avancée en matière de recherche sur l’IA aujourd’hui.

Il est passé par Google DeepMind avant de participer à la création de OpenAI. Il a quitté le projet assez vite pour rejoindre Tesla de Elon Musk, où il a été directeur de l’IA pendant plus de cinq ans.

Après la publication de l’étude de Anthropic, il a commenté les résultats avec une analyse intéressante à lire :

J’ai évoqué l’idée des « agents dormants » dans les LLM à la fin de ma récente vidéo, comme un défi de sécurité probablement majeur pour les LLM (peut-être plus sournois qu’une injection rapide).

{Andrej est suivi par un peu plus de 330 000 personnes sur Youtube NDLR}

Le problème que j’ai décrit est qu’un attaquant pourrait être en mesure d’élaborer un type de texte particulier (par exemple, avec une phrase de déclenchement), de le publier quelque part sur l’internet, de sorte que lorsqu’il est repris et utilisé, il empoisonne le modèle de base dans des paramètres spécifiques et étroits (par exemple, lorsqu’il voit cette phrase de déclenchement) pour effectuer des actions d’une manière contrôlable (par exemple, jailbreak, ou exfiltration de données).

Peut-être que l’attaque ne ressemblera même pas à un texte lisible – elle pourrait être masquée par des caractères UTF-8 étranges, des encodages octets 64 ou des images soigneusement perturbées, ce qui la rendrait très difficile à détecter par une simple inspection des données.

On pourrait imaginer des équivalents en matière de sécurité informatique des marchés de vulnérabilité Zero Day, vendant ces phrases déclencheurs.

À ma connaissance, l’attaque ci-dessus n’a pas encore été démontrée de manière convaincante.

Cet article étudie un paramètre similaire (légèrement plus faible ?), montrant qu’étant donné un modèle (potentiellement empoisonné), vous ne pouvez pas le « rendre sûr » simplement en appliquant le réglage fin de sécurité actuel/standard.

Le modèle n’apprend pas à devenir sûr à tous les niveaux et peut continuer à se comporter mal de manière étroite que seul l’attaquant sait potentiellement exploiter.

Ici, l’attaque se cache dans les poids du modèle au lieu de se cacher dans certaines données, de sorte que l’attaque la plus directe ressemble ici à quelqu’un qui publie un modèle de poids ouvert (secrètement empoisonné), que d’autres récupèrent, affinent et déploient, pour ensuite devenir secrètement vulnérables.