Étude : Une nouvelle méthode pour hacker une IA (et savoir comment créer une bombe)

Des chercheurs d’Anthropic ont trouvé une nouvelle méthode pour hacker les LLM et obtenir d’eux les pires résultats possibles malgré les limites.

3 avril 2024 – 14h24

Auteur / Autrice :

Victor LB

Hacker les LLM (encore)

On le sait depuis un moment : les intelligences artificielles génératives peuvent être hackées de plusieurs manières, et personne ne sait comment on pourrait empêcher que ça se produise, ni même comment on pourrait réparer les dégâts. Pas plus d’ailleurs qu’on ne sait comment – ni même si – on parviendra un jour à empêcher un LLM de faire des hallucinations (et donc d’être à terme assez fiable pour faire quelque chose de sérieux).

Une nouvelle étude continue de repousser les limites du hacking des IA : elle s’intéresse à la manière dont on peut amener une IA à répondre à une question à laquelle elle n’est pas censée le faire. Par exemple : « comment créer une bombe ? »

Des chercheurs de la société Anthropic (qui édite notamment la suite Claude qui vient de surpasser GPT-4) ont trouvé un nouveau hack pour convaincre un grand modèle de langage (LLM) d’expliquer comment fabriquer une bombe malgré ses limites. Ils ont présenté leurs résultats dans une étude nommée « Many-shot Jailbreaking ».

Une vulnérabilité basée sur le contexte

Leur nouvelle vulnérabilité se base sur l’augmentation de la « fenêtre contextuelle » des nouveaux LLM, et qu’on pourrait résumer comme la mémoire à court terme des IA : on leur apporte des informations (comptabilisées en volume de tokens) qu’elles retiennent et utilisent dans une certaine mesure pour répondre plus finement aux demandes exprimées par l’utilisateur.

Les chercheurs ont remarqué que les LLM étaient empiriquement plus performants à mesure qu’ils avaient donné précédemment des réponses positives. Ce qui est déjà intéressant en soit : Claude (par exemple) serait plus performant pour répondre à une question si celle-ci est posée en douzième position (après une série) que directement, à froid.

Sauf que cette amélioration peut servir à outrepasser les limites du LLM, et que le hack se base dessus : demandez à l’IA de vous aider à produire une bombe, et elle dira non. Mais selon les chercheurs, après une longue série de demandes à laquelle l’IA a répondu positivement, elle peut finir par accepter d’aider à produire une bombe !

L’exemple donné par les chercheurs pour hacker un LLM et le forcer à donner les informations pour « produire une bombe ».

Et, encore une fois, même si ce sont des chercheurs d’Anthropic qui ont réalisé cette étude et découvert cette vulnérabilité, ils ne savent pas du tout pourquoi exactement elle se produit, et dans quelle mesure elle peut être entièrement corrigée.

Une nouvelle preuve d’ailleurs que personne ne sait parfaitement comment fonctionnent les LLM, ni donc comment les maitriser, ce qui continue de développer les doutes sur les possibilités réelles de ce type d’outils dans des usages professionnels avancés (cf : pas seulement faire des résumer de réunions Zoom ou plagier).