Pour combattre les usages malveillants de l’IA, OpenAI veut rendre détectables les textes générés par des logiciels, via une forme de filigrane codé.
Auteur / Autrice :
OpenAI et GPT-3
OpenAI est un laboratoire de recherche sur l’intelligence artificielle (IA), fondé en 2015 par Elon Musk (Tesla, SpaceX, Neuralink) et Sam Altman (ancien président de Y Combinator). Ces dernières semaines, ce sont les programmes DALL-E et GPT-3 qui ont beaucoup fait parlé autour d’OpenAI. Si le premier s’occupe de générer des images via un programme pointue basé sur l’intelligence artificielle, comme Stable Diffusion par exemple, le second crée des réponses au format texte, avec un niveau de réalisme particulièrement saisissant.
Dans les faits, lorsqu’on fait une demande à GPT-3, ou à sa version chatbot ChatGPT, les réponses que proposent les logiciels d’OpenAI semblent quasi-systématiquement écrites par un humain. Pour répondre à une demande (question, ou autre), GPT-3 va se baser sur ses apprentissages via la lecture de milliards de documents de tous types (livres, articles, descriptions d’images, etc), et sur ses connaissances empiriques de restitution textuelle : comme une intelligence humaine, GPT-3 propose des réponses sur ses savoirs académiques, et d’après son expérience.
Qu’il s’agisse de GPT-3 ou la déclinaison ChatGPT, les deux logiciels fonctionnent selon le même modèle : Ils comprennent le texte d’entrée (l’invite) et le texte de sortie comme des chaînes de « jetons », qui peuvent être des mots, des parties de mots, ou des signes de ponctuation.
Sur son site, dans la catégorie dédiée à GPT-3, OpenAI explique pouvoir proposer “un ensemble de modèles capables de comprendre et de générer du langage naturel”, ayant des capacités différentes : “davinci”, “curie”, “babbage”, and “ada”. Et présente Davinci comme le plus performant, en expliquant :
“Davinci est la famille de modèles la plus performante et peut effectuer n’importe quelle tâche que les autres modèles peuvent effectuer et souvent avec moins d’instructions. Pour les applications nécessitant une bonne compréhension du contenu, comme le résumé pour un public spécifique et la génération de contenu créatif, Davinci va produire les meilleurs résultats. Ces capacités accrues nécessitent davantage de ressources de calcul, de sorte que Davinci coûte plus cher par appel API et n’est pas aussi rapide que les autres modèles.
Un autre domaine dans lequel Davinci brille est la compréhension de l’intention du texte. Davinci est assez bon pour résoudre de nombreux types de problèmes logiques et expliquer les motivations des personnages. Davinci a été capable de résoudre certains des problèmes d’IA les plus difficiles impliquant la cause et l’effet.”
Le bot conversationnel ChatGPT
Pour être tout à fait précis, ChatGPT n’est pas exactement basé sur GPT-3, mais sur GPT-3,5, une base dont les informations datent de début 2022. De plus ChatGPT a des spécificités. Pour pouvoir avoir des interactions “conversationnelles”, l’IA a été instruite également via l’apprentissage par renforcement, avec un modèle de récompense. Et des opérateurs humains, spécialisés en IA, ont apporté à l’ensemble des conversations, dans lesquelles ils jouaient des deux côtés : l’utilisateur et l’IA, pour permettre au logiciel de se familiariser avec le concept spécifique d’une conversation.
Il en résulte donc ChatGPT, présenté le 30 novembre 2022, avec ses incroyables aptitudes conversationnelles : nous l’avons d’ailleurs “interviewé” la semaine dernière (lien vers l’article), en lui posant des questions aussi techniques que philosophiques.
Reste qu’au-delà des possibilités aussi amusantes qu’utiles de ce type de technologie, il en résulte des préoccupations éthiques évidentes. Il est simple de penser à des usages malveillants d’une technologie comme GPT, dans sa forme actuelle encore limitée, comme dans ses formes avancées à venir dans les années et décennies à venir.
On peut notamment penser à du phishing de haut niveau, avec des pirates programmant l’IA pour qu’elle recrée des interfaces complètes (site web, mails, etc), avec des textes dépassant le champ de compétence de l’instigateur : plus besoin d’être formé en contenu médical pour proposer un site crédible falsifiant celui de l’assurance maladie, par exemple. Même si ce genre de problème existe déjà, il n’en sera que plus facile à utiliser.
Un autre problème est celui de la triche : avec GPT-3 ou ChatGPT, il est simple de générer des contenus “authentiques”, qui ne seront pas reconnus par les détecteurs de plagiats, et de les soumettre à des examens : des devoirs de collégiens au doctorat, l’ensemble de la chaîne scolaire pourrait être sujette à ce problème. Et plus encore.
Rendre détectable un texte généré par une IA, via un filigrane numérique ou un code
D’où la nécessite de rendre détectable les textes générées via l’IA, qu’il s’agisse de GPT-3 ou d’autres logiciels.
Comme nous le disions, GPT comprend une entrée et une sortie comme une chaîne de tokens. Pour produire cette chaîne, les systèmes génèrent constamment une fonction mathématique, nommée “distribution de probabilité” pour décider du prochain token à produire (un mot, une virgule…), en tenant compte de tous les tokens précédemment produits. Il y a une part de hasard dans la sélection finale : c’est pourquoi la même invite de texte peut donner des réponses subtilement différentes.
Mais comme il existe une chaîne logique dans le processus, il est possible d’y introduire des artefacts, qui ne seraient détectables que par celui qui en possède le code. Et ainsi, OpenAI pourrait être en mesure de détecter des textes qu’elle a produit, et donc de permettre à d’autres parties tierces de procéder à la même vérification : Google, les professeurs, les particuliers etc…
Comme le rapporte TechCrunch, le professeur d’informatique Scott Aaronson, actuellement chercheur chez OpenAI expliquait lors d’une conférence à l’Université d’Austin, la vision de l’organisation :
“Nous voulons qu’il soit beaucoup plus difficile de prendre le résultat d’un système d’IA et de le faire passer pour un texte humain.”
“Cela pourrait être utile pour empêcher le plagiat académique, évidemment, mais aussi, par exemple, la génération massive de propagande – vous savez, spammer chaque blog avec des commentaires apparemment sur le sujet soutenant l’invasion de l’Ukraine par la Russie sans même un bâtiment plein de trolls à Moscou. Ou encore imiter le style d’écriture de quelqu’un afin de l’incriminer.”
Il a indiqué qu’OpenAI développe un outil permettant de “filtrer statistiquement les sorties d’un système d’IA textuel”, en faisant en sorte que l’outil intègre un “signal secret imperceptible” indiquant la provenance du texte. Avec l’ingénieur Hendrik Kirchner, ils auraient déjà mis au point un process fonctionnel :
“Empiriquement, quelques centaines de tokens semblent être suffisants pour obtenir un signal raisonnable que oui, ce texte provient d’un générateur IA. En principe, vous pourriez même prendre un long texte et isoler les parties qui proviennent probablement de ce système et celles qui n’en proviennent probablement pas. L’outil peut effectuer le filigrane à l’aide d’une clé secrète et il peut vérifier le filigrane à l’aide de la même clé.”
Mais selon lui, ce n’est pas le seul axe que développe OpenAI dans la catégorie des «techniques de provenance» explorées pour détecter les textes générés par l’IA.
Ces travaux de l’organisation sont en tout cas parmi les premier sur le sujet, en dehors des recherches publiées par l’institut allemand CISPA en mars 2022.