En bloquant GPTBot, le web crawler de OpenAI, vous pouvez partiellement endiguer le vol de vos contenus par l’un des géants de l’IA.
Auteur / Autrice :
GPT-5 arrive !
La prochaine génération de Generative Pre-trained Transformer arrive. Tremblez.
OpenAI a finalisé le dépôt de marque associé à sa prochaine itération “GPT”, GPT-5, qui sera donc la suite de son puissant modèle GPT-4. L’information avait été repéré le 1er août 2023 par le site Windows Latest, et le document qui sert de source indique que la demande a été faite le 18 juillet 2023.

Une information qui va donc à rebours de ce qu’avait dit récemment à TechCrunch Sam Altman, qui expliquait que OpenAI n’avait pas encore commencé à travailler sur la version suivante de son intelligence artificielle :
“Nous avons beaucoup de travail à faire avant de lancer ce modèle. Nous travaillons sur les nouvelles idées dont nous pensons avoir besoin pour cela, mais nous ne sommes certainement pas près de commencer.”
Une hypocrisie de plus pour le CEO, après ses allégations à propos de l’Europe (voir) ou sa signature d’une tribune appelant à réguler l’intelligence artificielle (voir).
Avec le web crawler GPTBot, OpenAI scrappe le web pour s’approprier tous ses contenus
OpenAI n’est pas connue pour être une société très soucieuse du droit d’auteur ou de la propriété intellectuelle, comme la plupart des acteurs de ce qu’on appelle pompeusement l’intelligence artificielle.
Armés des 11 milliards de dollars investis par Microsoft et avec l’assentiment de Bill Gates en personne (voir notre article sur la relation OpenAI/Microsoft), Sam Altman et ses équipes ont déjà utilisé un corpus de données ayant été produites par des millions de personnes, obtenus au travers de livres, de journaux, et de sites web (entre autres).
Le web, une manne indispensable pour maintenir un modèle d’intelligence artificielle à jour, et pertinent dans sa capacité à proposer des réponses contextuellement adaptées.
Pour autant, avec ses modèles actuels (GPT-3,5 et GPT-4), OpenAI n’exploite pas directement les données actuelles d’internet dans son corpus de référence, et s’en sert seulement via des requêtes spécifiques (et seulement pour GPT-4). Le chatbot répète aussi inlassablement que ses données s’arrêtent en 2021.

Mais pour former ses futurs modèles, et en premier lieu GPT-5, OpenAI vient de lancer GPTBot, un robot d’exploration Web (ou web crawler) conçu pour récupérer automatiquement les données de l’ensemble d’Internet, comme l’explique OpenAI :
“Les pages Web explorées avec l’agent utilisateur GPTBot peuvent potentiellement être utilisées pour améliorer les futurs modèles et sont filtrées pour supprimer les sources qui nécessitent un accès en paywall, sont connues pour recueillir des informations personnelles identifiables (PII) ou contiennent du texte qui enfreint nos politiques. Autoriser GPTBot à accéder à votre site peut aider les modèles d’IA à devenir plus précis et à améliorer leurs capacités générales et leur sécurité.”
Comment empêcher OpenAI de former ses modèles sur vos contenus : le guide
Toutefois, face à la multiplication des procédures judiciaires à son encontre et à des environnements législatifs à venir extrêmement contraignants (en Europe mais également aux USA), OpenAI a décidé de faire les choses plus finement cette fois :
D’abord en précisant comment observer le bot : “GPTBot est le robot d’exploration Web d’OpenAI et peut être identifié par l’agent utilisateur et la chaîne suivants.”
User agent token: GPTBot
Full user-agent string: Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot)
Puis en expliquant comment le bloquer, et empêcher ainsi à OpenAI d’utiliser les données de votre site : “Ci-dessous, nous partageons également comment interdire à GPTBot d’accéder à votre site.”
Pour interdire à GPTBot d’accéder à votre site, vous pouvez ajouter GPTBot au fichier robots.txt de votre site :
User-agent: GPTBot
Disallow: /
Pour consulter votre fichier robots.txt, il vous suffit de rajouter “robots.txt” à la fin de votre nom de domaine, comme par exemple : “jaimelesharicots.com/robots.txt”
Personnaliser l’accès GPTBot : Pour autoriser GPTBot à accéder uniquement à certaines parties de votre site, vous pouvez ajouter le jeton GPTBot au fichier robots.txt de votre site comme ceci :
User-agent: GPTBot
Allow: /directory-1/
Disallow: /directory-2/
Voici également la liste d’adresses IP utilisées par OpenAI :
- 20.15.240.64/28
- 20.15.240.80/28
- 20.15.240.96/28
- 20.15.240.176/28
- 20.15.241.0/28
- 20.15.242.128/28
- 20.15.242.144/28
- 20.15.242.192/28
- 40.83.2.64/28
Une liste que vous pouvez retrouver à ce lien, même si OpenAI n’a pas indiqué qu’elle devait être actualisée régulièrement.
Toutefois, même si cette mesure proposée par OpenAI pour que les créateurs de contenus web puissent empêcher ses modèles de se former sur leurs données semble bonne, plusieurs nuances sont à prendre en compte :
- Google ne s’est pas embarrassé de faire la même chose, bien au contraire : l’entreprise a récemment mis à jour sa politique de confidentialité pour préciser que ses services d’intelligence artificielle, comme Bard et Cloud AI, peuvent être formés sur des données publiques extraites du web.
- Si GPT-5 n’est pas formé directement sur les données de certains sites, les fonctionnalités de recherches web qui y seront associés (comme c’est déjà le cas avec GPT-4) utiliseront quand même ces informations pour proposer des réponses aux utilisateurs. Et un autre nouveau fonctionnement intermédiaire peut aussi être créé et lancé par OpenAI.