__

Les grands éditeurs bloquent les bots de OpenAI

Les grands médias et site web commencent à interdire l'accès à leurs données pour OpenAI.

Depuis que OpenAI a expliqué vouloir scanner tout internet, et expliqué comment protéger un site de ses robots, les grands éditeurs bloquent massivement les bots de la société spécialisée dans l’intelligence artificielle.

Auteur / Autrice :

Les données, ressource basique mais vitales pour les grands modèles d’intelligence artificielle

Depuis novembre 2022, et le lancement public de ChatGPT par OpenAI, l’univers de l’intelligence artificielle n’en finit plus d’évoluer. Et il évolue plus vite qu’il ne l’avait fait jusqu’à alors, du moins pour le grand public.

Mais au-delà des acteurs principaux de l’IA qui ont fait parlé en 2022 (OpenAI, Meta, Google, Nvidia…), on trouve aussi les lésés de l’IA, les spoliés et les plagiés. Parmi les lésés, on peut penser aussi aux actuels et aux futurs lésés, comme les scénaristes et acteurs en grève du côté de Hollywood, ou aux graphistes.

Du côté des spoliés et des plagiés, les choses sont plus vastes encore : pour former leurs modèles d’intelligence artificielle, les entreprises (grands noms et petites start-up) ont massivement utilisé les données “à leur disposition”… entendez par la : “publiques, sans qu’il soit clair si le droit d’auteur le permet”. Souvent, elles se sont appuyées sur le principe du “Fair use”.

On commence à voir petit à petit sur quels corpus ont été formés les différents modèles. Par exemple, on sait que LLaMA (la base open source créée et mise en ligne par Meta) a été formée en partie sur une base de 170 000 livres identifiés, comme nous l’apprend cet excellent article publié sur The Atlantic.

Parmi ceux-ci, 30 000 environ viennent de la maison d’édition Penguin Random House, 14 000 de HarperCollins, 7 000 de Macmillan, 1 800 d’Oxford University Press et 600 de Verso. On peut de fait savoir quels auteurs ont été directement utilisés, et dans quelle proportion : 33 livres de Margaret Atwood, 9 livres de Haruki Murakami, 5 de Jennifer Egan…

L’ensemble de ces oeuvres n’est qu’une fraction de la base Books3 qui a été utilisée pour LLaMA, mais aussi pour d’autres, dont GPT-J d’EleutherAI. Sans aller trop loin dans les détails, Books3 est directement liée à The Pile, un corpus de référence dans l’IA générative. Quant au nom de Books3, il fait directement écho à une publication de OpenAI datant de 2020, où la société mentionnait deux “corpus de livres basés sur Internet” appelés Books1 et Books2.

Les grands éditeurs bloquent l’accès aux robots de ChatGPT et OpenAI

Les choses sont moins évidentes concernant les données glanées sur Internet (news, blog, fiches produits, commentaires, etc) pour former les grands modèles. D’autant que ces données sont mises à jour quotidiennement, dans des proportions qui dépassent très largement les milliers de livre d’une base quelconque. Et quelles sont beaucoup plus intéressantes pour rendre un outil d’IA pertinent, si performant soit-il de base.

C’est pourquoi les acteurs de l’IA tentent de collecter ces données, via des bots (robots) dédiés. C’est notamment le cas de OpenAI, qui informait le monde que son robot GPTBot allait passer sur tous les sites pour en extraire le contenu, dans le but de former les prochaines générations de ChatGPT (et consorts). Conscient de l’émoi que cette nouvelle pouvait susciter, OpenAI a proposé des instructions très simples à appliquer pour empêcher au GPTBot d’accéder au contenu d’un site, et de l’extraire (voir notre article dédié).

Et si cette généreuse instruction est tombée en plein mois d’août, passant relativement inaperçu pour le grand public, les grands noms de la création de contenus sur le web ont acté cette information, et commencent à agir massivement en conséquence. Parmi eux, en premier lieu, les grands médias (et leurs groupes).

The Decoder nous apprenait hier que “de grandes sociétés de médias, dont le New York Times, CNN, Reuters”, ou encore ABC bloquent désormais GPTBot, et que “d’autres fournisseurs de contenu Web tels qu’Amazon, Wikihow et Quora bloquent également le robot d’exploration OpenAI”.

Des informations issues d’une analyse faite par Originality.ai, “9,2% des 1 000 principaux sites Web bloquaient GPTBot fin août, avec un taux de croissance hebdomadaire de 5%”. Sur 759 fichiers robots.txt analysés, 69 mis en place le blocage. Et parmi le top 100, le pourcentage de blocage monte même à 15%.

Des statistiques déjà importantes, qui devraient progresser à mesure que la décision est validée par les instances dirigeantes des entreprises (ce qui peut prendre plus ou moins de temps en fonction des entreprises, et de la propension de leur culture locale à dormir pendant tout le mois d’août).

Un impact réel à relativiser

Pour autant, il ne faudrait pas se méprendre sur l’impact réel de cette petite perturbation : si OpenAI est entravé dans sa capacité à extraire et utiliser des contenus, on ne parle là que d’une entreprise qui n’avait pas encore lancé de produit il y a seulement un an, et dont l’impact a probablement été surévalué (d’ailleurs, les chiffres d’utilisation sont en baisse pour ChatGPT en juillet et en août, alors que les collégiens et lycéens sont en vacances).

En revanche, rien n’entrave Google. L’entreprise est la porte d’entrée quasi-universelle d’internet dans le monde occidental, via son moteur de recherche et son navigateur (Chrome), et une entité centrale tant dans l’indexation que la monétisation du web traditionnel.

Or, Google a récemment changé ses conditions générales : désormais, le moteur de recherche peut « utiliser des informations pour améliorer nos services et développer de nouveaux produits, fonctionnalités et technologies qui profitent à nos utilisateurs et au public » et « utiliser des informations publiquement disponibles pour aider à former les modèles d’IA de Google et construire des produits et des fonctionnalités comme Google Translate, Bard et les capacités de Cloud AI ».

Et si on peut bloquer le nouvel entrant OpenAI, personne ne peut entraver Google. Le groupe a d’ailleurs présenté en mai ses prochaines fonctionnalités basées sur l’intelligence artificielle pour son moteur de recherche (voir notre article), et commence à les déployer via les récentes mises à jour, et dans les prochaines.

Aussi, bloquer le GPTBot de OpenAI peut sembler bien anecdotique si Google transforme son moteur de recherche en une sorte de super ChatGPT, qui n’amène plus les utilisateurs sur un site, mais se sert du contenu du site pour répondre aux utilisateurs.