Selon une nouvelle étude, les IA ne peuvent pas se passer de Wikipédia pour leur culture générale, et font beaucoup plus d’erreurs quand l’encyclopédie ouverte ne peut pas les aider.
Auteur / Autrice :
Les hallucinations des IA sont devenues célèbres dès la sortie de ChatGPT : On demande à son chatbot IA préféré de nous résumer la vie de Louis XIV, et au milieu d’une belle succession de faits réels, on découvre que le Roi-Soleil était mariée avec la fille Johnny Depp, et que leurs premiers triplés sont mort noyés le jour de leur deuxième anniversaire, un soir de pleine Lune.
Et ce problème des hallucination est probablement l’un des plus grands freins que l’IA aura pour parvenir à devenir réellement une technologie utilisable, applicable à des usages critiques : Le propre de l’informatique a toujours été de produire un résultat fiable en contrepartie d’une structuration calibrée, ce qui n’est pas possible avec les « grands modèles de langage », dont même les concepteurs ne comprennent pas tous les rouages.
On aurait cependant pu penser qu’avec les dizaines de milliards investis par les grands groupes comme les start-ups pour développer des LLM plus puissants et plus fiables, les hallucinations déclineraient fortement.
Et bien, en fait, non.
Des chercheurs ont réalisé une étude sur les hallucinations : ils ont analysés 118 785 générations produites par 15 LLM, dont Llama 3 70B de Meta, Gemini 1.5 Pro de Google, Claude 3 Opus d’Anthropic, Mixtral 8x22B de Mistral, Command R+ de Cohere, ou encore Sonar Large de Perplexity (qui est basé sur Llama). Et leurs résultats sont sans appel : « Nous constatons que les LLM ont systématiquement plus d’hallucinations sur des entités sans pages Wikipédia. »
C’était l’un des points spécifiques de leur étude : là où d’anciennes avaient déjà observé la »factualité » des réponses des LLM, leurs questions avaient des réponses faciles à obtenir sur Wikipedia.
Mais pour rendre leur test plus difficile et refléter plus précisément les types de questions posées par les internautes aux modèles, les chercheurs de Cornell, des universités de Washington et de Waterloo et de l’institut de recherche (à but non lucratif) AI2 ont identifié des sujets sur le Web qui n’ont pas de référence sur Wikipédia. Les questions portaient sur une large variété de sujets : la culture, la géographie, l’astronomie, la culture populaire, la finance, la médecine, l’informatique ou encore « les célébrités ».
Ces chercheurs estiment d’abord que les modèles qui hallucinaient le moins le faisaient en partie parce qu’ils refusaient de répondre à des questions auxquelles ils auraient mal répondu : quand ils ne savent pas, ils ne répondent pas, ce qui est toujours mieux qu’halluciner une romance entre Jules César et Christine and the Queens.
Si Claude 3 (dans sa version Haiku) n’a répondu qu’à 72% des questions qui lui ont été posées, choisissant de s’abstenir pour le reste, en tenant compte des ces refus, c’était alors le modèle le plus factuel de tous… dans le sens où il mentait le moins.
GPT-4o et l’ancien modèle phare d’OpenAI, GPT-3.5, ont obtenu des résultats sensiblement identiques en termes de pourcentage de questions auxquelles ils ont répondu correctement, GPT-4o étant tout de même légèrement meilleur. Les LLM d’OpenAI étaient les moins sujets aux hallucinations, suivis par Mixtral 8x22B des français de Mistral, Command R de Cohere et Sonar de Perplexity.
Wenting Zhao, doctorant à Cornell et co-auteur de l’étude, explique au média US TechCrunch que « même les meilleurs modèles ne peuvent générer du texte sans hallucinations que dans 35 % des cas ».
Les questions relatives aux célébrités et à la finance ont été les plus difficiles pour les LLM, là où les questions sur la géographie et l’informatique ont été les plus simples. Et dans les cas où la source d’une réponse n’était pas disponible sur Wikipédia, chaque LLM a répondu de manière moins factuelle, en moyenne, (et surtout GPT-3.5 et GPT-4o).
Même les modèles capables de chercher des informations « fraîches » sur le Web, comme Perplexity, ont eu du mal à répondre à des questions n’ayant pas de réponses dans Wikipedia dans l’étude menée, ce qui souligne tant l’importance des données de formation des modèles que le rôle pivot de Wikipédia dans ce cas.
Et comme les plus grands sites du monde (nous compris) bloquent désormais les accès aux scrapeurs IA qui venaient jusqu’à l’année dernière récupérer illégalement leurs contenus et données, la dépendance des entreprises IA éditant des LLM à Wikipedia ne va pas s’améliorer…


