L'intelligence artificielle fait moins bien que l'humain au jeu Connections

Un jeu anodin (basé sur des mots) met les cerveaux en ébullition, et la machine en déroute : Connections, le jeu qui fait perdre l’IA face à l’humain.

31 août 2024 – 14h39

Auteur / Autrice :

Victor LB

Ces jeux qui confrontent l’homme et la machine

En 1997, le légendaire joueur d’échecs Gary Kasparov perdait contre la machine : Deep Blue II, développé par IBM, infligeait à l’humain sa première défaite symbolique forte dans un jeu d’intelligence.

Une grosse quinzaine d’années plus tard, le premier exploit médiatique de DeepMind (fraîchement acquis par Google au grand dam de Elon Musk, qui fondera OpenAI en conséquence) sera de battre l’humain au jeu de Go, avec AlphaGo. Deux ans plus tard, un autre logiciel de DeepMind défiera cette fois l’humain au jeu d’échecs, le programme AlphaZero. Le combat symbolique entre homme et machine pour la supériorité intellectuelle est alors remis au goût du jour avec l’arrivée de « l’intelligence artificielle » boostée aux algorithmes et à la puissance de calcul.

Fin 2022, OpenAI sort ChatGPT et dévoile au monde une autre version de l’IA : l’intelligence artificielle générative. On peut alors espérer des avancées incommensurables, la panique gagne certaines des sommités du domaine, et on imagine l’humain obsolète en quelques petites années.

Bientôt deux ans plus tard, il existe un petit jeu anodin qui, tel Astérix, résiste encore et toujours à l’envahisseur IA et permet à l’humanité de s’enorgueillir de tenir tête à la machine.

Ce jeu se nomme « Connections ».

Pour les non-initiés, le jeu utilise une grille virtuelle de 4×4 sur laquelle sont placés seize mots. Le joueur doit les regrouper en groupes de quatre, chaque groupe devenant progressivement plus difficile.

Le jeu est devenu célèbre pour son test de raisonnement abstrait, qui fait travailler le cerveau. Les joueurs ont fait de Connections un passe-temps auquel il se laisse aller à une forme d’addiction, se défoulant même souvent sur les réseaux sociaux lorsque le jeu est trop difficile.

Mais que les joueurs se rassurent : ils ne sont pas plus nuls que l’IA. Elle ne pourrait même résoudre l’intégralité du jeu que 8% du temps.

C’est le résultat d’une étude menée par un groupe d’étudiants d’un cours d’informatique au Barnard College, qui a décidé de tester les capacités de Connections des IA du marché.

Les étudiants ont vite compris que leur projet n’était pas seulement un divertissement de geek curieux. Ils étaient en fait tombés sur une manière sophistiquée de tester les capacités de raisonnement des chatbots IA, un point qui est précisément ce que de nombreux chercheurs essaient de mesurer, et que les entreprises essaient d’améliorer. En effet, le raisonnement et sa capacité à créer des agents ‘capables’ (fautes d’être réellement intelligents) est au coeur de la recherche de ce qui sera probablement la prochaine avancée majeure de l’IA.

Un essai devenu un sujet d’étude, aboutissant, avec leur professeur, à un article universitaire.

Comment le jeu Connections montre la supériorité de l’humain sur l’IA

Connections est conçu pour tester différents types de connaissances – encyclopédiques, sémantiques, associatives et linguistiques.

Les étudiants ont demandé aux derniers modèles d’OpenAI (GPT-4), de Google (Gemini), d’Anthropic (Claude) et de Meta (Llama) de résoudre 200 jeux, et ont découvert que leurs performances étaient inférieures à celles des novices humains, et bien inférieures à celles des experts humains.

Pour les 200 parties, les chercheurs ont classé les types de connaissances nécessaires pour résoudre chaque catégorie afin de pouvoir tester la capacité de l’IA à résoudre différents types de problèmes.

Ils ont découvert que si l’IA est efficace pour résoudre certains problèmes impliquant des connaissances sémantiques, d’autres catégories sont beaucoup plus difficiles.

Par exemple, l’IA peut facilement regrouper « ‘followers’, ‘lemmings’, ‘puppets’ et ‘sheep’ », car ils partagent la même signification sémantique générale. Cependant, elle a trouvé les catégories associatives plus difficiles : elle peine à associer ‘basket-ball’, ‘carotte’, ‘poisson rouge’ et ‘citrouille’, des choses qui sont orange. Elle est déconcertée par les catégories qui combinent des types de connaissances comme ‘charcuterie’, ‘nièce’, ‘vagabondage’ et ‘âme’, qui nécessitent des connaissances linguistiques et encyclopédiques.

Tuhin Chakrabarty, chercheur scientifique, assistant d’enseignement pour la classe de Barnard et co-auteur de l’article :

« Lorsqu’il faut sortir des sentiers battus ou faire preuve de toute sorte de pensée divergente, cela pose beaucoup de problèmes. Les résultats de l’équipe peuvent être utilisés par les chercheurs pour améliorer certains types de raisonnement abstrait dans leurs modèles. »

New paper with students @BarnardCollege on testing orthogonal thinking / abstract reasoning capabilities of Large Language Models using the fascinating yet frustratingly difficult @nytimes Connections game. #NLProc #LLMs #GPT4o #Claude3opus 🧵(1/n) pic.twitter.com/jDfCbpPi2Z
— Tuhin Chakrabarty (@TuhinChakr) June 26, 2024

Les concepteurs du jeu Connections placent intentionnellement des « fausses pistes » ou des éléments de distraction sur la grille pour embrouiller les joueurs. L’IA tombe souvent dans le piège de ces fausses pistes, car elle se lance dans la résolution du jeu étape par étape sans considérer la situation dans son ensemble.

Si une grille contient ‘lundi’, ‘mardi’, ‘mercredi’ et ‘jeudi’, l’IA les regroupera probablement sans tenir compte du fait que la grille contient également ‘Morticia’, ‘Gomez’ et ‘Pugsley’, tous des personnages de la famille Addams qui pourraient être regroupés avec ‘mercredi’ (la fille de la famille).

Mariam Mustafa, l’une des étudiantes de Barnard et co-autrice :

« L’IA n’est pas douée pour considérer l’ensemble du puzzle comme un problème en soi, ce qui est l’une des plus grandes lacunes. »

L’IA étant entraînée à produire le mot suivant le plus probable, Tuhin Chakrabart ajoute que l’IA « dira la chose la plus évidente sans explorer les 16 mots ». Il conclut : « Il s’agit d’un raisonnement abstrait en présence de pertubateurs. C’est très difficile à résoudre pour les humains, alors pour les LLM, c’est encore plus difficile. »

Alors que les entreprises d’IA continuent de travailler à l’amélioration des capacités de raisonnement de leurs modèles, la conclusion pour les chercheurs à l’heure actuelle est claire : même après avoir ingéré d’immenses volumes de données (souvent en complète illégalité), l’IA ne parvient pas même à résoudre un petit casse-tête « que tout le monde adore détester », nommé Connections.

Retrouvez l’étude « Connecting the Dots: Evaluating Abstract Reasoning Capabilities of LLMs Using the New York Times Connections Word Game » sur arXiv à ce lien.