__


Alors que les équipes marketing lèvent des fonds en vantant une arrivée imminente de l’AGI, la réalité est que les IA du marché restent des incapables dans des domaines très simples.

L’IA est très loin de l’AGI

Depuis que ChatGPT a été lancé en accès libre fin novembre 2022 par OpenAI, une grande partie du monde s’est emballé pour les capacités de « l’intelligence artificielle ».

Et depuis, on a été régulièrement impressionné par ce que sont capables de produire les Grands Modèles de Langage (LLM) comme GPT-3.5, GPT-4, Llama 2, Claude, etc…

Mais bientôt un an et demi après l’effet wahou initial, il faut regarder les choses en face : les IA font des choses impressionnantes quand on regarde sous certains aspects, mais elles font aussi des erreurs qui peuvent sembler totalement aberrantes. On parle pudiquement d’hallucinations lorsqu’elles inventent des choses… mais on peut aussi parler de stupidité tant les IA les plus avancées du marché sont incapables de solutionner des choses que des enfants peuvent faire.

Un problème central que les plus grands chercheurs en IA ne parviennent pas à solutionner, et qui pose même la question de la pertinence d’entrainer des modèles de cette manière dans la perspective de créer de vrais intelligences artificielles (et pas seulement des super-plagieurs capables de reformuler habilement le résultat d’une recherche dans leurs méga bases de données).

Et tant que ces problèmes ne seront pas résolus, on peut douter de l’application réelle des IA dans notre société, faute de fiabilité :

  • Aurait-on envoyé des humains dans l’espace en utilisant pour faire les calculs une IA qui ne sait pas faire une multiplication niveau CM2
  • Utiliserait-on comme professeur principal ou de soutien scolaire une IA qui ne sait pas identifier une lettre dans une liste ?
  • Penserait-on vraiment à laisser décider un logiciel qui peut inventer à n’importe quel moment n’importe quelle énormité (hallucination) ?

Trois questions posées à l’IA qui montrent qu’elle reste loin d’une véritable intelligence

En regardant trois questions simples auxquelles les IA actuelles ne savent pas donner une bonne réponse, on voit que la route reste longue et que le mythe de l’AGI vanté si souvent par Sam Altman reste pour l’heure une chimère, et un argument marketing grossier.

1/ Identifier une lettre dans une liste

Voici la liste des Présidents français de la Cinquième République :

  • Charles de Gaulle (1958-1969)
  • Georges Pompidou (1969-1974)
  • Valéry Giscard d’Estaing (1974-1981)
  • François Mitterrand (1981-1995)
  • Jacques Chirac (1995-2007)
  • Nicolas Sarkozy (2007-2012)
  • François Hollande (2012-2017)
  • Emmanuel Macron (depuis 2017)

Un enfant de sept ans pourrait en quelques secondes voir lesquels ont la lettre « y » soit dans leur prénom soit dans leur nom : en l’occurence Valéry Giscard d’Estaing et Nicolas Sarkozy.

Et pourtant, ni GPT-3.5, ni Claude 3, ni Microsoft Copilot, ni Llama 2 (Meta) n’ont fourni la bonne réponse à la question « Donne moi tous les présidents de la république française sous la Cinquième République qui avaient la lettre y dans leur prénom ou dans leur nom de famille. »

On voit quand même que Claude 3 réussit à peu près, mais que le reste de sa réponse est fausse : la Vème n’a pas commencé sous la présidence de Mitterand, il n’arrivera au pouvoir que 23 ans plus tard…

2/ Faire une multiplication

N’importe quelle calculatrice de n’importe quel appareil qui en est équipé peut sans aucune erreur donner le résultat d’une multiplication depuis trente ou quarante ans.

Pourtant, aucune IA testée n’arrive à donner le résultat correct de « 3334441 x 4445556 ». Le résultat correct est 14 823 444 194 196.

Voici les résultats donnés par :

  • Llama 2 : 1467477929
  • Claude 3 : 14812460291696
  • GPT-3.5 : 1,481,562,173,599,6
  • Microsoft Copilot : 1 481 693 113 879 6

3/ Compter le nombre de jours entre deux dates

Le site gratuit ephemeride.com offre un calculateur « date à date » simple et efficace, qui réalise l’incroyable prouesse de faire une addition répondant à quelques règles simples. Une incroyable prouesse car aucune des IA testées n’a réussi le même exercice…

Voici les résultats obtenus pour la question « Combien de jours il y a eu entre le 15 mars 2009 et le 1er mars 2024 ? » :

  • Llama 2 : 14 812 jours
  • Claude 3 : 5 461 jours
  • GPT-3.5 : 5 479 jours
  • Microsoft Copilot : 5 181 jours

Le bon résultat était « il s’est écoulé 5465 jours soit 14 ans, 11 mois et 17 jours » (merci ephemeride.com).

C’est aussi intéressant de regarder le détail fourni par GPT-3.5 : décomposer par étape et obtenir le nombre de jours à additionner, puis faire cette addition… et se tromper dans le résultat d’une addition.

Le résultat de « 365+365+366+365+365+365+366+365+365+365+366+365+365+365+351 », c’est 5464, pas 5479 (merci Excel).

Oui, ChatGPT ne parvient pas à faire une addition de manière fiable…

Alors, en regardant ces trois exemples, auxquels on pourrait en ajouter des dizaines d’autres dans d’autres genres d’exercices, on voit que ces incapacités pathologiques à résoudre des problèmes enfantins repoussent à loin l’idée que l’IA deviennent omnisciente et équivalente aux capacités cérébrales d’un humain moyen.

Cependant, les choses s’accélèrent indéniablement, et les moyens alloués sont si important qu’on peut envisager que le gap IA – humain se résorbe très fortement dans les années à venir.