ChatGPT devient de plus en plus bête : Une étude pointe une chute drastique des performances de ChatGPT entre mars et juin 2023.
Auteur / Autrice :
Les performances de ChatGPT se dégradent
Les performances de ChatGPT sont en baisse, et l’IA de OpenAI semble aller de mal en pis.
Et ce n’est pas votre serviteur qui le dit, mais le CTO de Databricks Matei Zaharia (Databricks n’est pas tout à fait n’importe quelle entreprise, puisque la start-up a levé 2,6 milliards de dollars en 2021 en deux temps, et a fait l’acquisition de MosaicML pour 1,3 milliard de dollars, en juin dernier), et deux chercheurs des universités de Stanford et de Berkeley : Lingjiao Chen et James Zou.
Sur Twitter, Matei Zaharia explique :
« Beaucoup de gens se demandent si les performances de #GPT4 et #ChatGPT ont évolué avec le temps, donc Lingjiao Chen, et moi les avons mesurées. Nous avons constaté de grands changements, y compris certaines fortes diminutions dans certaines tâches de résolution de problèmes. »
Et il développe ensuite :
« Par exemple, le taux de réussite de GPT-4 sur la question « ce nombre est-il premier ? réfléchissez étape par étape » est passé de 97,6 % à 2,4 % entre mars et juin, tandis que GPT-3.5 s’est amélioré. Le comportement face à des entrées sensibles a également changé. D’autres tâches ont connu des changements moins importants, mais il y a définitivement des changements significatifs dans le comportement de LLM (modèle de langage massivement multilingue). Nous souhaitons réaliser une étude plus approfondie à ce sujet et aimerions avoir vos suggestions sur les comportements à tester ! »
Mais il n’y pas que Matei Zaharia qui a observé cette baisse de performance de ChatGPT. Santiago Valdarrama, un expert en Machine Learning et notamment en Computer Vision, note de son côté :
« GPT-4 se détériore avec le temps, plutôt que de s’améliorer. De nombreuses personnes ont signalé avoir remarqué une dégradation significative dans la qualité des réponses du modèle, mais jusqu’à présent, tout cela était purement anecdotique. Mais maintenant, nous en avons la certitude. »
Une étude montre que ChatGPT est de plus en plus bête
Et s’ils en ont la certitude, c’est grâce à leur nouvelle étude nommée « How Is ChatGPT’s Behavior Changing over Time? », publiée le mardi 18 juillet 2023.
Que dit d’abord cette étude ? Que la réponse à la question de savoir quand et comment ces modèles sont mis à jour au fil du temps est opaque. Lingjiao Chen, James Zou et Matei Zaharia ont néanmoins comparé les réponses de l’IA avec GPT-4 et GPT-3.5 en mars et en juin, autour de quatre axes :
- Résoudre des problèmes mathématiques
- Répondre à des questions sensibles/dangereuses,
- Générer du code
- Raisonnement visuel
Et les résultats démontrent comment la version de GPT-4 en juin est objectivement moins performante sur certaines tâches que celle qui avait été lancé en mars.
L’équipe a évalué les modèles à l’aide d’un ensemble de données de 500 problèmes où les deux versions (GPT 3,5 et GPT 4) devaient déterminer si un entier donné était premier. En mars, GPT-4 a répondu correctement à 488 de ces questions. En juin, il n’a obtenu que 12 réponses correctes. Passant d’un taux de réussite de 97,6 % à 2,4 % ! Il est intéressant de noter que GPT-3.5, en juin 2023, était bien meilleur que GPT-3.5 en mars dernier dans cette tâche, alors même que c’est la version gratuite proposée au grand public, et pas le grand frère très onéreux GPT 4.

Autre point : L’équipe a utilisé la méthode « Chain-of-Thought » pour aider le modèle à raisonner : « Est-ce que 17077 est un nombre premier ? Réfléchissez étape par étape. »
Chain-of-Thought est une technique populaire qui améliore considérablement les réponses. Malheureusement, la dernière version de GPT-4 n’a pas généré d’étapes intermédiaires et a plutôt répondu par un simple « Non ». Une réponse qui est… fausse.

Pire, même la partie « génération de code » s’est détériorée, elle aussi. Une fonctionnalité qui faisait pourtant partie des grandes fiertés de GPT 4.
L’équipe a créé un ensemble de données avec 50 problèmes simples de LeetCode et mesuré combien de sorties générées par GPT-4 ont fonctionné sans modifications. La version de mars a réussi dans 52% des problèmes, mais ce taux est tombé à seulement 10% avec la version de juin.
Pourquoi une telle baisse de performances ?
On sait que. OpenAI effectue des changements de manière continue sur ses outils, mais on ignore comment le processus fonctionne, quand ont lieu les modifications, et comment l’entreprise évalue si les modèles s’améliorent ou au contraire régressent.
Plusieurs rumeurs laissent entendre qu’ils utilisent plusieurs modèles GPT-4 plus petits et spécialisés qui agissent de manière similaire à un grand modèle, mais sont moins coûteux à exécuter. Lorsqu’un utilisateur pose une question, le système décide vers quel modèle diriger la requête. Moins cher et plus rapide, cela ressemble à une bonne idée du point de vue d’une entreprise. Mais est-ce que cette nouvelle approche pourrait être la cause de la dégradation de la qualité ?
Une partie des ressources pourraient aussi avoir été réalloué vers des fonctionnalités très précises, et très gourmandes, comme le récent Code Interpreter (voir notre article).
Néanmoins, on ne sait pas pour l’heure quelles sont les raisons exactes de cette modification des performances de ChatGPT, ni si OpenAI a prévu des mesures pour corriger cette baisse de performances. Les principaux dirigeants de l’entreprise, Sam Altman et Greg Brockman, n’ont pas réagi à cette étude.
Baisse de performance de ChatGPT, lien vers l’étude : https://arxiv.org/pdf/2307.09009.pdf


