__

QLoRA pourrait tout changer aux LLM

Avec les capacités de QLoRA, chacun pourrait bientôt entraîner sa propre IA sur son téléphone, avec les LLM les plus performants du marché.

Avec les capacités de QLoRA, chacun pourrait bientôt entraîner sa propre IA sur son téléphone, avec les LLM les plus performants du marché.

Auteur / Autrice :

QLoRA, nouvelle technique de finetune de LLM qui pourrait tout changer

Alors que le monde n’a d’yeux que pour Nvidia en ce moment, QLoRA est une nouvelle avancée réalisée dans le domaine de l’intelligence artificielle qui est à relever.

QLoRA est une nouvelle technique de finetuning super efficace, pensée pour réduire l’utilisation de la mémoire nécessaire pour finetuner un modèle à 65 milliards de paramètres. En fait, QLoRA peut faire ce finetune sur un seul GPU de 48GB, tout en préservant les performances de la tâche de finetuning en 16 bits.

Les concepteurs expliquent aussi plus en détail que “QLoRA rétropropage les gradients à travers un modèle de langage pré-entraîné quantifié et gelé de 4 bits dans des adaptateurs de rang inférieur (LoRA)”.

Ils prétendent aussi que leur meilleure famille de modèles, baptisée Guanaco, surpasse “tous les modèles précédents publiés en open sur le benchmark Vicuna, atteignant 99,3% du niveau de performance de ChatGPT tout en ne nécessitant que 24 heures de mise au point sur un seul GPU”. Ce qui est assez époustouflant en terme de statistique, surtout lorsqu’on sait le niveau de ChatGPT. Un test comparatif est d’ailleurs mis en ligne (voir en bas de l’article).

Il faut quand même nuancer : cette première publication sur QLoRA souligne que les benchmarks actuels de chatbot ne sont pas assez fiables pour évaluer avec précision les niveaux de performance des chatbots. Des méthodes d’évaluation plus adaptées vont être très importantes à développer pour mieux jauger les innovations dans le domaine (et plus largement dans l’IA). Un point intéressant est tout de même que ces évaluations ont été faites par des humains, mais aussi par… GPT-4 ! Et “les évaluations GPT-4 sont une alternative peu coûteuse et raisonnable à l’évaluation humaine”.

Les concepteurs expliquent aussi que l’exploit n’est pas réalisé sans avoir mis au point un certain nombre d’innovations “pour économiser de la mémoire sans sacrifier les performances”. QLoRA introduit :

  • Le NormalFloat 4 bits (NF4), un nouveau type de données qui est théoriquement optimal pour les poids normalement distribués
  • La Double Quantification pour réduire l’empreinte mémoire moyenne en quantifiant les constantes de quantification
  • Paged Optimizers, un protocole pour gérer les pics de mémoire.

La famille Guanaco reprend les quatre tailles des bases LLaMA de Meta : 7 milliards de paramètres, 13 milliards, 33 milliards et 65 milliards.

En somme, QLoRA propose une technique de finetune qui pourrait permettre de limiter la consommation de ressources – et donc les ressources techniques elles-mêmes – pour affiner un LLM. C’est la première qui permet de modifier les modèles avec 33 milliards de paramètres sur un GPU standard et grand public, et ceux avec 65 milliards de paramètres sur un GPU professionnel, sans compromettre les performances.

Chacun son LLM de poche sur iPhone 15 en 2024 ?

Derrière les modalités techniques, qu’est-ce que ça veut dire ? En fait, QLoRA semble concrétiser l’idée que d’ici un an, des LLM entièrement personnalisables du même type que ChatGPT seront disponibles pour tout le monde.

Dès aujourd’hui, en utilisant QLoRA, n’importe qui peut affiner un LLM de 33B paramètres en seulement quelques heures. Donc on peut largement supposer que d’ici un an, des LLM personnalisés à >100 milliards de paramètres seront largement répandus.

“Nous estimons qu’avec un iPhone 12 Plus, QLoRA peut faire le fine-tune de 3 millions de tokens par nuit pendant que le téléphone est en charge”

Bon, dans un premier temps, cela devrait surtout être extraordinairement utile pour les chercheurs et les petites équipes qui ne disposent peut-être pas des ressources des géants de la technologie, ou les “petits” développeurs/curieux dans leur coin. Et c’est déjà beaucoup ! Ce sont eux qui font progresser l’IA open source à très très grande vitesse, et qui imposent aux mastodontes de réévaluer leur stratégies fermées.

Dans la publication leakée d’un cadre de Google il y a quelques semaines (voir notre article), il insistait d’ailleurs déjà sur la croissance prodigieuse de l’univers open source de l’IA et des LLM maisons, portée par les bases LLaMA leakées de Meta, devenues en quelques semaines les références. Ce qui ne devrait pas s’arrêter avec QLoRA.

Pour aller plus loin :