Le Chief AI Scientist de Meta a poussé un coup de gueule et tenu à rappeler quelques points simples à propos des paramètres et des tokens, de leur rôle et de leur volume, et de l’importance (relative) que cela a vraiment.
Auteur / Autrice :
Yann Le Cun, patron de l’IA chez Meta et ancien Prix Turing avec Geoffrey Hinton
À 63 ans, Yann Le Cun n’est pas le visage le plus médiatique de la tech, et c’est peu de dire qu’il est méconnu en France. Et pourtant, Yann Le Cun est et français, et “Chief AI Scientist” de Meta (Facebook) : deux casquettes – deux qualités extraordinaires – qui devraient faire de Yann Le Cun une personnalité de premier plan dans l’hexagone, à un niveau sensiblement équivalent de celui de Thomas Pesquet.
D’autant qu’en plus d’être à la tête du département “Intelligence Artificielle” (IA) de l’une des entreprises les plus actives sur le sujet ces derniers mois (et qui a dévoilé de nombreux projets à la pointe de la technologie), Yann Le Cun est aussi l’un des deux hommes qui partagent le prix Turing 2018 avec Geoffrey Hinton.
Geoffrey Hinton, un nom très médiatisé il y a quelques mois après que ce spécialiste de l’intelligence artificielle et des réseaux de neurones artificiels ait quitté Google (où il travaillait depuis des 2013, ayant largement contribué à construire la technologie IA actuelle) et lancé l’alerte dans une interview donnée au New York Times. Hinton expliquait que “les futures versions de cette technologie pourraient être un risque pour l’humanité” et que “une part de lui-même regrette l’œuvre de sa vie”, parlant même de perspectives “effrayantes” quant à l’avenir de l’IA et de son développement.
Yann Le Cun remet les points sur les i
Yann Le Cun ne semble pas avoir pris la même trajectoire que Geoffrey Hinton, et travaille donc avec Meta à faire progresser l’intelligence artificielle, via plusieurs chantiers majeurs :
- LLaMA et LLaMA 2
- SeamlessM4T
- ImageBind
- Segment Anything
- AudioCraft
Une liste très loin d’être exhaustive, et qui ne tient pas comptes de nombreux autres modèles, langages et librairies (Fairseq et Vizseq, MUSE…). Il est aussi directement à la tête de la technologie I-JEPA, “une nouvelle architecture destinée à surmonter les principales limitations des systèmes d’IA les plus avancés aujourd’hui”.
Bref, Yann Le Cun “pèse” plus que la plupart des gens dans l’évolution récente de l’IA, et sa parole en a d’autant plus de poids. Aussi, lorsque le français prend un peu de son temps pour remettre les pendules à l’heure sur certains points simples, l’information gagne à être connue et partagée !
Le 26 septembre, sur Twitter (ou X), Yann Le Cun s’adresse directement aux journalistes de son audimat, et explique que “cela n’a absolument aucun sens d’écrire : “PaLM 2 est entraîné sur environ 340 milliards de paramètres. En comparaison, GPT-4 est censé être entraîné sur un ensemble massif de données de 1,8 trillion de paramètres.””
Visiblement agacé, il explique que “Dire “a formé un ensemble de données de X milliards de paramètres” révèle que vous ne comprenez absolument pas de quoi vous parlez.”
Et – sympa – il simplifie :
“Il serait plus logique d’écrire :
PaLM 2 possède environ 340 milliards de paramètres et est entraîné sur un ensemble de données de 2 milliards de tokens (ou mots). En comparaison, GPT-4 posséderait 1,8 trillion de paramètres entraînés sur des milliers de milliards de tokens.”
Avant d’expliquer en des termes clairs :
“Les paramètres sont des coefficients à l’intérieur du modèle qui sont ajustés par la procédure de formation. L’ensemble de données est ce sur quoi vous entraînez le modèle. Les modèles linguistiques sont entraînés avec des tokens qui sont des unités de sous-mots (par exemple, préfixe, racine, suffixe).”
Il apporte aussi de la nuance dans l’actuel course aux tokens que peut parfois tenter d’inventer la presse, qui se sert des paramètres comme d’une métrique simple et accessible, mais malheureusement mal utilisée :
“Par ailleurs, un modèle comportant davantage de paramètres n’est pas nécessairement meilleur. Il est généralement plus coûteux à exécuter et nécessite plus de mémoire vive qu’une simple carte GPU ne peut en avoir.”
Un point qu’il étaye avec un exemple à propos de GPT-4 :
“GPT-4 serait un “mélange d’experts”, c’est-à-dire un réseau neuronal composé de plusieurs modules spécialisés, dont un seul est exécuté sur une invite (ou prompt NDLR) particulière. Le nombre effectif de paramètres utilisés à tout moment est donc inférieur au nombre total.”
Ce qui n’est pas sans rappeler… le cerveau : le mythe couramment cité à propos des “10% du cerveau” que l’on utiliserait réellement trouve son origine dans le fait qu’on a recours à des zones précises du cerveau pour des fonctions précises, et que l’on utilise jamais toutes les ressources du cerveau en même temps. Je me permets d’en profiter pour rappeler que si quelqu’un vous explique (encore, en 2023) que la communication est à 93% non verbale et que les mots pèsent seulement pour 7% dans le message, et essaye de vous vendre quelque chose au passage, cette personne est un escroc.
Pour aller plus loin : https://ai.meta.com/