__

PaLM 2 : Tout ce que vous devriez savoir

Google a dévoilé son nouveau LLM, décliné en quatre tailles, pour plus d'usages !

Google a dévoilé son nouveau LLM, décliné en quatre tailles, pour plus d’usages !

Auteur / Autrice :

Google remonte sur le ring

Google n’est pas étouffé par la modestie en introduisant PALM 2 : “Lorsque vous regardez en arrière les plus grandes percées de l’IA au cours de la dernière décennie, Google a été à l’avant-garde de tant d’entre elles”.

Même si bien sûr énormément de choses dans l’IA telle qu’elle est aujourd’hui sont à mettre au crédit de Google (et de son ancien employé Geoffrey Hinton), ou de ses acquisitions, comme DeepMind de Demis Hassabis et Mustafa Suleyman (qui vient de lancer sa propre IA nommée “Pi” : voir notre article).

D’ailleurs Google profite de l’occasion pour revenir sur la fusion de ses équipes de DeepMind et de Google Brain, dont nous parlions dans un article dédié il y a quelques jours : “Nous réunissons ces deux équipes de classe mondiale en une seule unité, pour continuer à accélérer nos progrès : Google DeepMind.”

Google revient aussi sur les “réseaux de neurones”, et sur les “capacités surprenantes et délicieuses” qui émergent des “modèles de grande taille” comme les LLM. Les capacités émergentes, une idée qui revient régulièrement en ce moment ; Meta en parlait hier en présentant ImageBind, son IA à six sens (voir notre article). Mais une publication récente (à voir sur arXiv) parle de ces capacités émergentes comme d’un “mirage”, les liant en fait à l’humain derrière le modèle.

Reste que Google a compris : “ce n’est pas aussi simple que “plus c’est gros, mieux c’est””. Une formulation qui vient faire largement écho à la publication leaké d’un de ses ingénieurs, que nous relations (voir) la semaine dernière. Son rédacteur anonyme faisait l’éloge des LLM open source, utilisant massivement les bases leakées de LLaMA de Meta, dont les plus petites tailles peuvent être utilisées sur un simple smartphone ou sur un Macbook, avec des résultats impressionnant.

Google parle aussi de “débloquer la multimodalité”, ce qui fait là encore écho à ImageBind dévoilée hier par Meta (qui a un sens exceptionnel du timing qui ne doit probablement rien au hasard).

Enfin, Google rappelle “l’importance d’avoir un retour humain dans la boucle”, ce qui n’est pas anodin à l’heure des IA générales, mais qui fait surtout écho au rôle le plus important de l’humain dans les modèles actuels : l’étiquetage des données. (humour)

Tout savoir sur PaLM 2 :

PaLM 2, “notre modèle de langage de nouvelle génération”, est un modèle de langage à la pointe de la technologie “avec des capacités multilingues, de raisonnement et de codage améliorées”.

Un modèle que Google décline en quatre tailles : Gecko, Otter, Bison et Unicorn. Sans préciser pour autant les tailles de ces différentes bases. Lorsque Meta avait lancé LLaMA en février 2023, c’était également avec quatre tailles de modèles de formation, allant de 7 milliards à 65 milliards de paramètres : 7B, 13B, 33B et 65B.

Un LLM que Google présente autour de trois axes :

  • Multilingue : PaLM 2 a été formé sur un corpus de plus de 100 langues, ce qui “a considérablement amélioré sa capacité à comprendre, générer et traduire des textes nuancés – y compris des idiomes, des poèmes et des énigmes – dans une grande variété de langues”.
  • Raisonnement : Google vient combler là un déficit du rival : C’est assez connu, ChatGPT est assez intelligent mais ChatGPT ne sait pas compter. C’est assez troublant d’ailleurs. Or, le corpus de formation de PaLM 2 comporte des “articles scientifiques et des pages Web contenant des expressions mathématiques”. En conséquence, il démontre “des capacités améliorées en logique, en raisonnement de bon sens et en mathématiques”.
  • Codage : PaLM 2 attaque de front l’une des compétences “wahou” de GPT-4, le développement informatique. Et Google indique que son IA “excelle” en Python et JavaScript, mais qu’elle peut aussi créer du code en Prolog, Fortran et Verilog.

Google utilisera PaLM 2 dans le développement de son outil Bard (voir notre article), mais proposera aussi de s’en servir dans sa suite d’outil propriétaires, depuis Gmail et Google Docs (“pour vous aider à écrire”), jusqu’à Google Sheets (“vous aider à vous organiser”).

Deux déclinaisons spécialisées pour la santé et la cybersécurité

PaLM 2 a aussi sa déclinaison “santé”, nommé Med-PaLM 2. Elle peut “répondre aux questions et résumer les idées d’une variété de textes médicaux denses”, et ce d’autant que le modèle atteste de “résultats de pointe en matière de compétence médicale” puisqu’il a été “le premier LLM à fonctionner au niveau «expert» sur des questions de type “Medical Licensing Exam” (examen d’aptitude médicale) aux États-Unis”.

Ajout de dernière minute pour un effet supplémentaire ? Google annonce que Med-PaLM 2 se voit ajouter “maintenant des capacités multimodales pour synthétiser des informations telles que les rayons X et les mammographies”.

Google présente aussi Sec-PaLM, “une version spécialisée de PaLM 2 formée sur les cas d’utilisation de la sécurité et un saut potentiel pour l’analyse de la cybersécurité”. Sec-PaLM utilise l’IA pour aider à analyser et expliquer le comportement des scripts potentiellement malveillants, et mieux détecter quels scripts sont réellement des menaces pour les personnes et les organisations “en un temps record”.

Enfin, comme OpenAI, Google compte bien sûr les développeurs tiers pour élargir les usages de son IA, et propose désormais aux développeurs de s’inscrire pour utiliser le modèle PaLM 2 via l’API.

(Déjà) Après PaLM, Google introduit Gemini

PaLM 2 a peine dévoilé, Google introduit sa prochaine IA multimodale, nommée Gemini :

“Nous travaillons déjà sur Gemini – notre prochain modèle créé à partir de zéro pour être multimodal, très efficace pour les intégrations d’outils et d’API, et conçu pour permettre de futures innovations, comme la mémoire et la planification. 

Gemini est toujours en formation, mais il présente déjà des capacités multimodales jamais vues auparavant dans les modèles précédents. 

Une fois affiné et rigoureusement testé pour la sécurité, Gemini sera disponible en différentes tailles et capacités, tout comme PaLM 2, pour s’assurer qu’il peut être déployé sur différents produits, applications et appareils pour le bénéfice de tous.”

Une activité intense qui devrait rythmer les actualités IA de cette année 2023, avec bien sûr les rivaux actuels Meta, Microsoft, ou encore Nvidia. En attendant Apple ?