__


Google a dévoilé son IA Gemini, dotée de trois modèles Ultra, Pro et Nano, présentée comme multimodale et dont les performances dépasseraient GPT-4 d’OpenAI à tous les niveaux.

Google sort (enfin) Gemini et vient rivaliser avec OpenAI

Les retards et les reports semblaient inlassablement s’accumuler autour du projet « Gemini » de Google.

Plusieurs mois après le lancement raté de Bard, on attendait au tournant le groupe Alphabet. Un groupe qui regarde depuis un an d’un oeil très inquiet la montée en puissance de OpenAI, son interface ChatGPT et ses modèle d’intelligence artificielle GPT-3.5 puis GPT-4.

Et pour cause, les IA d’OpenAI semblaient avoir le potentiel pour devenir rapidement des rivaux crédibles (voire supérieurs) à la recherche sur Google. Le géant pouvait alors s’inquiéter de voir surgir en quelques mois un vrai rival capable de prendre des parts de marché à son monopole, ce que n’avait jusque là jamais vraiment réussi Microsoft.

Depuis, les choses se sont nuancées : ChatGPT/GPT-4 est un excellent LLM, le meilleur du marché, mais n’est pas pour le moment un Google-killer : ni dans les faits, ni dans l’usage et l’adoption du grand public. En fait, au coeur de l’été, on pouvait même se demander si ChatGPT n’était pas finalement que l’allié préféré des collégiens tricheurs, alors que la plateforme accusait une baisse de trafic, déjà, moins de 10 mois après son lancement et ses débuts en fanfare.

De nombreuses annonces (ChatGPT Entreprise, le DevDay…), les leaks orientés du chiffre d’affaires à venir (1,3 milliard de dollars sur un an) et le lancement de nouvelles fonctionnalités ont néanmoins fait de l’automne 2023 une période faste pour OpenAI… malgré les remous autour de Sam Altman, licencié sans ménagement puis réintégré quatre jours plus tard.

Aussi, même si Bard avait été régulièrement actualisé depuis sa sortie, Google/Alphabet devait réagir et lancer son « vrai » modèle maison surpuissant, teasé depuis le coeur de l’été 2023 : Gemini. Comme évoqué, il a été question depuis plusieurs semaines d’un report de sa présentation à janvier prochain, voire dans le courant du premier trimestre 2024.

Mais finalement, par surprise, Google a annoncé ce mercredi 6 décembre la sortie de Gemini !

Un rival crédible de GPT-4 d’OpenAI

L’annonce est d’abord introduite par des mots de Sundar Pichai, PDG de Google et d’Alphabet, qui en parlant « d’accélérer le progrès humain et d’améliorer la vie » grâce au « changement technologique » a fait tressaillir le mouvement e/acc.

Et de fait, le CEO est très très impressionné par l’ère actuelle de l’IA, et pense que « la transition à laquelle nous assistons actuellement avec l’IA sera la plus profonde de notre vie, bien plus importante que le passage au mobile ou au Web qui l’a précédé ».

Après un rapide auto-satisfecit (parlant de « des millions de personnes utilisent désormais l’IA générative dans nos produits pour faire des choses qu’elles ne pouvaient pas faire il y a à peine un an »), Sundar Pichai aborde alors Gemini, le modèle le plus performant et le plus général à ce jour du groupe, qui aurait « des performances de pointe selon de nombreux critères de référence »

« Notre première version, Gemini 1.0, est optimisée pour différentes tailles :

  • Gemini Ultra — notre modèle le plus grand et le plus performant pour les tâches très complexes.
  • Gemini Pro : notre meilleur modèle pour évoluer vers un large éventail de tâches.
  • Gemini Nano — notre modèle le plus efficace pour les tâches sur appareil. »
Les trois modèles de Gemini : Ultra, Pro et Nano.

Demis Hassabis, CEO et co-fondateur de DeepMind (devenu récemment Google DeepMind, une fusion de Google Research et des équipes DeepMind) prend la suite de cette annonce, et explique que Gemini a été conçu « dès le départ pour être multimodal ». Ce qui signifie que Gemini peut « comprendre, fonctionner et combiner de manière transparente différents types d’informations, notamment le texte, le code, l’audio, l’image et la vidéo ».

Et très rapidement, Google met en avant les performances de Gemini face à GPT-4, qui semble avoir été le maître étalon assumé du développement de Gemini.

Comme vous pouvez le voir sur les évaluations ci-dessous, Gemini est exclusivement comparé à GPT-4, et il semble que ses créateurs ont eu absolument à coeur de dépasser le modèle d’OpenAI dans chaque évaluation :

Première série d’évaluations de Gemini face à GPT-4.
Seconde série d’évaluations de Gemini, sur l’aspect multimodale, face à GPT-4V.

Ce qui est à la fois impressionnant et un peu caricatural…

Une IA nativement multimodale

On peut cependant féliciter le travail de Google DeepMind, qui a pensé et formé Gemini 1.0 pour reconnaître et comprendre simultanément du texte, des images, du son « et bien plus encore », afin de mieux comprendre les informations nuancées et de pouvoir répondre aux questions relatives à des sujets complexes.

Un point fort qui ferait de Gemini un outil « particulièrement efficace » pour expliquer le raisonnement « dans des matières complexes comme les mathématiques et la physique ». Et donc de glisser un petit tacle au point faible historique du LLM d’OpenAI, sa longue incapacité à résoudre des problèmes mathématiques plus ou moins difficiles (depuis largement résolue).

Et déjà capable de produire du code

Outre le texte, l’image, l’audio et la vidéo, Gemini peut « comprendre, expliquer et générer du code de haute qualité » dans les langages de programmation « les plus populaires au monde », comme Python, Java, C++ et Go. L’entreprise a même adapté une version spécialisée de Gemini pour créer AlphaCode 2, qui vient prendre la suite de AlphaCode lancé il y a deux ans.

Ce qui n’est pas surprenant, puisque c’est un autre point fort des autres LLM et outils du marché : faire du code est même l’un des axes d’adoptions des IA les plus répandues.

Les usages de ChatGPT par catégorie, selon une étude faite sur plus de 100 000 conversations.

Sécurité et risque

Dès ses premiers mots, Sundar Pichai évoquait très vite la sécurité autour du développement et de l’utilisation de l’IA, et de Gemini :

« Nous abordons ce travail avec audace et responsabilité. Cela signifie être ambitieux dans nos recherches et rechercher les capacités qui apporteront d’énormes avantages aux personnes et à la société, tout en intégrant des garanties et en travaillant en collaboration avec les gouvernements et les experts pour faire face aux risques à mesure que l’IA devient plus performante. « 

Et de fait, l’annonce de Gemini donne une place importante à la sécurisation qui a entouré et entoure toujours Gemini :

« Chez Google, nous nous engageons à faire progresser l’IA audacieuse et responsable dans tout ce que nous faisons. En nous appuyant sur les principes d’IA de Google et sur les politiques de sécurité strictes de nos produits, nous ajoutons de nouvelles protections pour tenir compte des capacités multimodales de Gemini. À chaque étape du développement, nous prenons en compte les risques potentiels et nous efforçons de les tester et de les atténuer.

Gemini propose à ce jour les évaluations de sécurité les plus complètes de tous les modèles d’IA de Google, y compris en ce qui concerne les biais et la toxicité. »

Google a pris aussi en compte les techniques de manipulation comportementale qui ont prouvé plusieurs leurs capacités à détourner les LLM et en obtenir des informations ou des résultats inappropriés.

« Nous avons mené de nouvelles recherches sur des domaines de risque potentiels tels que la cyber-infraction, la persuasion et l’autonomie, et avons appliqué les meilleures techniques de tests contradictoires de Google Research pour aider à identifier les problèmes de sécurité critiques avant le déploiement de Gemini. »

Comme souvent, l’externalisation du renforcement humain (RLHF) est au coeur de la solution, et Google explique travailler « avec un groupe diversifié d’experts et de partenaires externes pour tester nos modèles ». Mais Gemini a d’ores et déjà été formé et éprouvé avec « Real Toxicity Prompts », un ensemble de 100 000 invites avec différents degrés de toxicité extraites du Web.

Enfin :

« Pour limiter les dommages, nous avons construit des classificateurs de sécurité dédiés pour identifier, étiqueter et trier les contenus impliquant de la violence ou des stéréotypes négatifs, par exemple. Combinée à des filtres robustes, cette approche à plusieurs niveaux est conçue pour rendre Gemini plus sûr et plus inclusif pour tout le monde. De plus, nous continuons à relever les défis connus pour les modèles tels que la factualité, le fondement, l’attribution et la corroboration. »

Les disponibilités de Gemini

Gemini, et sa première version Gemini 1.0, va être développée dans toute la famille de produits de Google et du groupe Alphabet, dans les prochaines semaines et les prochains mois. Un déploiement étalé qui permettra aussi de corriger au fur et à mesure les failles et erreurs qui ne manqueront pas d’être découvertes.

Gemini dans Bard

Dès aujourd’hui, Bard utilise une version affinée de Gemini Pro, le modèle intermédiaire de la gamme. Google parle de « la plus grande mise à jour de Bard depuis son lancement »

Ce Bard boosté à Gemini est et sera disponible en anglais dans plus de 170 pays et territoires, et le groupe prévoit « de l’étendre à différentes modalités et de prendre en charge de nouvelles langues et de nouveaux emplacements dans un avenir proche ».

Et début 2024, Google lancera Bard Advanced : « une nouvelle expérience d’IA de pointe qui vous donne accès à nos meilleurs modèles et capacités, à commencer par Gemini Ultra ».

Gemini dans le smartphone Google Pixel

Le Pixel 8 Pro est le premier smartphone conçu pour exécuter Gemini Nano, le plus petit des trois modèles de Gemini. Une version spéciale qui intègre de nouvelles fonctionnalités telles que « Résumer » dans l’application Recorder et le déploiement de « Smart Reply » dans Gboard. Des fonctions qui sont d’abord lancés dans WhatsApp, puis « d’autres applications de messagerie » auront les fonctionnalités « l’année prochaine ».

Gemini dans la recherche Google

Depuis plusieurs mois et une officialisation très très discrète au début de l’été 2023, Google vole scrappe analyse et utilise tous les contenus indexés dans son moteur de recherche pour former ses outils d’IA, et donc Gemini.

Dans le même temps, Google a déployé sa fonction SGE (Search Generative Experience) dans plusieurs pays, qui propose une sortie version GPT à certaines recherches, directement dans la recherche Google.

La SGE, le futur de la recherche Google.

Gemini sera progressivement déployé comme moteur de la SGE, et devrait proposer des réponses toujours plus performantes aux utilisateurs.

Gemini dans les autres produits, dont Chrome

Comme évoqué précédemment, Gemini est déployé dans une version spéciale dans AlphaCode 2.

À partir du 13 décembre, les développeurs et les entreprises clientes pourront accéder à Gemini Pro via l’API Gemini dans Google AI Studio ou Google Cloud Vertex AI .

Et dans les prochains mois, Gemini sera déployé dans Google Ads, Google Duet AI et Google Chrome. On ne sait pas encore sous quelle forme sera proposé Gemini dans Chrome, et si Alphabet osera proposer une alternative ultra-performante de Google dans son navigateur… en dehors de Google.

Qu’attendre vraiment de Gemini ?

Avec cette présentation surprise de Gemini, Google/Alphabet prend donc le marché par surprise, et dévoile un challenger crédible de GPT-4, l’IA la plus performante du marché.

Mais au-delà des évaluations et des tests, Gemini devra prouver ses performances à l’utilisation. Est-ce que l’IA aura vraiment la capacité à faire oublier GPT-4 ? Sera-t-elle soumise à des hallucinations régulières et handicapantes ? Reproduira-t-elle les biais sociaux et les discriminations ?

On peut aussi se demander comment Gemini va traiter en temps réel les nouveaux articles et contenus publiés chaque jour sur Internet. L’IA de Google va-t-elle avaler et régurgiter les contenus des éditeurs sans leur reverser le moindre centime de dédommagement ? Une fois encore, la position de Google semble problématique.

On regardera aussi avec intérêt les réactions des concurrents : Que va faire Microsoft, dont on sait que les équipes développent en interne des IA rivales (et rivales de OpenAI, mais c’est un autre sujet). Que va faire Meta, qui développe un écosystème open source et est l’une des locomotives du secteur ?

Et enfin, quelle sera la réponse d’OpenAI ? Quelle barre sera mise avec GPT-5 ? Et quand ?

Pour en savoir plus sur Gemini :