__

“ChatGPT peut désormais voir, entendre et parler” : OpenAI veut achever Siri et Alexa, avant de tuer Google


Avec sa dernière mise à jour, ChatGPT devient un concurrent direct de Siri et Alexa, et vise directement Google.

Auteur / Autrice :

ChatGPT peut voir, entendre et parler

Sam Altman était aujourd’hui loin, très loin de la Cerebral Valley, et des émulations qui agitent et remuent les nouvelles économies de l’intelligence artificielle.

Le CEO de OpenAI était à Taipei (Capitale de Taïwan), pour une conférence organisée par Terry Gou, fondateur de Foxconn et actuel candidat à la présidence de l’État. Il a parlé régulation, crainte, et modèles “10 000 fois plus puissants que GPT-4” (voir notre article).

Ce même jour, sa société publiait un billet de blog, dont le titre laissait peu de place au suspens : “ChatGPT peut désormais voir, entendre et parler”.

Dans l’article, OpenAI explique commencer “à déployer de nouvelles fonctionnalités vocales et image dans ChatGPT” pour proposer “un nouveau type d’interface plus intuitif en vous permettant d’avoir une conversation vocale ou de montrer à ChatGPT de quoi vous parlez”.

Car pour OpenAI, la voix et l’image offrent davantage de façons d’utiliser ChatGPT dans la vie de tous les jours :

  • “Prenez une photo d’un point de repère pendant votre voyage et discutez en direct de ce qui est intéressant à ce sujet. “
  • “Lorsque vous êtes à la maison, prenez des photos de votre réfrigérateur et de votre garde-manger pour savoir ce qu’il y a pour le dîner (et posez des questions de suivi pour une recette étape par étape).”
  • “Après le dîner, aidez votre enfant à résoudre un problème de mathématiques en prenant une photo, en encerclant l’ensemble du problème et en lui demandant de partager des indices avec vous deux.”

La voix

En somme, ChatGPT devient ici une sorte de Siri, le cerveau en plus :

“Vous pouvez désormais utiliser la voix pour engager une conversation avec votre assistant. Parlez avec lui lors de vos déplacements, demandez une histoire au coucher pour votre famille ou réglez un débat à table.”

Pour créer des voix, OpenAI a fait à des comédiens professionnels, mais a mis au point “un nouveau modèle de synthèse vocale, capable de générer un son de type humain à partir de seulement du texte et de quelques secondes d’échantillons de parole”. Cinq voix peuvent déjà être essayées, directement dans l’article : Juniper, Sky, Cove, Ember, Breeze. Whisper, l’outil de reconnaissance vocale (open source) qui retranscrit les paroles en texte, est toujours de la partie.

Les images

Dans un fonctionnement plus proche de ce qu’a lancé Google avec Google Lens, vous pouvez proposer à ChatGPT une ou plusieurs images, et le bot vous proposera des réponses adaptées en rapport :  

“Dépannez pourquoi votre gril ne démarre pas, explorez le contenu de votre réfrigérateur pour planifier un repas ou analysez un graphique complexe pour des données liées au travail. Pour vous concentrer sur une partie spécifique de l’image, vous pouvez utiliser l’outil de dessin de notre application mobile.”

Des images que vous pouvez prendre directement avec votre appareil photo sur votre téléphone, ou que vous pouvez importer de votre galerie.

Le chatbot devient toujours plus “multimodal” et avance vers l’AGI

OpenAI explique aussi que ce sont les modèles multimodaux de GPT-3.5 et GPT-4 qui sont à l’oeuvres pour la compréhension des images. La multimodalité est l’axe qui doit permettre aux IA de devenir entièrement polyvalente, passant du texte à l’image à la voix sans barrière technique. Une IA ayant in fine des sens et des capacités humaines : lire, écrire, parler, produire, dessiner, inventer…

OpenAI évoque aussi l’AGI, que l’entreprise veut “créer” (parlant d’un “objectif”) mais la souhaitant “sûre et bénéfique”. Aussi, elle déploie ses nouvelles fonctionnalités progressivement, pour en obtenir des feedback, dont découlerons “des améliorations ” afin “d’affiner l’atténuation des risques au fil du temps tout en préparant chacun à des systèmes plus puissants à l’avenir”. Avant de conclure : “Cette stratégie devient encore plus importante avec des modèles avancés impliquant la voix et la vision.”

Des options pour les abonnés aux offres payantes de OpenAI

Comme DALL-E 3, annoncé la semaine dernière (voir notre article sur les premières images extraordinaires de cette IA qui vient concurrence Midjourney), ces fonctions de voix et d’image de ChatGPT ne seront proposés qu’aux abonnés des services payants GPT Plus et Entreprise proposés par OpenAI.

Siri et Alexa, les premières victimes : Google bientôt hors-service ?

Même si ces fonctionnalités sont réservées aux utilisateurs payants de ChatGPT, rien n’indique que dans un avenir potentiellement proche elles ne rentrent dans le lot des fonctionnalités gratuites. Une fois une période de tests et de mise au point achevée, ou en fonction de l’évolution d’autres produits (en interne ou chez les concurrents).

Quoi qu’il en soit, les assistants vocaux sont les premières cibles de OpenAI : en donnant à ChatGPT la parole, l’outil devient immédiatement un concurrent de Siri et de Alexa… le cerveau en plus. Siri est désespérément bête et limité, et je n’ai jamais vu personne demander autre chose à Alexa que de lancer une playlist (ringarde) ou de monter le son.

Imaginer les capacités, le savoir et la puissance de GPT-4 dans un assistant de type Siri semble déjà un peu vertigineux en terme de gap technologique.

Mais OpenAI ne s’arrête pas là, en lui donnant un sens de plus que ses concurrents : la vue. Si la fonction de reconnaissance d’image et de compréhension qui en découle est à la hauteur des autres services de OpenAI, un assistant ChatGPT commence à devenir un allié du monde réel plus utile encore qu’un simple Siripedia qui parle.

Mais il ne faut pas s’y tromper : la vraie cible d’OpenAI s’appelle Google. Le moteur de recherche vieillissant ne sait plus sur quel pied danser face à l’IA, et le fiasco de sa dernière mise à jour n’est qu’accentué par les récentes déclarations de John Mueller himself sur Twitter :

Dans un monde où la porte d’entrée monopolistique sur internet (Google) est spammée par des contenus pensés pour le SEO et écrits par des robots (ou des spécialistes du SEO, ce qui n’est pas véritablement mieux), une alternative qui prendrait un chemin radicalement différent aurait une carte à jouer.

C’est le sens d’OpenAI : avec son IA dotée d’un savoir universel, le service pourrait proposer des réponses “objectivement” utiles (c’est très relatif tout de même). Et pas des réponses formatées pour l’algorithme de Google dans le but d’atterrir page 1, en première ou en seconde place (les fameux SERP).

Un sujet bien plus large que ces quelques lignes, qui sera probablement la clef de voûte de ce que deviendra internet dans les années à venir : car qui va créer encore du contenu par passion, pour les utilisateurs, s’il ne peut plus être monétisé, n’ayant plus d’espace entre un Google perdu entre l’IA et le SEO (donc un contenu qui ne sera jamais en première page), et OpenAI et son intelligence artificielle universelle toujours plus puissante ? (ou les concurrents, comme Meta)

Un problème qui existe cependant déjà, d’où le fameux effet “Reddit search”, qui pousse les utilisateurs à demander à Google des résultats provenant de Reddit, car écrits par des humains pour des humains, sans notion de classement sur Google.

Google en tout cas travaille (dans l’urgence) sa réponse à OpenAI, qui devrait se nommer Gemini et devrait être présenté d’ici quelques semaines. Dans le même temps, Bard s’améliore (et revient de très très loin). Mais l’avance que semble avoir pris OpenAI semble trop importante pour le moment pour que Google ne puisse rivaliser technologiquement à court terme.

Reste que les parts de marché sont une réalité bien fiable qui donne du temps à Google pour progresser. Mais combien ?