__

MiniGPT : Test de l’IA qui lit les images, et fait des choses avec !

Test de l'IA MiniGPT qui lit les images et peut faire des choses avec qu'elle voit sur les images, comme des recettes de cuisine.

MiniGPT est une IA qui peut comprendre les images, et proposer des interactions complexes en rapport !

Auteur / Autrice :

La Computer vision

En des termes simples, ce qu’on appelle la “Computer Vision” ou “Vision par Ordinateur” est une technique d’intelligence artificielle qui consiste à analyser puis interpréter une image fixe, ou une vidéo, de la même manière que le ferait un humain.

En somme, c’est donner à un programme/logiciel la capacité de voir, et comprendre ce qu’il voit, pour en tirer parti.

Plusieurs IA proposent des outils de Computer vision, comme GPT-4 de OpenAI, mais aussi la technologie derrière “Video LDM” présentée la semaine dernière par Nvidia (voir notre article).

Ce que fait l’intelligence artificielle MiniGPT

Et c’est donc aussi ce que fait l’IA du jour, nommé MiniGPT, mais qui a pourtant tout d’une grande !

Voici le postulat de l’équipe qui a développé MiniGPT :

“Le récent GPT-4 a démontré des capacités multimodales extraordinaires, telles que la création directe de sites web à partir de textes manuscrits et l’identification d’éléments humoristiques dans des images. Ces caractéristiques sont rarement observées dans les modèles vision-langage précédents. Nous pensons que la raison principale des capacités avancées de génération multimodale de GPT-4 réside dans l’utilisation d’un grand modèle de langage (LLM) plus avancé.”

En conséquence, ils ont développé MiniGPT-4 qui d’un point de vue technique “aligne un encodeur visuel gelé avec un LLM gelé, Vicuna, en utilisant seulement une couche de projection” :

“MiniGPT-4 se compose d’un encodeur de vision avec un ViT et un Q-Former pré-entraînés, d’une couche de projection linéaire unique et d’un modèle de langage large avancé Vicuna. MiniGPT-4 ne nécessite que l’entraînement de la couche linéaire pour aligner les caractéristiques visuelles avec le modèle Vicuna.”

D’après les développeurs, MiniGPT-4 possède de nombreuses capacités similaires à celles de GPT-4 (!!). Et notamment :

  • La génération de descriptions d’images détaillées
  • La création de sites web à partir de brouillons écrits à la main.
  • La rédaction d’histoires et de poèmes inspirés par des images données
  • La fourniture de solutions à des problèmes illustrés par des images
  • L’apprentissage de la cuisine à partir de photos de plats

Test (presque) complet de Mini GPT

Pour essayer une partie de ces fonctionnalités mises en avant par l’équipe derrière Mini GPt, il est possible de passer par une interface de démo accessible via ce lien. Attention, les interactions sont parfois très longues.

  • La compréhension d’images et la description :

Voici ce que MiniGPT m’a proposé comme réponse au prompt “Décris moi cette image en détail”, associé à cette image :

“This image appears to be a sneaker, specifically a Nike Air Max Plus. The shoe has a white and beige color scheme with a geometric pattern on the upper. The laces are white and the sole is a light brown color. The shoe appears to be made of a combination of materials, including leather and mesh. The heel of the shoe has a white and beige pattern, and the swoosh logo is in white. The shoe appears to be a unisex model and is suitable for both men and women.

The Nike Air Max Plus is a popular shoe model in the Nike lineup, known for its comfortable and supportive fit. The shoe is designed with a combination of materials to provide durability and flexibility, making it suitable for a variety of activities. The Air Max Plus is also known for its unique and distinctive design, which has made it a popular choice among sneaker enthusiasts.

Overall, this image appears to be a high-quality and stylish sneaker, suitable for both casual and athletic wear. The beige and white color scheme gives the shoe a unique and eye-catching look, while the geometric pattern adds a touch of style and sophistication. The Nike Air Max Plus is a versatile shoe that can be worn for a variety of occasions, making it a great choice for anyone looking for a comfortable.”

Une réponse déjà impressionnante en anglais, mais que j’ai pu lui redemander “En français, stp”, et voici sa réponse :

Cette image représente une paire de chaussures, spécifiquement des Nike Air Max Plus. Les chaussures ont une combinaison de couleurs blanche et beige avec un motif géométrique sur le haut. Les lacets sont blancs et le talon est d’un coloris brun clair. Les chaussures semblent être fabriquées en utilisant une combinaison de matériaux, y compris de cuir et de toile. Le talon des chaussures a un motif blanc et beige, et le logo swoosh est blanc. Les chaussures semblent être un modèle unisexe et conviennent à la fois aux hommes et aux femmes.

Les Nike Air Max Plus sont une paire de chaussures populaire dans la gamme Nike, connue pour son confort et son soutien. Le modèle est conçu avec une combinaison de matériaux pour fournir une durabilité et une flexibilité, ce qui en fait un choix approprié pour une variété d’activités. Les Air Max Plus sont également connus pour leur design unique et distinctif, ce qui les a rendus populaires auprès des passionnés de sneakers.”

Deuxième essai avec cette couverture du manga “Pseudo Harem (qui va être adapté en animé : voir), avec l’invite “Explique moi ce qu’est cette image, en détail, et en français.” :

Et le résultat est assez décevant : “Cette image représente une jeune fille en tenue scolaire assise à un bureau en face d’un ordinateur. Elle est en train de travailler sur un projet ou elle est concentrée. Le fond de l’image est blanc et il n’y a pas de décorations ou d’objets visibles dans la pièce.”

Je lui donne une seconde chance, avec l’invite “Il y a plusieurs meubles sur cette image, lesquels ?”, et MiniGPT me répond : “Il y a plusieurs meubles dans cette image, notamment un bureau avec un écran, un ordinateur portable, un classeur et un fauteuil. Il y a également une table avec du matériel de bureau, comme des papiers, des crayons et des livres.”

  • Faire la cuisine avec MiniGPT :

Ensuite, avec cette photo d’oeufs, je demande à MiniGPT : “Donne moi trois recette à faire avec ça” :

Et MiniGPT m’a proposé la réponse suivante, raccourci pour ne pas surcharger ce test :

Bien sûr, voici deux recettes à faire avec des œufs de poules:

  • 1. Omelette aux champignons et aux épinards: recette
  • 2. Pain de mie aux œufs: recette

Avec l’image suivante et l’invite “Quels sont les ingrédients sur cette image, et quelle recette je peux faire avec ?” :

Réponse : “Les ingrédients sur cette image sont des champignons, des tomates, des poivrons, des oignons et des gousses d’ail. Vous pouvez faire une sauce tomate avec ces ingrédients.”

Puis, quand j’ajoute “Je veux une recette plus intéressante, j’ai très faim.”, MiniGPT me propose une superbe recette, malheureusement trop longue pour son nombre de tokens maximum, et qui s’arrête donc au milieu des instructions :

“Voici une recette de spaghetti aux champignons et aux tomates:

Ingrédients:

* 400g de spaghetti
* 200g de champignons coupés en dés
* 200g de tomates coupées en dés
* 2 oignons hachés
* 2 gousses d’ail hachées
* 2 cuillères à soupe de basilic frais haché
* 1 cuillère à soupe d’huile d’olive
* 1 cuillère à soupe de vinaigre balsamique
* Sel et poivre noir

Instructions:

1. Dans une poêle, faites chauffer l’huile d’olive à feu moyen-doux. Ajoutez les oignons et les gousses d’ail et faites-les revenir pendant environ 5 minutes, jusqu’à ce qu’ils soient tendres.
2. Ajoutez les champignons et les tomates, et faites-les cuire pendant environ 10 minutes, jusqu’à ce qu’ils soient tendres.
3. Ajoutez le basilic, le vinaigre balsamique, le sel et le po”

  • Une IA qui écrit des histoires à partir d’une image :

Avec l’image suivante, et cette invite “Ecris moi une belle histoire courte d’amour à propos du personnage sur cette image, en tenant compte de ses caractéristiques physiques.” (la notion de durée étant introduite par rapport à la limite de tokens des sorties), voici le résultat intéressant que m’a inventé Mini GPT :

“Bien sûr, je peux vous aider à écrire une histoire d’amour courte à propos du personnage de la petite sirène dans cette image.

La petite sirène était une jeune fille ambitieuse et pleine de vie, avec des cheveux roux longs et une queue de poisson. Elle vivait dans un monde aquatique magnifique, avec des poissons colorés et des coraux. Elle aimait passer du temps avec ses amis, jouer avec eux dans les eaux claires et profondes.

Un jour, elle rencontra un jeune homme nommé Eric, qui était venu sur la plage pour se détendre. Elle fut immédiatement attirée par sa beauté et sa simplicité. Eric, de son côté, fut séduit par sa beauté et sa personnalité décontractée.

Ils commencèrent à passer du temps ensemble, à se promener sur la plage et à discuter de tout. La petite sirène apprit à Eric comment nager et comment se déplacer dans l’eau, tandis qu’Eric apprit à la petite sirène comment naviguer sur terre.

Au fil du temps, leur amour grandit et ils devinrent inséparables. Mais un jour, Eric dut repartir pour sa ville natale, la”

Encore une fois , la réponse est tronquée, mais respecte les critères.

Deuxième essai avec cette image, et ce prompt “Ecris moi une aventure courte avec ces deux personnages !”

“Bien sûr, je peux vous aider à écrire une histoire courte avec ces deux personnages.

Il était une fois, dans un petit village, un chat blanc nommée Mimi et un bébé nommé Max. Mimi était très gentil et aimait jouer avec Max. Un jour, Max se mit à crier et Mimi s’en souciait beaucoup. Elle a décidé de le consoler en lui racontant une histoire.

Mimi a commencé à raconter l’histoire d’un petit garçon qui vivait dans un monde magique. Ce garçon avait un chat blanc comme Mimi et ils étaient inséparables. Un jour, le petit garçon a décidé de partir explorer le monde magique. Il a rencontré des créatures incroyables et a vécu des aventures époustouflantes.

Max a été très intéressé par l’histoire de Mimi et a demandé si elle pourrait lui raconter d’autres histoires. Mimi a accepté et a continué à raconter des histoires incroyables à Max. Ils sont devenus inséparables et ont vécu heureux ensemble.

Le lendemain matin, Max se réveilla et vit que Mimi était en train de jouer”

  • Une IA qui résoud des problèmes en image ?

Une belle promesse, mise à l’essai, avec l’image suivante, et le prompt “Je veux démêler ce noeud, aide moi !”

“Pour démêler un noeud, vous pouvez utiliser des pinces à main ou des pinces à loup. Vous pouvez également utiliser des outils spéciaux pour démêler les noeuds, comme des pinces à main à main ou des pinces à loup. Il est important de prendre soin de vos mains et de vos ongles pendant le processus de démêlement.

Pour démêler un noeud en corde, vous pouvez commencer par le délier doucement en faisant tourner la corde autour de l’objet. Ensuite, vous pouvez utiliser les pinces à main pour délier la corde. Si la corde est très serrée, vous pouvez utiliser des pinces à main à main pour faciliter le processus.

Il est important de ne pas forcer la corde ou l’objet, car cela peut causer des dommages. Il est également important de ne pas laisser les pinces à main ou les pinces à loup coincées dans la corde ou l’objet, car cela peut causer des blessures.”