Adobe dévoile ActAnywhere, une IA de modification d'arrière plan vidéo

Des chercheurs de Stanford et de Adobe ont développé ActAnywhere, une nouvelle intelligence artificielle qui permet d’extraire un élément en mouvement et de substituer l’arrière plan en gardant une cohérence dans les images de la vidéo.

24 janvier 2024 – 14h59

Auteur / Autrice :

Victor LB

Adobe avance dans l’intelligence artificielle

Ces dernières semaines, on a surtout entendu parler de Adobe pour le mariage raté avec Figma. Plus d’un an après le projet officialisé en septembre 2022, le géant avait dû renoncer à son deal à 20 milliards de dollars.

Adobe avait cependant dévoilé l’intelligence artificielle Firefly il y a quelques mois, donnant au grand public un outil gratuit de génération d’images très intéressant.

En fait, le groupe infuse essentiellement des améliorations IA dans ses principaux logiciels (Photoshop, Illustrator, Express…) au gré de mises à jour plus ou moins importantes.

Cette fois, un nouveau projet mené conjointement par Adobe et une équipe de l’université de Stanford dévoile « ActAnywhere ».

ActAnywhere, une nouvelle IA pour modifier les vidéos

Avant de créer ActAnywhere, Adobe et Stanford sont partis d’un constat :

« Générer un arrière-plan vidéo adapté au mouvement du sujet au premier plan est un problème important pour l’industrie cinématographique et la communauté des effets visuels. »

La principale difficulté vient que « cette tâche implique de synthétiser un arrière-plan qui s’aligne sur le mouvement et l’apparence du sujet au premier plan, tout en respectant l’intention créative de l’artiste ». Une tâche « qui nécessite traditionnellement des efforts manuels fastidieux ».

Pour régler en partie ce problème, les chercheurs ont développé ActAnywhere, un modèle qui automatise le processus : « Notre modèle exploite la puissance des modèles de diffusion vidéo à grande échelle et est spécifiquement adapté à cette tâche. »

Dans le fonctionnement, ActAnywhere utilise d’abord une séquence de segmentation du sujet au premier plan en entrée et une image qui décrit la scène souhaitée comme condition. De là, le modèle va produire une vidéo cohérente avec des interactions réalistes entre le premier plan et l’arrière-plan.

« Notre « 3D U-Net » prend en entrée une séquence de segmentation de sujets au premier plan ainsi que des masques et est conditionné par une image décrivant l’arrière-plan. Pendant la formation, nous prenons une image échantillonnée aléatoirement de la vidéo de formation pour conditionner le processus de débruitage. Au moment du test, la condition peut être soit une image composite du sujet avec un nouvel arrière-plan, soit une image d’arrière-plan uniquement. »

Un modèle entraîné sur un ensemble de données contenant plus de 2,4 millions de vidéos d’interaction « sujet-scène ». Fait intéressant, ActAnywhere fonctionne bien avec des sujets principaux humains qu’avec des objets non humains, comme des canards.

Voici plusieurs exemples de ActAnywhere :

D’abord, un canard qui nage en surface transformé en un canard qui marche à côté d’un feu :

Un chercheur qui déplace des choses transformés en quelqu’un qui place des draps sur un lit :

Une femme sur un jet-ski qui est placée sur un cheval :

Une joggeuse sur route placée sur une plage :

Des exemples comme ceux-ci, les auteurs en proposent des dizaines dans la publication dédiée. On voit donc que si la qualité est loin d’être parfaite, les premiers résultats promettent une transposition vidéo simplifiée dans un futur proche.

Pour en savoir plus sur ActAnywhere :

Voir plus > Adobe – arXiv – Intelligence artificielle – Stanford – Vidéo IA

Ariel World est sur Google News

> Techno

Adobe dévoile ActAnywhere, une IA de modification d’arrière plan vidéo

Adobe avance dans l’intelligence artificielle

ActAnywhere, une nouvelle IA pour modifier les vidéos