Avec FMA-Net, améliorer la qualité d’une vidéo floue ou basse résolution sera possible grâce à l’IA. Reste à savoir quand.
Auteur / Autrice :
La technologie FMA-Net pour améliorer les vidéos
Convertir des vidéos flous ou de mauvaises qualités en vidéo nettes et ayant une bonne résolution, simplement, grâce à une IA ? Un rêve jusque là impossible, qui pourrait bien être transformé en réalité par FMA-Net et son programme « VSRDB ».
Un outil d’intelligence artificielle développée par une équipe sud-coréenne composée de Geunhyuk Youk, Jihyong Oh et Munchurl Kim. Ils ont soumis leur premiers travaux sur la plateforme arXiv le 8 janvier 2024.
Pour parvenir à transformer des vidéos low quality en animations nettes sans faire un fastidieux traitement image par image, le programme utilise un système de filtrage dynamique guidé par le flux (« flow-guided dynamic filtering ou FGDF ») couplé à un raffinement itératif des caractéristiques avec une attention multiple (« feature refinement with multi-attention ou FRMA »). L’ensemble forme le VSRDB.
Pour mieux comprendre le fonctionnement, mieux vaut être attentif aux rôles et à leurs utilisations :
« Plus précisément, le FGDF que nous proposons permet une estimation précise des noyaux de dégradation et de restauration à variation spatio-temporelle qui sont conscients des trajectoires de mouvement grâce à un apprentissage sophistiqué de la représentation du mouvement. Par rapport au filtrage dynamique conventionnel, le FGDF permet au réseau FMA de traiter efficacement les grands mouvements dans la VSRDB.
En outre, les blocs FRMA empilés formés avec notre nouvelle perte d’ancrage temporel (TA), qui ancre temporellement et affine les caractéristiques, affinent les caractéristiques d’une manière qui va du cours à la précision grâce à des mises à jour itératives. »
Voici le schéma explicatif de la technologie FMA-Net :

Les résultats de l’IA en vidéo
Une technologie technique et prometteuse, des schémas explicatifs, mais quid de la vraie qualité proposée par FMA-Net ?
Pour avoir un premier aperçu de l’amélioration proposée par l’IA, il existe pour le moment peu d’exemples. L’un d’eux est cette vidéo. Mais le moins qu’on puisse dire, c’est qu’elle met en avant un résultat vraiment intéressant en terme de gain de qualité.
Ceux qui ont – comme moi – l’habitude de travailler avec des outils d’améliorations d’images basés sur l’IA (comme Upscayl ou l’upscaler de Clipdrop) reconnaitront d’ailleurs les artefacts classiques de la technologie (bien mieux visibles en mettant l’image en pause). Une petite interface de démo permet de faire soi-même le comparatif sur la page du projet :

Les trois auteurs comparent aussi leur technologie avec d’autres technologies du même genre présentés précédemment. FMA-Net semble effectivement avoir l’air de parvenir à améliorer la qualité mieux que les autres modèles, même si la différence n’est pas toujours transcendante.

C’est dans le détail que FMA-Net se différencie vraiment, comme le montrent les comparatifs zoomés présentés par les auteurs.
Les auteurs présentent aussi un benchmark plus scientifique, avec un comparatif basé sur des méthodes de quantification difficiles à déchiffre pour le commun des mortels.

Les auteurs n’ont pas encore proposés de version d’essai sur une plateforme comme Hugging Face, mais ils ont annoncé publié le code de FMA-Net sur une page GitHub dédiée « bientôt ».
Pour en savoir plus sur FMA-Net :


