Deepfakes et identité

Remplacer un visage dans une séquence d'images comme une vidéo n'est pas la seule manière d'utiliser l'apprentissage profond (deep learning).

Une autre idée consiste à prendre une seule et unique photo, et de la faire parler, de l'animer. La difficulté est alors d'obtenir un résultat réaliste, expressif.

J'ai donc voulu essayer par moi-même, avec une image elle-même déjà trafiquée. Voici le résultat :

😲 😲 😲

Je suis à court d'émoticônes pour exprimer l'étonnement...

Ce genre de création est relativement amusant et a du succès sur Internet. Cela peut éventuellement servir à créer des vidéos spécifiques pour répondre à des demandes du genre "tourner la tête à droite", on verra plus tard pourquoi.

Mais qui a laissé sortir le chien ?

On peut ainsi faire "parler" une image à partir d'un texte écrit. Et comme on sait aussi faire de la synthèse vocale, on aura l'ensemble image+son, la totale.

En temps réel

Mais ce serait nettement plus impressionnant si on pouvait réaliser cela à partir de quelqu'un, comme ça :
Ça se fait aussi, mais il faut alors un gros PC muni d'une belle carte graphique
Car il faut capturer un visage, l'analyser pour le remplacer par le visage cible, cela à 20 images par seconde.

On appelle cela puppet-master ou reenactment en anglais, autrement dit faire le marionnettiste.

J'ai voulu essayer avec un logiciel disponible sur le web, Avatarify:

Tu as déjà fait du Zoom, Skype ou autre conférence vidéo ?
Ah oui, avec ça, je peux me faire passer pour quelqu'un d'autre.
Tu as remarqué que ce n'est pas parfait
Gérer le passage de la main devant le visage pose un problème
Voilà qui sera commode pour détecter un deepfake.
Jusqu'au jour où l'IA aura appris à faire ça aussi.
Il reste aussi le son de la voix à ajouter
Mais bon, c'est un problème plus facile que l'image

Mais il y a pire.


On peut faire encore plus vicieux pour détourner l'usage habituel de la reconnaissance faciale !

La fusion de visage offre une possibilité insoupçonnée.