Les AI avancent vite, très vite, prêtent à nous engloutir jusqu'à notre dernier atome. Avant d'en arriver là, Vall-E, AI de chez Microsoft, est désormais capable d'imiter une voix en trois secondes. Fonctionnant qu'en anglais pour le moment, elle pose déjà de nombreuses questions, à commencer par la performance des deepfakes qui seront forcément de plus en plus troublants, joignant déjà à une image numérique quasi conforme à l'originale, le bon timbre de voix, sans accrocs ni effets saccadés. Bluffant.
Et si James Dean revenait ?
Modèle de génération de parole à partir de texte (text-to-speech synthesis ou TTS), Vall-E nécessite un texte écrit donc, celui qui sera déclamé virtuellement, et un modèle de voix à imiter, peu importe le contenu. Loin d'être robotique, le rendu issu d'un entraînement de l'AI à partir de 60 000 heures d’enregistrement en anglais avec 7 000 personnes différentes, est carrément étonnant. Jugez-en par vous-même avec la démo de Vall-E mise en ligne par Microsoft ici.
Les débouchés pour de telles AI sont immenses bien sûr, et dans tous les domaines. Mais a-t-on réellement hâte de découvrir au cinéma le tout premier James Dean ou Marilyn virtuels plus vrais que nature ? Pas sûr… Sources : Capital / Arvix