Les AI avancent vite, très vite, prêtent à nous engloutir jusqu'à notre dernier atome. Avant d'en arriver là, Vall‑E, AI de chez Microsoft, est désormais capable d'imiter une voix en trois secondes. Fonctionnant qu'en anglais pour le moment, elle pose déjà de nombreuses questions, à commencer par la performance des deepfakes qui seront forcément de plus en plus troublants, joignant déjà à une image numérique quasi conforme à l'originale, le bon timbre de voix, sans accrocs ni effets saccadés. Bluffant.
Et si James Dean revenait ?
Modèle de génération de parole à partir de texte (text‑to‑speech synthesis ou TTS), Vall‑E nécessite un texte écrit donc, celui qui sera déclamé virtuellement, et un modèle de voix à imiter, peu importe le contenu. Loin d'être robotique, le rendu issu d'un entraînement de l'AI à partir de 60 000 heures d’enregistrement en anglais avec 7 000 personnes différentes, est carrément étonnant. Jugez‑en par vous‑même avec la démo de Vall‑E mise en ligne par Microsoft ici.
Les débouchés pour de telles AI sont immenses bien sûr, et dans tous les domaines. Mais a‑t‑on réellement hâte de découvrir au cinéma le tout premier James Dean ou Marilyn virtuels plus vrais que nature ? Pas sûr… Sources : Capital / Arvix