Vall-E, une IA créée par Microsoft, peut imiter le ton et le discours de vraies personnes en écoutant leur voix pendant trois secondes, même si cela ressemble toujours un peu à la voix d'un robot.

L'IA Vall-E de Microsoft. Photo d’illustration : VallE-Démo.
Ce système d'IA de Microsoft est appelé « Modèle de langage de codec neuronal ». Un codec est un outil qui utilise des algorithmes pour traiter la vidéo et la stocker dans un flux d'octets. Les fichiers audio ou vidéo sont minifiés puis décompressés à diverses fins.
Vall-E a été construit par Microsoft sur la plateforme EnCodec, un codec audio utilisant des techniques d'apprentissage automatique développées en 2022 par Meta. Vall-E crée des codecs audio uniques en capturant et en analysant l'audio de chaque personne, puis les informations sont décomposées en parties appelées « jetons » via EnCodec. Ceci est différent des méthodes de synthèse vocale précédentes, qui se présentent généralement sous forme d'onde.
Vall-E utilise ensuite les données d'entraînement pour faire correspondre ce qu'il « sait » sur l'intonation de la parole, afin de pouvoir prononcer d'autres phrases en fonction de ce qu'il a « appris ».
L’ensemble de ce processus d’imitation de la parole se déroule en trois secondes – ce qui n’a jamais été réalisé par aucun système d’IA d’imitation de langage aujourd’hui.
Microsoft utilise une bibliothèque contenant 60 000 heures d'anglais provenant de plus de 7 000 personnes pour former Vall-E. Cette bibliothèque sera complétée au fil du temps et dans davantage de langues.
Microsoft espère que Vall-E sera appliqué dans des logiciels de synthèse vocale de haute qualité.
Cependant, Vall-E fait craindre aux experts qu'il puisse être utilisé à des fins malveillantes. Cette IA peut être utilisée par des méchants pour usurper l’identité de voix à des fins de fraude et d’extorsion. Si cette IA est combinée à des vidéos deepfake, le niveau de danger peut se multiplier plusieurs fois.