Vall-E, una IA creada por Microsoft, puede imitar el tono y el habla de personas reales escuchando su voz durante tres segundos, aunque seguirá sonando un poco como la voz de un robot.

La IA Vall-E de Microsoft. Foto de ilustración: VallE-Demo.
Este sistema de inteligencia artificial de Microsoft se llama "modelo de lenguaje de códec neuronal". Un códec es una herramienta que utiliza algoritmos para procesar vídeo y almacenarlo en un flujo de bytes. Los archivos de audio o vídeo se minimizan y luego se descomprimen para diversos fines.
Vall-E fue construido por Microsoft sobre la plataforma EnCodec, un códec de audio que utiliza técnicas de aprendizaje automático desarrollado en 2022 por Meta. Vall-E crea códecs de audio únicos capturando y analizando el audio de cada persona, luego la información se divide en partes llamadas "tokens" a través de EnCodec. Esto es diferente de los métodos anteriores de conversión de texto a voz, que suelen ser en forma de onda.
Luego, Vall-E utiliza los datos de entrenamiento para comparar lo que "sabe" sobre la entonación del habla, de modo que pueda decir otras frases de acuerdo con lo que "aprendió".
Todo este proceso de imitación del habla se realiza en tres segundos, algo nunca antes logrado por ningún sistema de inteligencia artificial de imitación del lenguaje en la actualidad.
Microsoft utiliza una biblioteca que contiene 60.000 horas de inglés de más de 7.000 personas para formar a Vall-E. Esta biblioteca se agregará con el tiempo y en más idiomas.
Microsoft espera que Vall-E se aplique en software de conversión de texto a voz de alta calidad.
Sin embargo, Vall-E hace temer a los expertos que pueda utilizarse con fines maliciosos. Los malos pueden utilizar esta IA para hacerse pasar por voces con fines de fraude y extorsión. Si esta IA se combina con vídeos deepfake, el nivel de peligro puede multiplicarse muchas veces.