Vall-E, een AI gemaakt door Microsoft, kan de toon en spraak van echte mensen nabootsen door drie seconden naar hun stem te luisteren, hoewel deze nog steeds een beetje als een robotstem zal klinken.

Microsoft's AI Vall-E. Illustratiefoto: VallE-Demo.
Dit AI-systeem van Microsoft heet "Neural codec Language Model". Een codec is een tool die algoritmen gebruikt om video te verwerken en op te slaan in een stroom van bytes. Audio- of videobestanden worden verkleind en vervolgens voor verschillende doeleinden gedecomprimeerd.
Vall-E is door Microsoft gebouwd op het EnCodec-platform, een audiocodec die gebruik maakt van machine learning-technieken die in 2022 door Meta zijn ontwikkeld. Vall-E creëert unieke audiocodecs door de audio van elke persoon vast te leggen en te analyseren. Vervolgens wordt de informatie via EnCodec opgesplitst in delen die "tokens" worden genoemd. Dit verschilt van eerdere tekst-naar-spraak-methoden, die meestal in golfvorm zijn.
Vall-E gebruikt vervolgens de trainingsgegevens om te matchen met wat het "weet" over spraakintonatie, zodat het andere zinnen kan zeggen op basis van wat het "geleerd" heeft.
Dit hele proces van spraakimitatie wordt in drie seconden uitgevoerd – nog nooit eerder bereikt door welk AI-systeem voor taalimitatie dan ook.
Microsoft gebruikt een bibliotheek met 60.000 uur Engelstalige lessen van meer dan 7.000 mensen om Vall-E te trainen. Deze bibliotheek zal in de loop van de tijd en in meer talen worden toegevoegd.
Microsoft hoopt dat Vall-E wordt toegepast in hoogwaardige tekst-naar-spraaksoftware.
Vall-E maakt experts echter bang dat het voor kwaadaardige doeleinden kan worden gebruikt. Deze AI kan door slechteriken worden gebruikt om stemmen na te bootsen met het oog op fraude en afpersing. Als deze AI wordt gecombineerd met deepfake-video’s, kan het gevaar zich vele malen vermenigvuldigen.