Na talloze geruchten heeft Meta eindelijk officieel haar nieuwste generatie AI-model aangekondigd, genaamd Voicebox. Dit model is ontworpen om makers van inhoud te helpen bij het efficiënt uitvoeren van taken die verband houden met het genereren van spraak, zoals audiobewerking, sampling en stilering, zelfs zonder specifieke training, mogelijk door middel van gegevens in context.
Meta bevestigt vol vertrouwen dat dit nieuwe AI-model “veel mensen over de hele wereld ten goede zal komen”, niet alleen op het gebied van contentcreatie. Bijvoorbeeld door blinden te helpen sms-berichten te horen met hun stem, maar ook door mensen met hun eigen stem vreemde talen te laten spreken.
Er wordt geadverteerd dat Voicebox zelf zowel hoogwaardige audioclips kan maken als vooraf opgenomen audioclips kan bewerken om ongewenste onderbrekingen, zoals claxons, te verwijderen, terwijl het dezelfde meertalige inhoud en stijl behoudt (waarbij spraak in zes verschillende talen wordt geproduceerd). Meta's geplande toekomstige ontwikkelingen voor het model omvatten onder meer het bieden van natuurlijke stemmen voor visuele assistenten of personages in games in de metaverse.
Meta vergeleek Voicebox ook met andere door audioverwerking aangedreven AI-modellen die momenteel op de markt zijn, met name met belangrijke concurrenten zoals Vall-E en YourTTS. Over het geheel genomen is Meta's model geavanceerd en presteert het beter dan de concurrentie bij het vergelijken van het foutenpercentage van Word en de gelijkenis van stijl.

![Meta introduceert Voicebox, een AI-model dat audioverwerking voor makers ondersteunt Meta introduceert Voicebox, een AI-model dat audioverwerking voor makers ondersteunt]()
Voicebox is gebouwd op Flow Matching. Dit is Meta's nieuwste niet-autoregressieve generatieve model, dat zeer niet-deterministische mapping tussen tekst en spraak aankan. Hierdoor kan Voicebox leren van veel verschillende soorten spraakgegevens zonder deze zorgvuldig te hoeven labelen, waardoor het toegang krijgt tot meer diverse en grootschalige trainingsgegevens. Tot nu toe is Voicebox getraind in meer dan 50.000 uur aan spraakopnamen en transcripties van audioboeken in het Engels, Frans, Spaans, Duits, Pools en Portugees.
Hoewel deze technologie een nieuw tijdperk van AI op het gebied van audioverwerking zou kunnen inluiden, erkent Meta dat dit de mogelijkheid van misbruik en onbedoelde schade zou kunnen introduceren. Het onderzoeksartikel dat Meta deelde over Voicebox bevat details over hoe het bedrijf een zeer effectieve classificator heeft gebouwd die onderscheid kan maken tussen authentieke stemmen en stemmen gegenereerd door Voicebox.
Meta zal het AI Voicebox-programma niet beschikbaar stellen voor publiek gebruik, noch de broncode vrijgeven, althans voorlopig.