Après d'innombrables rumeurs, Meta a enfin officiellement annoncé son modèle d'IA de dernière génération appelé Voicebox. Ce modèle est conçu pour aider les créateurs de contenu à gérer efficacement les tâches liées à la génération de voix telles que l'édition audio, l'échantillonnage et la stylisation, même sans formation spécifique possible grâce aux données en contexte.
Meta affirme avec confiance que ce nouveau modèle d'IA « profitera à de nombreuses personnes dans le monde », pas seulement dans le domaine de la création de contenu. Par exemple, aider les personnes aveugles à entendre des messages texte en utilisant leur voix, ainsi qu'en permettant aux personnes de parler des langues étrangères avec leur propre voix.
Voicebox lui-même est présenté comme étant capable à la fois de créer des clips audio de haute qualité et d'éditer des clips audio préenregistrés pour supprimer les interruptions indésirables, telles que les klaxons de voiture, tout en conservant le même contenu et le même style multilingues (produisant la parole dans six langues différentes). Les développements futurs prévus par Meta pour le modèle incluent la fourniture de voix naturelles pour les assistants visuels ou les personnages dans les jeux du métaverse.
Meta a également comparé Voicebox avec d'autres modèles d'IA basés sur le traitement audio actuellement sur le marché, en particulier des concurrents clés tels que Vall-E et YourTTS. Dans l'ensemble, le modèle de Meta est avancé et surpasse la concurrence en comparant le taux d'erreur des mots et la similarité des styles.


Voicebox est construit sur Flow Matching. Il s'agit du dernier modèle génératif non autorégressif de Meta, capable de gérer une cartographie hautement non déterministe entre le texte et la parole. Cela permet à Voicebox d'apprendre à partir de nombreux types différents de données vocales sans avoir à les étiqueter soigneusement, ce qui lui donne la possibilité d'accéder à des données de formation plus diversifiées et à plus grande échelle. À ce jour, Voicebox a été formé sur plus de 50 000 heures d’enregistrements vocaux et de transcriptions de livres audio en anglais, français, espagnol, allemand, polonais et portugais.
Bien que cette technologie puisse ouvrir la voie à une nouvelle ère d’IA dans le traitement audio, Meta reconnaît qu’elle pourrait introduire un potentiel d’abus et de dommages involontaires. Le document de recherche partagé par Meta sur Voicebox comprend des détails sur la façon dont l'entreprise a construit un classificateur très efficace capable de faire la distinction entre les voix authentiques et les voix générées par Voicebox.
Meta ne rendra pas le programme AI Voicebox accessible au public et ne publiera pas non plus le code source, du moins pour le moment.