Meta présente Voicebox, un modèle dIA qui prend en charge le traitement audio pour les créateurs

Après d'innombrables rumeurs, Meta a enfin officiellement annoncé son modèle d'IA de dernière génération appelé Voicebox. Ce modèle est conçu pour aider les créateurs de contenu à gérer efficacement les tâches liées à la génération de voix telles que l'édition audio, l'échantillonnage et la stylisation, même sans formation spécifique possible grâce aux données en contexte.

Meta affirme avec confiance que ce nouveau modèle d'IA « profitera à de nombreuses personnes dans le monde », pas seulement dans le domaine de la création de contenu. Par exemple, aider les personnes aveugles à entendre des messages texte en utilisant leur voix, ainsi qu'en permettant aux personnes de parler des langues étrangères avec leur propre voix.

Voicebox lui-même est présenté comme étant capable à la fois de créer des clips audio de haute qualité et d'éditer des clips audio préenregistrés pour supprimer les interruptions indésirables, telles que les klaxons de voiture, tout en conservant le même contenu et le même style multilingues (produisant la parole dans six langues différentes). Les développements futurs prévus par Meta pour le modèle incluent la fourniture de voix naturelles pour les assistants visuels ou les personnages dans les jeux du métaverse.

Meta a également comparé Voicebox avec d'autres modèles d'IA basés sur le traitement audio actuellement sur le marché, en particulier des concurrents clés tels que Vall-E et YourTTS. Dans l'ensemble, le modèle de Meta est avancé et surpasse la concurrence en comparant le taux d'erreur des mots et la similarité des styles.

Meta présente Voicebox, un modèle d'IA qui prend en charge le traitement audio pour les créateurs

Voicebox est construit sur Flow Matching. Il s'agit du dernier modèle génératif non autorégressif de Meta, capable de gérer une cartographie hautement non déterministe entre le texte et la parole. Cela permet à Voicebox d'apprendre à partir de nombreux types différents de données vocales sans avoir à les étiqueter soigneusement, ce qui lui donne la possibilité d'accéder à des données de formation plus diversifiées et à plus grande échelle. À ce jour, Voicebox a été formé sur plus de 50 000 heures d’enregistrements vocaux et de transcriptions de livres audio en anglais, français, espagnol, allemand, polonais et portugais.

Bien que cette technologie puisse ouvrir la voie à une nouvelle ère d’IA dans le traitement audio, Meta reconnaît qu’elle pourrait introduire un potentiel d’abus et de dommages involontaires. Le document de recherche partagé par Meta sur Voicebox comprend des détails sur la façon dont l'entreprise a construit un classificateur très efficace capable de faire la distinction entre les voix authentiques et les voix générées par Voicebox.

Meta ne rendra pas le programme AI Voicebox accessible au public et ne publiera pas non plus le code source, du moins pour le moment.

Laisser un commentaire

Qu’est-ce que Forefront IA ? Est-ce mieux que ChatGPT ?

Forefront AI est une plateforme en ligne qui permet aux entreprises et aux particuliers d’accéder à 5 LLM (grands modèles de langage) différents : GPT-3.5, GPT-4, Claude Instant 1.2, Claude 2 et Forefront.

Comment créer des modèles personnalisés dans DocuSign

Découvrez comment créer des modèles personnalisés dans DocuSign pour faciliter vos processus de signature numérique. Apprenez à configurer un document pour vos fournisseurs et à gérer les messages.

Les applications d’IA peuvent diagnostiquer les maladies sexuellement transmissibles uniquement grâce aux images

Les applications d'IA comme celles développées par HeHealth révolutionnent le diagnostic des maladies sexuellement transmissibles, offrant des solutions pratiques et confidentielles.

Le groupe de travail ChatGPT sera créé par l’Europe

L'organisme qui rassemble les organismes nationaux de surveillance de la vie privée en Europe a annoncé jeudi avoir créé un groupe de travail dédié à ChatGPT.

LIA prédit lheure de la mort humaine avec une précision de 78 %

Des scientifiques danois et américains ont collaboré pour développer un système d'IA appelé life2vec, capable de prédire l'heure de la mort humaine avec une grande précision.

L’IA prédit les maladies urinaires rien qu’au son de l’urine

Un algorithme d’IA appelé Audioflow peut écouter le bruit de la miction pour identifier efficacement et avec succès les flux anormaux et les problèmes de santé correspondants du patient.

Barmans, attention : ce robot peut préparer un cocktail en 1 minute seulement

En raison du vieillissement et du déclin de la population japonaise, le pays manque d'un nombre important de jeunes travailleurs, notamment dans le secteur des services.

Des centaines de personnes ont été déçues lorsqu’elles ont appris que la fille qu’ils aimaient était un produit de l’IA

Un utilisateur de Reddit nommé u/LegalBeagle1966 est l'un des nombreux utilisateurs amoureux de Claudia, une fille ressemblant à une star de cinéma qui partage souvent des selfies séduisants, même nus, sur cette plateforme.

12 autres entreprises potentielles rejoignent « lalliance IA » de Microsoft.

Microsoft vient d'annoncer que 12 autres entreprises technologiques participeront à son programme AI for Good.

LIA recrée les personnages de Dragon Ball en chair et en os

L'utilisateur @mortecouille92 a mis à profit la puissance de l'outil de conception graphique Midjourney et a créé des versions réalistes uniques de personnages célèbres de Dragon Ball comme Goku, Vegeta, Bulma et l'aîné Kame. .