LIA de Microsoft crée des voix réalistes avec seulement 200 échantillons dentraînement

Les algorithmes modernes de synthèse vocale possèdent des capacités étonnantes. La preuve la plus évidente réside dans deux outils open source appelés SpecAugment et Translatotron, récemment publiés par Google. Translatotron peut notamment traduire complètement le discours d'une personne directement dans une autre langue tout en préservant le ton et l'intonation de la phrase. Cependant, la créativité technologique est illimitée et il y a toujours de la place pour des choses plus extraordinaires.

L'IA de Microsoft crée des voix réalistes avec seulement 200 échantillons d'entraînement

Le système d'IA d'Amazon permet de réduire de 15 % les erreurs de reconnaissance vocale sur Alexa.

Des chercheurs en intelligence artificielle de Microsoft ont récemment présenté un article intitulé « Synthèse vocale presque non supervisée et reconnaissance vocale automatique », qui détaille un système d'IA qui exploite l'apprentissage non supervisé. L'apprentissage non supervisé - une branche de la technologie d'apprentissage automatique, aide l'IA à acquérir des connaissances. à partir de données de test non étiquetées, classifiées et non formatées. Ce système d'IA de Microsoft a fait sensation en atteignant une précision de compréhension en lecture et de traitement de texte allant jusqu'à 99,84 %, et en même temps, la capacité de simulation automatique de la parole a également été améliorée à 11,7 %. Plus impressionnant encore, ce modèle d'apprentissage automatique avancé n'a besoin que d'utiliser 200 clips audio et les transcriptions correspondantes comme données d'entraînement d'entrée.

La clé du développement de ce modèle d'IA réside dans les Transformers, un type d'architecture neuronale construit par une équipe de scientifiques de Google Brain, la branche de recherche sur l'IA de Google, et qui a été présenté dans un article technologique approfondi en 2017. Comme tous les réseaux neuronaux profonds, les Transformers contiennent des neurones (des fonctions mathématiques qui sont « vaguement » modélisées par les neurones biologiques) sont disposées en couches interconnectées pour transmettre des « signaux » à partir des données d'entrée et ajuster progressivement la force synaptique – le poids – de chaque connexion (c'est ainsi que les modèles extraient les caractéristiques et apprennent à faire des prédictions). Cependant, les Transformers possèdent également une caractéristique unique : chaque élément de sortie sera connecté à tous les éléments d'entrée et les poids entre eux sont calculés de manière extrêmement flexible.

L'IA de Microsoft crée des voix réalistes avec seulement 200 échantillons d'entraînement

Le MIT s'efforce de développer un modèle d'IA capable de conduire presque comme un humain

À partir de cette réalité, les chercheurs de Microsoft ont intégré un composant Transformer dans la conception de leur système d’IA, permettant de recevoir de la parole ou du texte en tant que données d’entrée ou de sortie. Et les chercheurs ont décidé d'utiliser la source de données LJSpeech accessible au public - qui contient 13 100 extraits audio en anglais et les transcriptions correspondantes (transcriptions) - comme données de formation pour le système d'IA. Ensuite, l’équipe de recherche a sélectionné au hasard 200 des 13 100 extraits audio mentionnés ci-dessus pour créer un ensemble de données d’entraînement, et a également profité d’un composant d’encodage de débruitage automatique pour reconstruire les données. Les structures de la parole et du texte sont brisées.

Les résultats ne sont pas mauvais du tout. En examinant chaque petit extrait, les chercheurs ont constaté qu’il donnait de meilleurs résultats que les algorithmes de base utilisés dans les tests. Et quelques-uns des échantillons résultants semblent avoir été créés par des humains.

Par exemple, la phrase : « les formes des lettres imprimées doivent être belles et leur disposition sur la page doit être raisonnable et contribuer à la forme des lettres elles-mêmes » se lirait comme suit :

Ou la phrase : "d'autant plus qu'il n'y a plus de temps ni de frais à engager pour fondre ou imprimer de belles lettres" :

L'intelligence artificielle japonaise a créé des mannequins virtuels super réalistes

À l'avenir, l'objectif des chercheurs est de repousser les limites de la technologie d'apprentissage non supervisé en exploitant pleinement les données textuelles et vocales non appariées, à l'aide de méthodes avancées. « Pour cette tâche, nous avons proposé une approche quasiment non supervisée pour la synthèse vocale et la reconnaissance vocale automatique, qui utilise uniquement quelques données de texte et de parole concaténées et une petite quantité de données supplémentaires non concaténées. Comme démontré dans les expériences, nos composants de conception seront essentiels pour développer la capacité de convertir la parole et le texte avec certaines données concaténées.

Google publie un énorme entrepôt de données de formation sur l'IA avec plus de 5 millions de photos de 200 000 monuments dans le monde

Les détails de ce projet seront présentés par Microsoft lors de la Conférence internationale sur l'apprentissage automatique qui se tiendra à Long Beach, en Californie, du 10 au 15 juin, et l'équipe de recherche prévoit également de le publier en open source dans les semaines à venir.

Laisser un commentaire

Qu’est-ce que Forefront IA ? Est-ce mieux que ChatGPT ?

Forefront AI est une plateforme en ligne qui permet aux entreprises et aux particuliers d’accéder à 5 LLM (grands modèles de langage) différents : GPT-3.5, GPT-4, Claude Instant 1.2, Claude 2 et Forefront.

Comment créer des modèles personnalisés dans DocuSign

Découvrez comment créer des modèles personnalisés dans DocuSign pour faciliter vos processus de signature numérique. Apprenez à configurer un document pour vos fournisseurs et à gérer les messages.

Les applications d’IA peuvent diagnostiquer les maladies sexuellement transmissibles uniquement grâce aux images

Les applications d'IA comme celles développées par HeHealth révolutionnent le diagnostic des maladies sexuellement transmissibles, offrant des solutions pratiques et confidentielles.

Le groupe de travail ChatGPT sera créé par l’Europe

L'organisme qui rassemble les organismes nationaux de surveillance de la vie privée en Europe a annoncé jeudi avoir créé un groupe de travail dédié à ChatGPT.

LIA prédit lheure de la mort humaine avec une précision de 78 %

Des scientifiques danois et américains ont collaboré pour développer un système d'IA appelé life2vec, capable de prédire l'heure de la mort humaine avec une grande précision.

L’IA prédit les maladies urinaires rien qu’au son de l’urine

Un algorithme d’IA appelé Audioflow peut écouter le bruit de la miction pour identifier efficacement et avec succès les flux anormaux et les problèmes de santé correspondants du patient.

Barmans, attention : ce robot peut préparer un cocktail en 1 minute seulement

En raison du vieillissement et du déclin de la population japonaise, le pays manque d'un nombre important de jeunes travailleurs, notamment dans le secteur des services.

Des centaines de personnes ont été déçues lorsqu’elles ont appris que la fille qu’ils aimaient était un produit de l’IA

Un utilisateur de Reddit nommé u/LegalBeagle1966 est l'un des nombreux utilisateurs amoureux de Claudia, une fille ressemblant à une star de cinéma qui partage souvent des selfies séduisants, même nus, sur cette plateforme.

12 autres entreprises potentielles rejoignent « lalliance IA » de Microsoft.

Microsoft vient d'annoncer que 12 autres entreprises technologiques participeront à son programme AI for Good.

LIA recrée les personnages de Dragon Ball en chair et en os

L'utilisateur @mortecouille92 a mis à profit la puissance de l'outil de conception graphique Midjourney et a créé des versions réalistes uniques de personnages célèbres de Dragon Ball comme Goku, Vegeta, Bulma et l'aîné Kame. .