LIA de Microsoft crée des voix réalistes avec seulement 200 échantillons dentraînement

LIA de Microsoft crée des voix réalistes avec seulement 200 échantillons dentraînement

Les algorithmes modernes de synthèse vocale possèdent des capacités étonnantes. La preuve la plus évidente réside dans deux outils open source appelés SpecAugment et Translatotron, récemment publiés par Google. Translatotron peut notamment traduire complètement le discours d'une personne directement dans une autre langue tout en préservant le ton et l'intonation de la phrase. Cependant, la créativité technologique est illimitée et il y a toujours de la place pour des choses plus extraordinaires.

L'IA de Microsoft crée des voix réalistes avec seulement 200 échantillons d'entraînement

Des chercheurs en intelligence artificielle de Microsoft ont récemment présenté un article intitulé « Synthèse vocale presque non supervisée et reconnaissance vocale automatique », qui détaille un système d'IA qui exploite l'apprentissage non supervisé. L'apprentissage non supervisé - une branche de la technologie d'apprentissage automatique, aide l'IA à acquérir des connaissances. à partir de données de test non étiquetées, classifiées et non formatées. Ce système d'IA de Microsoft a fait sensation en atteignant une précision de compréhension en lecture et de traitement de texte allant jusqu'à 99,84 %, et en même temps, la capacité de simulation automatique de la parole a également été améliorée à 11,7 %. Plus impressionnant encore, ce modèle d'apprentissage automatique avancé n'a besoin que d'utiliser 200 clips audio et les transcriptions correspondantes comme données d'entraînement d'entrée.

La clé du développement de ce modèle d'IA réside dans les Transformers, un type d'architecture neuronale construit par une équipe de scientifiques de Google Brain, la branche de recherche sur l'IA de Google, et qui a été présenté dans un article technologique approfondi en 2017. Comme tous les réseaux neuronaux profonds, les Transformers contiennent des neurones (des fonctions mathématiques qui sont « vaguement » modélisées par les neurones biologiques) sont disposées en couches interconnectées pour transmettre des « signaux » à partir des données d'entrée et ajuster progressivement la force synaptique – le poids – de chaque connexion (c'est ainsi que les modèles extraient les caractéristiques et apprennent à faire des prédictions). Cependant, les Transformers possèdent également une caractéristique unique : chaque élément de sortie sera connecté à tous les éléments d'entrée et les poids entre eux sont calculés de manière extrêmement flexible.

L'IA de Microsoft crée des voix réalistes avec seulement 200 échantillons d'entraînement

À partir de cette réalité, les chercheurs de Microsoft ont intégré un composant Transformer dans la conception de leur système d’IA, permettant de recevoir de la parole ou du texte en tant que données d’entrée ou de sortie. Et les chercheurs ont décidé d'utiliser la source de données LJSpeech accessible au public - qui contient 13 100 extraits audio en anglais et les transcriptions correspondantes (transcriptions) - comme données de formation pour le système d'IA. Ensuite, l’équipe de recherche a sélectionné au hasard 200 des 13 100 extraits audio mentionnés ci-dessus pour créer un ensemble de données d’entraînement, et a également profité d’un composant d’encodage de débruitage automatique pour reconstruire les données. Les structures de la parole et du texte sont brisées.

Les résultats ne sont pas mauvais du tout. En examinant chaque petit extrait, les chercheurs ont constaté qu’il donnait de meilleurs résultats que les algorithmes de base utilisés dans les tests. Et quelques-uns des échantillons résultants semblent avoir été créés par des humains.

Par exemple, la phrase : « les formes des lettres imprimées doivent être belles et leur disposition sur la page doit être raisonnable et contribuer à la forme des lettres elles-mêmes » se lirait comme suit :

Ou la phrase : "d'autant plus qu'il n'y a plus de temps ni de frais à engager pour fondre ou imprimer de belles lettres" :

À l'avenir, l'objectif des chercheurs est de repousser les limites de la technologie d'apprentissage non supervisé en exploitant pleinement les données textuelles et vocales non appariées, à l'aide de méthodes avancées. « Pour cette tâche, nous avons proposé une approche quasiment non supervisée pour la synthèse vocale et la reconnaissance vocale automatique, qui utilise uniquement quelques données de texte et de parole concaténées et une petite quantité de données supplémentaires non concaténées. Comme démontré dans les expériences, nos composants de conception seront essentiels pour développer la capacité de convertir la parole et le texte avec certaines données concaténées.

Les détails de ce projet seront présentés par Microsoft lors de la Conférence internationale sur l'apprentissage automatique qui se tiendra à Long Beach, en Californie, du 10 au 15 juin, et l'équipe de recherche prévoit également de le publier en open source dans les semaines à venir.


Le groupe de travail ChatGPT sera créé par l’Europe

Le groupe de travail ChatGPT sera créé par l’Europe

L'organisme qui rassemble les organismes nationaux de surveillance de la vie privée en Europe a annoncé jeudi avoir créé un groupe de travail dédié à ChatGPT.

LIA prédit lheure de la mort humaine avec une précision de 78 %

LIA prédit lheure de la mort humaine avec une précision de 78 %

Des scientifiques danois et américains ont collaboré pour développer un système d'IA appelé life2vec, capable de prédire l'heure de la mort humaine avec une grande précision.

L’IA prédit les maladies urinaires rien qu’au son de l’urine

L’IA prédit les maladies urinaires rien qu’au son de l’urine

Un algorithme d’IA appelé Audioflow peut écouter le bruit de la miction pour identifier efficacement et avec succès les flux anormaux et les problèmes de santé correspondants du patient.

Barmans, attention : ce robot peut préparer un cocktail en 1 minute seulement

Barmans, attention : ce robot peut préparer un cocktail en 1 minute seulement

En raison du vieillissement et du déclin de la population japonaise, le pays manque d'un nombre important de jeunes travailleurs, notamment dans le secteur des services.

Des centaines de personnes ont été déçues lorsqu’elles ont appris que la fille qu’ils aimaient était un produit de l’IA

Des centaines de personnes ont été déçues lorsqu’elles ont appris que la fille qu’ils aimaient était un produit de l’IA

Un utilisateur de Reddit nommé u/LegalBeagle1966 est l'un des nombreux utilisateurs amoureux de Claudia, une fille ressemblant à une star de cinéma qui partage souvent des selfies séduisants, même nus, sur cette plateforme.

12 autres entreprises potentielles rejoignent « lalliance IA » de Microsoft.

12 autres entreprises potentielles rejoignent « lalliance IA » de Microsoft.

Microsoft vient d'annoncer que 12 autres entreprises technologiques participeront à son programme AI for Good.

LIA recrée les personnages de Dragon Ball en chair et en os

LIA recrée les personnages de Dragon Ball en chair et en os

L'utilisateur @mortecouille92 a mis à profit la puissance de l'outil de conception graphique Midjourney et a créé des versions réalistes uniques de personnages célèbres de Dragon Ball comme Goku, Vegeta, Bulma et l'aîné Kame. .

7 techniques pour améliorer les réponses ChatGPT

7 techniques pour améliorer les réponses ChatGPT

En ajoutant simplement quelques conditions ou en mettant en place des scénarios, ChatGPT peut donner des réponses plus pertinentes à vos requêtes. Examinons quelques façons d'améliorer la qualité de vos réponses ChatGPT.

Émerveillez-vous devant les magnifiques peintures dessinées par lintelligence artificielle

Émerveillez-vous devant les magnifiques peintures dessinées par lintelligence artificielle

Midjourney est un système d'intelligence artificielle qui a récemment provoqué une "fièvre" dans la communauté en ligne et dans le monde des artistes en raison de ses peintures extrêmement belles qui ne sont pas inférieures à celles de vrais artistes.

Ce modèle dIA a été lun des premiers « experts » à découvrir des nouvelles sur lépidémie de pneumonie de Wuhan.

Ce modèle dIA a été lun des premiers « experts » à découvrir des nouvelles sur lépidémie de pneumonie de Wuhan.

Quelques jours après que la Chine a annoncé l'épidémie, grâce à l'accès aux données mondiales sur les ventes de billets d'avion, le système d'IA de BlueDot a continué à prédire avec précision la propagation du virus Corona de Wuhan à Bangkok, Séoul, Taipei et Tokyo.