Les algorithmes modernes de synthèse vocale possèdent des capacités étonnantes. La preuve la plus évidente réside dans deux outils open source appelés SpecAugment et Translatotron, récemment publiés par Google. Translatotron peut notamment traduire complètement le discours d'une personne directement dans une autre langue tout en préservant le ton et l'intonation de la phrase. Cependant, la créativité technologique est illimitée et il y a toujours de la place pour des choses plus extraordinaires.

Des chercheurs en intelligence artificielle de Microsoft ont récemment présenté un article intitulé « Synthèse vocale presque non supervisée et reconnaissance vocale automatique », qui détaille un système d'IA qui exploite l'apprentissage non supervisé. L'apprentissage non supervisé - une branche de la technologie d'apprentissage automatique, aide l'IA à acquérir des connaissances. à partir de données de test non étiquetées, classifiées et non formatées. Ce système d'IA de Microsoft a fait sensation en atteignant une précision de compréhension en lecture et de traitement de texte allant jusqu'à 99,84 %, et en même temps, la capacité de simulation automatique de la parole a également été améliorée à 11,7 %. Plus impressionnant encore, ce modèle d'apprentissage automatique avancé n'a besoin que d'utiliser 200 clips audio et les transcriptions correspondantes comme données d'entraînement d'entrée.
La clé du développement de ce modèle d'IA réside dans les Transformers, un type d'architecture neuronale construit par une équipe de scientifiques de Google Brain, la branche de recherche sur l'IA de Google, et qui a été présenté dans un article technologique approfondi en 2017. Comme tous les réseaux neuronaux profonds, les Transformers contiennent des neurones (des fonctions mathématiques qui sont « vaguement » modélisées par les neurones biologiques) sont disposées en couches interconnectées pour transmettre des « signaux » à partir des données d'entrée et ajuster progressivement la force synaptique – le poids – de chaque connexion (c'est ainsi que les modèles extraient les caractéristiques et apprennent à faire des prédictions). Cependant, les Transformers possèdent également une caractéristique unique : chaque élément de sortie sera connecté à tous les éléments d'entrée et les poids entre eux sont calculés de manière extrêmement flexible.

À partir de cette réalité, les chercheurs de Microsoft ont intégré un composant Transformer dans la conception de leur système d’IA, permettant de recevoir de la parole ou du texte en tant que données d’entrée ou de sortie. Et les chercheurs ont décidé d'utiliser la source de données LJSpeech accessible au public - qui contient 13 100 extraits audio en anglais et les transcriptions correspondantes (transcriptions) - comme données de formation pour le système d'IA. Ensuite, l’équipe de recherche a sélectionné au hasard 200 des 13 100 extraits audio mentionnés ci-dessus pour créer un ensemble de données d’entraînement, et a également profité d’un composant d’encodage de débruitage automatique pour reconstruire les données. Les structures de la parole et du texte sont brisées.
Les résultats ne sont pas mauvais du tout. En examinant chaque petit extrait, les chercheurs ont constaté qu’il donnait de meilleurs résultats que les algorithmes de base utilisés dans les tests. Et quelques-uns des échantillons résultants semblent avoir été créés par des humains.
Par exemple, la phrase : « les formes des lettres imprimées doivent être belles et leur disposition sur la page doit être raisonnable et contribuer à la forme des lettres elles-mêmes » se lirait comme suit :
Ou la phrase : "d'autant plus qu'il n'y a plus de temps ni de frais à engager pour fondre ou imprimer de belles lettres" :
À l'avenir, l'objectif des chercheurs est de repousser les limites de la technologie d'apprentissage non supervisé en exploitant pleinement les données textuelles et vocales non appariées, à l'aide de méthodes avancées. « Pour cette tâche, nous avons proposé une approche quasiment non supervisée pour la synthèse vocale et la reconnaissance vocale automatique, qui utilise uniquement quelques données de texte et de parole concaténées et une petite quantité de données supplémentaires non concaténées. Comme démontré dans les expériences, nos composants de conception seront essentiels pour développer la capacité de convertir la parole et le texte avec certaines données concaténées.
Les détails de ce projet seront présentés par Microsoft lors de la Conférence internationale sur l'apprentissage automatique qui se tiendra à Long Beach, en Californie, du 10 au 15 juin, et l'équipe de recherche prévoit également de le publier en open source dans les semaines à venir.