Il y a quelques mois, Amazon détaillait un certain nombre de problèmes qui empêchaient Alexa de fournir des réponses précises lorsque les utilisateurs réveillaient l'assistant virtuel sur certains modèles de téléviseurs, dans des publicités Internet ou radio. Après tout, le principal problème ici est de savoir comment l'assistant vocal d'Amazon peut filtrer efficacement le bruit de fond de l'environnement pour fournir des commentaires plus précis aux utilisateurs. Récemment, dans un article de blog et un document de recherche intitulé End-to-End Anchored Speech Recognition, les ingénieurs d'Amazon ont spécifiquement présenté une nouvelle technique d'isolation du bruit basée sur l'intelligence artificielle, qui peut contribuer à améliorer de 15 % la reconnaissance vocale et les commandes d'Alexa. Des informations plus détaillées sur le fonctionnement du système devraient être présentées lors de la Conférence internationale sur l'acoustique, la parole et le traitement du signal qui se tiendra à Brighton plus tard cette année.

« En fait, nous essayons toujours d'améliorer les performances d'Alexa en lui apprenant à « ignorer » les commandes qui ne lui sont pas destinées, c'est-à-dire à savoir sélectionner les commandes parmi les innombrables bruits émanant de l'environnement. Pour ce faire, nous supposons que le haut-parleur active un appareil compatible Alexa en prononçant un mot de réveil spécifique - généralement "Alexa" - et c'est la phrase clé que l'assistant virtuel doit isoler et identifier dans un chaos de sons extérieurs. environnement. Fondamentalement, notre technique aidera à « capturer » rapidement les sons qui peuvent être des mots éveillés (généralement basés sur des similitudes d'intonation ou de phonèmes) et à les comparer avec des mots éveillés standard pour identifier avec précision les phrases. Ensuite, la phrase dont les éléments correspondent le plus au mot de réveil standard sera comprise par Alexa comme une commande, tandis que les autres phrases seront considérées comme un bruit de fond", a déclaré Xin Fan, chef de l'équipe de scientifiques en charge du projet. Alexa L'IA explique.
Au lieu de former un système d'IA distinct pour distinguer le bruit de fond des mots de réveil, Xin Fan et ses collègues ont fusionné leur mécanisme de correspondance de mots avec un modèle de reconnaissance vocale basé sur l'intelligence artificielle standard. Les scientifiques ont testé deux variantes de l'architecture IA du décodeur en séquence - c'est-à-dire en utilisant une architecture qui traite les données d'entrée (instantanés d'une milliseconde du signal audio) pour produire une séquence de sortie correspondante (rendu phonémique du son) - et , comme avec la plupart des techniques de codage-décodage conventionnelles, le composant de codage résume les données d'entrée sous la forme d'un vecteur de longueur fixe (une chaîne de nombres) et les convertit en données de sortie. Pendant ce temps, un mécanisme d'attention spécial, "entraîné" pour détecter certaines caractéristiques de base des mots d'éveil dans une ou plusieurs chaînes vocales de l'environnement environnant, sera chargé de "guider" l'ensemble. Le décodage accorde plus d'attention à ces caractéristiques du vecteur.

Dans une expérience, les chercheurs ont entraîné l'un de leurs modèles d'IA à mettre davantage l'accent sur la reconnaissance de la prononciation des mots, d'abord en ajoutant un composant qui comparait directement les sons des mots réveillés avec diverses prononciations, puis en utilisant ces données résultantes comme entrée dans un autre composant qui a été entraîné pour compresser les bits du vecteur de codage. Les résultats étaient intéressants, ce modèle a réduit le taux d'erreur à 13% contre 15%.