Een paar maanden geleden heeft Amazon een aantal problemen gedetailleerd beschreven die Alexa ervan weerhielden nauwkeurige antwoorden te geven wanneer gebruikers de virtuele assistent wakker maakten op bepaalde tv-modellen, in internet- of radioadvertenties. Het belangrijkste probleem hier is immers hoe de stemassistent van Amazon achtergrondgeluiden uit de omgeving effectief kan filteren om gebruikers nauwkeurigere feedback te geven. Onlangs presenteerden Amazon-ingenieurs in een blogpost en begeleidend onderzoekspaper genaamd End-to-End Anchored Speech Recognition specifiek een nieuwe geluidsisolatietechniek op basis van kunstmatige intelligentie, die Alexa's stemherkenning en commando's met 15% kan helpen verbeteren. Meer gedetailleerde informatie over hoe het systeem werkt zal naar verwachting worden gepresenteerd op de Internationale Conferentie over Akoestiek, Spraak- en Signaalverwerking die later dit jaar in Brighton wordt gehouden.

“In feite proberen we Alexa's prestaties altijd te verbeteren door haar te leren commando's te "negeren" die niet voor haar bedoeld zijn, met andere woorden, te weten hoe ze commando's moeten selecteren tussen talloze geluiden die uit de omgeving komen. Om dit te doen, gaan we ervan uit dat de spreker een Alexa-apparaat activeert door een specifiek wake-word te zeggen - meestal 'Alexa' - en dit is de sleutelzin die de virtuele assistent moet isoleren en identificeren in een chaos van geluiden van buitenaf. omgeving. Kortom, onze techniek zal helpen om snel geluiden te "vangen" die mogelijk wake-woorden zijn (meestal gebaseerd op overeenkomsten in intonatie of fonemen) en deze te vergelijken met wake-woorden.standaard voor het nauwkeurig identificeren van zinnen. Vervolgens zal de zin waarvan de elementen het meest overeenkomen met het standaard wake-word door Alexa worden opgevat als een commando, terwijl de andere zinnen als achtergrondgeluid worden beschouwd”, zegt Xin Fan, leider van het team van wetenschappers dat verantwoordelijk is voor het project. AI legt het uit.
In plaats van een afzonderlijk AI-systeem te trainen om onderscheid te maken tussen achtergrondgeluiden en wake-words, hebben Xin Fan en collega's hun woordmatchingsmechanisme samengevoegd met een op intelligentie gebaseerd spraakherkenningsmodel. De wetenschappers testten achtereenvolgens twee varianten op de AI-architectuur van de decoder - dat wil zeggen, met behulp van een architectuur die de invoergegevens (millisecondenlange momentopnamen van het audiosignaal) verwerkt om een overeenkomstige uitvoerreeks te produceren (fonemische weergave van het geluid) - en Zoals bij de meeste conventionele encoder-decodeertechnieken vat de coderingscomponent de invoergegevens samen als een vectorvaste lengte (een reeks getallen) en converteert deze naar uitvoergegevens. Ondertussen zal een speciaal aandachtsmechanisme, "getraind" om enkele basiskenmerken van ontwaakwoorden in een of meer spraakreeksen uit de omringende omgeving te detecteren, verantwoordelijk zijn voor het "sturen" van de set. Decodering besteedt meer aandacht aan die kenmerken in de vector.
![Het AI-systeem van Amazon helpt stemherkenningsfouten op Alexa met 15% te verminderen. Het AI-systeem van Amazon helpt stemherkenningsfouten op Alexa met 15% te verminderen.]()
In een experiment trainden de onderzoekers een van hun AI-modellen om meer nadruk te leggen op de herkenning van de uitspraak van woorden, eerst door een component toe te voegen die de klanken van woorden rechtstreeks vergeleek met verschillende uitspraken en deze resulterende gegevens vervolgens te gebruiken als invoer voor een ander afzonderlijk component die is getraind om de bits van de coderingsvector te comprimeren. De resultaten waren interessant, dit model verminderde het foutenpercentage tot 13% vergeleken met 15%.