De AI van Microsoft creëert realistische stemmen met slechts 200 trainingsvoorbeelden

Moderne tekst-naar-spraak-algoritmen beschikken over verbazingwekkende mogelijkheden. Het duidelijkste bewijs zijn twee open source-tools genaamd SpecAugment en Translatotron, onlangs uitgebracht door Google. In het bijzonder kan Translatotron de toespraak van een persoon volledig rechtstreeks in een andere taal vertalen, terwijl de toon en intonatie van de zin behouden blijven. De creativiteit in technologie is echter grenzeloos en er is altijd ruimte voor meer bijzondere dingen.

Het AI-systeem van Amazon helpt stemherkenningsfouten op Alexa met 15% te verminderen.

Onderzoekers op het gebied van kunstmatige intelligentie bij Microsoft presenteerden onlangs een artikel met de titel ‘Almost Unsupervised Text to Speech and Automatic Speech Recognition’, waarin een AI-systeem wordt beschreven dat gebruik maakt van onbewaakt leren. Onbewaakt leren – een tak van machine learning-technologie, helpt AI om kennis te leren van ongelabelde, geclassificeerde en ongeformatteerde testgegevens. Dit AI-systeem van Microsoft maakte grote indruk toen het een nauwkeurigheid bereikte bij begrijpend lezen en tekstverwerking tot 99,84%, en tegelijkertijd werd het automatische spraaksimulatievermogen ook verbeterd tot 11,7%. Nog indrukwekkender is dat dit geavanceerde machine learning-model slechts 200 audiofragmenten en bijbehorende transcripties hoeft te gebruiken als invoertrainingsgegevens.

De sleutel tot de ontwikkeling van dit AI-model is Transformers, een type neurale architectuur gebouwd door een team van wetenschappers van Google Brain, de AI-onderzoeksafdeling van Google, en geïntroduceerd in een diepgaand technologieartikel in 2017. Net als alle diepe neurale netwerken zijn Transformers bevatten neuronen (wiskundige functies die “losjes” worden gemodelleerd door biologische neuronen) zijn gerangschikt in onderling verbonden lagen om “signalen” uit invoergegevens over te brengen en geleidelijk de synaptische sterkte – het gewicht – van elke verbinding aan te passen (dat is hoe de modellen kenmerken extraheren en leren om voorspellingen maken). Transformers bezitten echter ook een unieke eigenschap: elk uitgangselement wordt verbonden met alle ingangselementen en de gewichten daartussen worden uiterst flexibel berekend.

De AI van Microsoft creëert realistische stemmen met slechts 200 trainingsvoorbeelden

MIT streeft ernaar een AI-model te ontwikkelen dat bijna als een mens kan rijden

Vanuit deze realiteit zijn Microsoft-onderzoekers overgegaan tot het opnemen van een Transformer-component in hun AI-systeemontwerp, waardoor het mogelijk wordt spraak of tekst te ontvangen als invoer- of uitvoergegevens. En de onderzoekers besloten de publiekelijk beschikbare LJSpeech-databron – die 13.100 Engelse audiofragmenten en bijbehorende transcripties (transcripts) bevat – te gebruiken als trainingsgegevens voor het AI-systeem. Vervolgens selecteerde het onderzoeksteam willekeurig 200 van de 13.100 hierboven genoemde audiofragmenten om een trainingsdataset te creëren, en maakten ze ook gebruik van een automatische ruisonderdrukkingscoderingscomponent om de gegevens te reconstrueren. Spraak- en tekststructuren zijn verbroken.

De resultaten zijn helemaal niet slecht. Bij het bekijken van elk klein fragment ontdekten de onderzoekers dat het betere resultaten opleverde dan de basisalgoritmen die in de tests werden gebruikt. En een paar van de resulterende samples klinken vrijwel alsof ze door mensen zijn gemaakt.

De zin: "De vormen van gedrukte letters moeten mooi zijn en hun rangschikking op de pagina moet redelijk zijn en een bijdrage leveren aan de vormelijkheid van de letters zelf" zou als volgt worden gelezen:

Of de zin: "vooral omdat er geen tijd of kosten meer worden besteed aan het gieten van het zetten of afdrukken van mooie letters":

Japanse kunstmatige intelligentie heeft superrealistische virtuele modemodellen gecreëerd

In de toekomst is het doel van de onderzoekers om de grenzen van de technologie voor onbewaakt leren te verleggen door volledig gebruik te maken van ongepaarde tekst- en spraakgegevens, met behulp van geavanceerde methoden. “Voor deze taak hebben we een vrijwel onbewaakte aanpak voor tekst-naar-spraak en automatische spraakherkenning voorgesteld, die slechts een paar aaneengeschakelde tekst- en spraakgegevens gebruikt en een kleine hoeveelheid aanvullende niet-aaneengeschakelde gegevens. Zoals aangetoond in de experimenten zullen onze ontwerpcomponenten essentieel zijn om het vermogen te ontwikkelen om spraak en tekst om te zetten met enkele aaneengeschakelde gegevens.

Google brengt een enorm AI-trainingsdatawarehouse uit met meer dan 5 miljoen foto's van 200.000 oriëntatiepunten wereldwijd

Details van dit project zullen door Microsoft worden gepresenteerd op de Internationale Conferentie over Machine Learning die van 10 tot 15 juni in Long Beach, Californië plaatsvindt, en het onderzoeksteam is ook van plan om de komende weken een open source-release uit te brengen.

Laat een reactie achter

De ChatGPT-taskforce zal door Europa worden opgericht

Het orgaan dat de nationale privacywaakhonden van Europa verenigt, zei donderdag dat het een taskforce heeft opgericht die zich specifiek bezighoudt met ChatGPT

AI voorspelt het tijdstip van de menselijke dood met een nauwkeurigheid van 78%

Deense en Amerikaanse wetenschappers hebben samengewerkt om een AI-systeem te ontwikkelen genaamd life2vec, dat in staat is om het tijdstip van menselijke dood met hoge nauwkeurigheid te voorspellen.

AI voorspelt urinewegaandoeningen alleen al op basis van het geluid van urine

Een AI-algoritme genaamd Audioflow kan naar het geluid van het plassen luisteren om abnormale stromingen en bijbehorende gezondheidsproblemen van de patiënt effectief en met succes te identificeren.

Barmannen opgelet: deze robot kan in slechts 1 minuut een cocktail mixen

Door de vergrijzing en de afnemende bevolking van Japan heeft het land een aanzienlijk aantal jonge werknemers nodig, vooral in de dienstensector.

Honderden mensen waren gedesillusioneerd toen ze hoorden dat het meisje van wie ze hielden een product van AI was

Een Reddit-gebruiker genaamd u/LegalBeagle1966 is een van de vele gebruikers die verliefd zijn op Claudia, een filmsterachtig meisje dat vaak verleidelijke selfies deelt, zelfs naakte, op dit platform.

Nog twaalf potentiële bedrijven sluiten zich aan bij de AI-alliantie van Microsoft.

Microsoft heeft zojuist aangekondigd dat nog twaalf technologiebedrijven zullen deelnemen aan zijn AI for Good-programma.

AI herschept Dragon Ball-personages in vlees en bloed

Gebruiker @mortecouille92 heeft de kracht van de grafische ontwerptool Midjourney aan het werk gezet en uniek realistische versies gemaakt van beroemde Dragon Ball-personages zoals Goku, Vegeta, Bulma en oudere Kame.

7 technieken om ChatGPT-reacties te verbeteren

Door enkele voorwaarden toe te voegen of enkele scenario's in te stellen, kan ChatGPT relevantere antwoorden op uw vragen geven. Laten we eens kijken naar enkele manieren waarop u de kwaliteit van uw ChatGPT-reacties kunt verbeteren.

Bewonder de prachtige schilderijen getekend door kunstmatige intelligentie

Midjourney is een kunstmatig intelligentiesysteem dat de laatste tijd voor ‘koorts’ zorgt in de online community en de kunstenaarswereld vanwege zijn buitengewoon mooie schilderijen die niet onderdoen voor die van echte kunstenaars.

Dit AI-model was een van de eerste ‘experts’ die nieuws ontdekte over de uitbraak van Wuhan-longontsteking.

Dagen nadat China de uitbraak had aangekondigd, bleef het AI-systeem van BlueDot, met toegang tot wereldwijde gegevens over de verkoop van vliegtickets, nauwkeurig de verspreiding van het Wuhan Corona-virus naar Bangkok, Seoul, Taipei en Tokio voorspellen.