Google-onderzoekers lieten AI games spelen om het versterkende leren te verbeteren

Google-onderzoekers lieten AI games spelen om het versterkende leren te verbeteren

Reinforcement learning – een deelgebied van machinaal leren – omvat AI-trainingstechnieken die ‘beloningen’ gebruiken om softwarebeleid specifiek in de richting van gerichte doelen te sturen. Met andere woorden, dit is het proces waarbij de AI verschillende acties zal proberen, van elk antwoord zal leren of die actie betere resultaten oplevert of niet, en vervolgens de acties zal versterken die hebben gewerkt, d.w.z. de algoritmen automatisch herwerken en aanpassen over meerdere iteraties. levert de beste resultaten op. De laatste tijd is versterkend leren uitgebuit om de impact van sociale regels te modelleren, om AI-modellen te creëren met extreem goede spelmogelijkheden, of programmeerbare robots die zichzelf kunnen herstellen. Herstel na vervelende softwareproblemen.

Google-onderzoekers lieten AI games spelen om het versterkende leren te verbeteren

Hoewel het over een hoge flexibiliteit beschikt en in veel verschillende modellen en doeleinden kan worden toegepast, bevat de techniek van versterkend leren een ongelukkige tekortkoming: het is ineffectief. Om een ​​AI-model te trainen met behulp van versterkende leertechnieken zijn veel verschillende interacties nodig in een gesimuleerde of echte omgeving, wat veel meer is dan wanneer een mens een bepaalde taak moet leren. Om dit probleem gedeeltelijk op te lossen, vooral op het gebied van videogames, hebben onderzoekers van kunstmatige intelligentie bij Google onlangs voorgesteld een nieuw algoritme te gebruiken genaamd Simulated Policy Learning (afgekort als SimPLe), dat eenvoudige videogamemodellen gebruikt om het kwaliteitsbeleid bij de selectie van acties te leren en te verbeteren. van versterkende leertechnieken.

De onderzoekers beschreven het algoritme in een nieuw gepubliceerd artikel met de titel ‘Model-Based Reinforcement Learning for Atari’, en ook in een document dat bij de open source-code hoort.

“Op een hoog niveau was het idee van de onderzoekers bij het ontwikkelen van het SimPLe-algoritme om af te wisselen tussen het opzetten van een model van de kenmerken van het spel en het gebruiken van dat model om een ​​beleid te optimaliseren (met modelvrije versterkingsleertechnieken) in een spelsimulatieomgeving. De basisprincipes achter dit algoritme zijn goed ingeburgerd en worden gebruikt in veel recente modelgebaseerde leermethoden voor versterking”, deelden Google AI-teamwetenschappers Łukasz Kaiser en Dumitru Erhan.

Zoals de twee onderzoekers uitlegden, vereist het trainen van een AI-systeem om een ​​spel te spelen het voorspellen van de volgende frametexturen van het doelspel, die worden gegeven door een reeks frames en commando's.combinatie (bijv. "links", "binnen", "rechts", " vooruit”, “achteruit”). Bovendien toonden de onderzoekers ook aan dat een succesvol model ‘trajecten’ kan genereren die kunnen worden gebruikt bij het trainen van game-agent-programmabeleid, waardoor de noodzaak om te vertrouwen op complexe computerreeksen in het spel wordt verminderd.

Google-onderzoekers lieten AI games spelen om het versterkende leren te verbeteren

Het SimPLe-algoritme doet precies dit. Er zijn vier frames nodig als invoer om het volgende frame met een beloning te voorspellen, en zodra het algoritme volledig is getraind, genereert het ‘rollouts’ – voorbeeldreeksen van actiereeksen, observaties en resultaten – die worden gebruikt om het beleid te verbeteren (Kaiser en Erhan merken op dat het SimPLe-algoritme gebruikt alleen implementaties van gemiddelde lengte om voorspellingsfouten te minimaliseren).

In tests die het equivalent van 2 uur gameplay (100.000 interacties) duurden, behaalden agenten met het aangepaste beleid van SimPLe maximale scores in twee testgames (Pong en Freeway), terwijl ze ook vrijwel perfecte voorspellingen genereerden tot 50 stappen in de toekomst.

Google-onderzoekers lieten AI games spelen om het versterkende leren te verbeteren

Soms probeerden de twee onderzoekers ook kleine, maar zeer relevante details in de games te verzamelen, wat mislukte. Kaiser en Erhan geven toe dat dit algoritme nog steeds niet echt overeenkomt met de prestaties van standaard leermethoden voor versterking. SimPLe kan echter meer dan twee keer zo effectief zijn in termen van training, en het team hoopt dat toekomstige studies de prestaties van het algoritme aanzienlijk zullen helpen verbeteren.

“Het belangrijkste doel van modelgebaseerde leermethoden voor versterking is in omgevingen waar interacties complex en langzaam blijken te zijn of menselijke labels vereisen, zoals bijvoorbeeld bij veel robottaken. In een dergelijke omgeving zou een simulator ons in staat stellen de omgeving van agentprogramma's beter te begrijpen, wat op zijn beurt zou kunnen leiden tot nieuwe, betere en snellere manieren om dingen te doen.


De ChatGPT-taskforce zal door Europa worden opgericht

De ChatGPT-taskforce zal door Europa worden opgericht

Het orgaan dat de nationale privacywaakhonden van Europa verenigt, zei donderdag dat het een taskforce heeft opgericht die zich specifiek bezighoudt met ChatGPT

AI voorspelt het tijdstip van de menselijke dood met een nauwkeurigheid van 78%

AI voorspelt het tijdstip van de menselijke dood met een nauwkeurigheid van 78%

Deense en Amerikaanse wetenschappers hebben samengewerkt om een ​​AI-systeem te ontwikkelen genaamd life2vec, dat in staat is om het tijdstip van menselijke dood met hoge nauwkeurigheid te voorspellen.

AI voorspelt urinewegaandoeningen alleen al op basis van het geluid van urine

AI voorspelt urinewegaandoeningen alleen al op basis van het geluid van urine

Een AI-algoritme genaamd Audioflow kan naar het geluid van het plassen luisteren om abnormale stromingen en bijbehorende gezondheidsproblemen van de patiënt effectief en met succes te identificeren.

Barmannen opgelet: deze robot kan in slechts 1 minuut een cocktail mixen

Barmannen opgelet: deze robot kan in slechts 1 minuut een cocktail mixen

Door de vergrijzing en de afnemende bevolking van Japan heeft het land een aanzienlijk aantal jonge werknemers nodig, vooral in de dienstensector.

Honderden mensen waren gedesillusioneerd toen ze hoorden dat het meisje van wie ze hielden een product van AI was

Honderden mensen waren gedesillusioneerd toen ze hoorden dat het meisje van wie ze hielden een product van AI was

Een Reddit-gebruiker genaamd u/LegalBeagle1966 is een van de vele gebruikers die verliefd zijn op Claudia, een filmsterachtig meisje dat vaak verleidelijke selfies deelt, zelfs naakte, op dit platform.

Nog twaalf potentiële bedrijven sluiten zich aan bij de AI-alliantie van Microsoft.

Nog twaalf potentiële bedrijven sluiten zich aan bij de AI-alliantie van Microsoft.

Microsoft heeft zojuist aangekondigd dat nog twaalf technologiebedrijven zullen deelnemen aan zijn AI for Good-programma.

AI herschept Dragon Ball-personages in vlees en bloed

AI herschept Dragon Ball-personages in vlees en bloed

Gebruiker @mortecouille92 heeft de kracht van de grafische ontwerptool Midjourney aan het werk gezet en uniek realistische versies gemaakt van beroemde Dragon Ball-personages zoals Goku, Vegeta, Bulma en oudere Kame.

7 technieken om ChatGPT-reacties te verbeteren

7 technieken om ChatGPT-reacties te verbeteren

Door enkele voorwaarden toe te voegen of enkele scenario's in te stellen, kan ChatGPT relevantere antwoorden op uw vragen geven. Laten we eens kijken naar enkele manieren waarop u de kwaliteit van uw ChatGPT-reacties kunt verbeteren.

Bewonder de prachtige schilderijen getekend door kunstmatige intelligentie

Bewonder de prachtige schilderijen getekend door kunstmatige intelligentie

Midjourney is een kunstmatig intelligentiesysteem dat de laatste tijd voor ‘koorts’ zorgt in de online community en de kunstenaarswereld vanwege zijn buitengewoon mooie schilderijen die niet onderdoen voor die van echte kunstenaars.

Dit AI-model was een van de eerste ‘experts’ die nieuws ontdekte over de uitbraak van Wuhan-longontsteking.

Dit AI-model was een van de eerste ‘experts’ die nieuws ontdekte over de uitbraak van Wuhan-longontsteking.

Dagen nadat China de uitbraak had aangekondigd, bleef het AI-systeem van BlueDot, met toegang tot wereldwijde gegevens over de verkoop van vliegtickets, nauwkeurig de verspreiding van het Wuhan Corona-virus naar Bangkok, Seoul, Taipei en Tokio voorspellen.