Cercetătorii Google au permis inteligenței artificiale să joace jocuri pentru a îmbunătăți învățarea prin consolidare

Cercetătorii Google au permis inteligenței artificiale să joace jocuri pentru a îmbunătăți învățarea prin consolidare

Învățarea prin consolidare - un subdomeniu al învățării automate - implică tehnici de antrenament AI care folosesc „recompense” pentru a conduce politica software către obiectivele vizate în mod specific. Cu alte cuvinte, acesta este procesul prin care IA va încerca diferite acțiuni, va învăța din fiecare răspuns dacă acțiunea aduce rezultate mai bune sau nu, și apoi va consolida acțiunile care au funcționat, adică reelaborarea și modificarea automată a algoritmilor pe mai multe iterații. dă cele mai bune rezultate. În ultima vreme, învățarea prin întărire a fost exploatată pentru a modela impactul regulilor sociale, pentru a crea modele AI cu capacități de joc extrem de bune sau roboți programabili care se pot auto-vindeca.Recuperare după probleme de software enervante.

Cercetătorii Google au permis inteligenței artificiale să joace jocuri pentru a îmbunătăți învățarea prin consolidare

Deși posedă o flexibilitate ridicată și poate fi aplicată în multe modele și scopuri diferite, tehnica de învățare prin întărire conține un neajuns nefericit: este ineficientă. Pentru a antrena un model AI folosind tehnici de învățare prin întărire necesită o mulțime de interacțiuni diferite într-un mediu simulat sau real, ceea ce este mult mai mult decât atunci când un om trebuie să învețe o anumită sarcină. Pentru a depăși parțial această problemă, în special în domeniul jocurilor video, cercetătorii de inteligență artificială de la Google au propus recent utilizarea unui nou algoritm numit Simulated Policy Learning (abreviat ca SimPLe), care utilizează modele simple de jocuri video pentru a învăța și îmbunătăți politicile de calitate în selecția acțiunii. a tehnicilor de învățare prin întărire.

Cercetătorii au descris algoritmul într-o lucrare recent publicată intitulată „Învățare prin consolidare bazată pe modele pentru Atari” și, de asemenea, într-un document care însoțește codul open source.

„La un nivel înalt, ideea cercetătorilor în dezvoltarea algoritmului SimPLe a fost aceea de a alterna între stabilirea unui model al caracteristicilor jocului și utilizarea modelului respectiv pentru a optimiza Optimize a policy (cu tehnici de învățare prin întărire fără model) într-un mediu de simulare a jocului. Principiile de bază din spatele acestui algoritm sunt bine stabilite și utilizate în multe metode recente de învățare prin consolidare bazate pe modele”, au spus oamenii de știință din echipa Google AI, Łukasz Kaiser și Dumitru Erhan.

După cum au explicat cei doi cercetători, antrenarea unui sistem AI pentru a juca un joc necesită prezicerea următoarelor texturi de cadre ale jocului țintă, care sunt date de o secvență de cadre și combinații de comenzi (de exemplu, „stânga”, „înăuntru”, „dreapta”, „ înainte”, „înapoi”). În plus, cercetătorii au arătat, de asemenea, că un model de succes poate genera „traiectorii” care pot fi utilizate în antrenarea politicilor programului de agenți de joc, ceea ce va reduce nevoia de a se baza pe secvențe complexe de calcul în joc.

Cercetătorii Google au permis inteligenței artificiale să joace jocuri pentru a îmbunătăți învățarea prin consolidare

Algoritmul SimPLe face exact acest lucru. Este nevoie de 4 cadre ca intrare pentru a prezice următorul cadru cu o recompensă, iar odată ce este complet antrenat, algoritmul generează „lansări” - secvențe mostre de secvențe de acțiuni, observații și rezultate - utilizate pentru a îmbunătăți politica (Kaiser și Erhan notează că algoritmul SimPLe folosește numai lansări de lungime medie pentru a minimiza eroarea de predicție).

În teste care au durat echivalentul a 2 ore de joc (100.000 de interacțiuni), agenții cu politicile ajustate ale SimPLe au obținut scoruri maxime în două jocuri de testare (Pong și Freeway), generând în același timp predicții aproape perfecte până la 50 de pași în viitor.

Cercetătorii Google au permis inteligenței artificiale să joace jocuri pentru a îmbunătăți învățarea prin consolidare

Uneori, cei doi cercetători au încercat să colecteze detalii mici, dar extrem de relevante în jocuri, ducând la eșec. Kaiser și Erhan admit că acest algoritm încă nu se potrivește cu performanța metodelor standard de învățare prin întărire. Cu toate acestea, SimPLe poate fi de peste două ori mai eficient în ceea ce privește antrenamentul, iar echipa speră că studiile viitoare vor ajuta la îmbunătățirea semnificativă a performanței algoritmului.

„Ținta principală a metodelor de învățare prin întărire bazate pe model este în mediile în care interacțiunile se dovedesc complexe, lente sau necesită etichetare umană, cum ar fi multe sarcini robotizate, de exemplu. Într-un astfel de mediu, un simulator ne-ar permite să înțelegem mai bine mediul programelor de agenți și, la rândul său, ar putea duce la moduri noi, mai bune și mai rapide de a face lucrurile. Învățare prin consolidare cu sarcini multiple”.


Grupul de lucru ChatGPT va fi înființat de Europa

Grupul de lucru ChatGPT va fi înființat de Europa

Organismul care reunește organele naționale de supraveghere a vieții private din Europa a declarat joi că a înființat un grup operativ dedicat ChatGPT

AI prezice ora morții umane cu o precizie de 78%.

AI prezice ora morții umane cu o precizie de 78%.

Oamenii de știință danezi și americani au colaborat pentru a dezvolta un sistem AI numit life2vec, capabil să prezică ora morții umane cu mare precizie.

AI prezice bolile urinare doar prin sunetul urinei

AI prezice bolile urinare doar prin sunetul urinei

Un algoritm AI numit Audioflow poate asculta sunetul urinării pentru a identifica eficient și cu succes fluxurile anormale și problemele de sănătate corespunzătoare ale pacientului.

Barmani, atenție: acest robot poate amesteca un cocktail în doar 1 minut

Barmani, atenție: acest robot poate amesteca un cocktail în doar 1 minut

Îmbătrânirea și scăderea populației din Japonia a lăsat țara lipsită de un număr semnificativ de tineri lucrători, în special în sectorul serviciilor.

Sute de oameni au fost dezamăgiți când au aflat că fata pe care o iubeau este un produs al inteligenței artificiale

Sute de oameni au fost dezamăgiți când au aflat că fata pe care o iubeau este un produs al inteligenței artificiale

Un utilizator Reddit numit u/LegalBeagle1966 este unul dintre mulți utilizatori îndrăgostiți de Claudia, o fată asemănătoare vedetei de cinema care deseori împărtășește selfie-uri seducătoare, chiar și nud, pe această platformă.

Încă 12 companii potențiale se alătură „alianței AI” a Microsoft.

Încă 12 companii potențiale se alătură „alianței AI” a Microsoft.

Microsoft tocmai a anunțat că alte 12 companii de tehnologie vor participa la programul său AI for Good.

AI recreează personajele Dragon Ball în carne și oase

AI recreează personajele Dragon Ball în carne și oase

Utilizatorul @mortecouille92 a pus în funcțiune puterea instrumentului de design grafic Midjourney și a creat versiuni realiste unice ale personajelor celebre Dragon Ball precum Goku, Vegeta, Bulma și bătrânul Kame. .

7 tehnici pentru a îmbunătăți răspunsurile ChatGPT

7 tehnici pentru a îmbunătăți răspunsurile ChatGPT

Doar prin adăugarea unor condiții sau configurarea unor scenarii, ChatGPT poate oferi răspunsuri mai relevante la întrebările dvs. Să vedem câteva modalități prin care puteți îmbunătăți calitatea răspunsurilor dvs. ChatGPT.

Minunați-vă de tablourile frumoase desenate de inteligența artificială

Minunați-vă de tablourile frumoase desenate de inteligența artificială

Midjourney este un sistem de inteligență artificială care a provocat recent o „febră” în comunitatea online și în lumea artiștilor din cauza picturilor sale extrem de frumoase, care nu sunt inferioare celor ale artiștilor adevărați.

Acest model AI a fost unul dintre primii „experți” care au descoperit știri despre focarul de pneumonie din Wuhan.

Acest model AI a fost unul dintre primii „experți” care au descoperit știri despre focarul de pneumonie din Wuhan.

La câteva zile după ce China a anunțat focarul, având acces la datele globale despre vânzările de bilete de avion, sistemul AI al BlueDot a continuat să prezică cu exactitate răspândirea virusului Wuhan Corona la Bangkok, Seul, Taipei și Tokyo.