I ricercatori di Google consentono all’intelligenza artificiale di giocare per migliorare l’apprendimento per rinforzo

I ricercatori di Google consentono all’intelligenza artificiale di giocare per migliorare l’apprendimento per rinforzo

L’apprendimento per rinforzo – un sottocampo dell’apprendimento automatico – prevede tecniche di formazione sull’intelligenza artificiale che utilizzano “ricompense” per guidare la politica del software verso obiettivi mirati specifici. In altre parole, questo è il processo attraverso il quale l'IA proverà diverse azioni, apprenderà da ciascuna risposta se quell'azione porta risultati migliori o meno, e quindi rafforzerà le azioni che hanno funzionato, ovvero rielaborando e modificando automaticamente i suoi algoritmi su più iterazioni. dà i migliori risultati. Negli ultimi tempi, l’apprendimento per rinforzo è stato sfruttato per modellare l’impatto delle regole sociali, per creare modelli di intelligenza artificiale con ottime capacità di gioco, o robot programmabili in grado di autoripararsi e recuperare dopo fastidiosi problemi software.

I ricercatori di Google consentono all’intelligenza artificiale di giocare per migliorare l’apprendimento per rinforzo

Sebbene possieda un’elevata flessibilità e possa essere applicata a molti modelli e scopi diversi, la tecnica dell’apprendimento per rinforzo presenta uno sfortunato difetto: è inefficace. Addestrare un modello di intelligenza artificiale utilizzando tecniche di apprendimento per rinforzo richiede molte interazioni diverse in un ambiente simulato o reale, che è molto di più rispetto a quando un essere umano ha bisogno di apprendere un determinato compito. Per superare in parte questo problema, soprattutto nel campo dei videogiochi, i ricercatori di intelligenza artificiale di Google hanno recentemente proposto l'utilizzo di un nuovo algoritmo chiamato Simulated Policy Learning (abbreviato in SimPLe), che utilizza semplici modelli di videogiochi per apprendere e migliorare le politiche di qualità nella selezione delle azioni. delle tecniche di apprendimento per rinforzo.

I ricercatori hanno descritto l’algoritmo in un articolo appena pubblicato intitolato “Model-Based Reinforcement Learning for Atari” e anche in un documento che accompagna il codice open source.

“Ad alto livello, l’idea dei ricercatori nello sviluppo dell’algoritmo SimPLe era quella di alternare tra la creazione di un modello delle caratteristiche del gioco e l’utilizzo di quel modello per ottimizzare una politica (con tecniche di apprendimento di rinforzo senza modello) in un ambiente di simulazione del gioco. I principi di base alla base di questo algoritmo sono ben consolidati e utilizzati in molti recenti metodi di apprendimento per rinforzo basati su modelli”, hanno condiviso gli scienziati del team Google AI Łukasz Kaiser e Dumitru Erhan.

Come hanno spiegato i due ricercatori, addestrare un sistema di intelligenza artificiale a giocare a un gioco richiede di prevedere le texture dei fotogrammi successivi del gioco target, che sono date da una sequenza di fotogrammi e combinazioni di comandi (ad esempio “sinistra”, “interno”, “destra”, “ avanti”, “indietro”). Inoltre, i ricercatori hanno anche dimostrato che un modello di successo può generare “traiettorie” che possono essere utilizzate nell’addestramento delle politiche dei programmi degli agenti di gioco, riducendo così la necessità di fare affidamento su complesse sequenze computazionali nel gioco.

I ricercatori di Google consentono all’intelligenza artificiale di giocare per migliorare l’apprendimento per rinforzo

L'algoritmo SimPLe fa esattamente questo. Sono necessari 4 fotogrammi come input per prevedere il fotogramma successivo con una ricompensa e, una volta completamente addestrato, l'algoritmo genera "laminazioni" - sequenze campione di sequenze di azioni, osservazioni e risultati - utilizzate per migliorare la politica (Kaiser ed Erhan notano che l'algoritmo SimPLe utilizza solo implementazioni di durata media per ridurre al minimo l'errore di previsione).

Nei test della durata equivalente di 2 ore di gioco (100.000 interazioni), gli agenti con le politiche adattate di SimPLe hanno ottenuto il punteggio massimo in due giochi di prova (Pong e Freeway), generando anche previsioni quasi perfette fino a 50 passaggi nel futuro.

I ricercatori di Google consentono all’intelligenza artificiale di giocare per migliorare l’apprendimento per rinforzo

A volte i due ricercatori hanno provato anche a raccogliere dettagli piccoli ma molto rilevanti nei giochi, con esito negativo. Kaiser ed Erhan ammettono che questo algoritmo non raggiunge ancora le prestazioni dei metodi di apprendimento per rinforzo standard. Tuttavia, SimPLe può essere due volte più efficace in termini di formazione e il team spera che gli studi futuri contribuiscano a migliorare significativamente le prestazioni dell'algoritmo.

“L’obiettivo principale dei metodi di apprendimento per rinforzo basati su modelli è in ambienti in cui le interazioni si rivelano complesse, lente o richiedono l’etichettatura umana, come ad esempio in molti compiti robotici. In un ambiente del genere, un simulatore ci consentirebbe di comprendere meglio l’ambiente dei programmi agente e, a sua volta, potrebbe portare a modi nuovi, migliori e più veloci di fare le cose. Apprendimento per rinforzo multi-task”.


La task force ChatGPT sarà istituita dall’Europa

La task force ChatGPT sarà istituita dall’Europa

L'organismo che unisce i supervisori nazionali della privacy europei ha dichiarato giovedì di aver istituito una task force dedicata a ChatGPT

L’intelligenza artificiale prevede l’ora della morte umana con una precisione del 78%.

L’intelligenza artificiale prevede l’ora della morte umana con una precisione del 78%.

Scienziati danesi e americani hanno collaborato per sviluppare un sistema di intelligenza artificiale chiamato life2vec, in grado di prevedere l’ora della morte umana con elevata precisione.

L’intelligenza artificiale prevede le malattie urinarie solo dal suono dell’urina

L’intelligenza artificiale prevede le malattie urinarie solo dal suono dell’urina

Un algoritmo AI chiamato Audioflow può ascoltare il suono della minzione per identificare in modo efficace e con successo flussi anomali e corrispondenti problemi di salute del paziente.

Baristi, attenzione: questo robot può preparare un cocktail in solo 1 minuto

Baristi, attenzione: questo robot può preparare un cocktail in solo 1 minuto

L'invecchiamento e il calo della popolazione giapponese hanno lasciato il paese privo di un numero significativo di giovani lavoratori, soprattutto nel settore dei servizi.

Centinaia di persone sono rimaste deluse quando hanno appreso che la ragazza che amavano era un prodotto dellintelligenza artificiale

Centinaia di persone sono rimaste deluse quando hanno appreso che la ragazza che amavano era un prodotto dellintelligenza artificiale

Un utente Reddit di nome u/LegalBeagle1966 è uno dei tanti utenti innamorati di Claudia, una ragazza simile a una star del cinema che spesso condivide selfie seducenti, anche nudi, su questa piattaforma.

Altre 12 potenziali aziende si uniscono allAlleanza AI di Microsoft.

Altre 12 potenziali aziende si uniscono allAlleanza AI di Microsoft.

Microsoft ha appena annunciato che altre 12 aziende tecnologiche parteciperanno al suo programma AI for Good.

Lintelligenza artificiale ricrea i personaggi di Dragon Ball in carne e ossa

Lintelligenza artificiale ricrea i personaggi di Dragon Ball in carne e ossa

L'utente @mortecouille92 ha messo a frutto la potenza dello strumento di progettazione grafica Midjourney e ha creato versioni realistiche uniche di famosi personaggi di Dragon Ball come Goku, Vegeta, Bulma e l'anziano Kame. .

7 tecniche per migliorare le risposte ChatGPT

7 tecniche per migliorare le risposte ChatGPT

Semplicemente aggiungendo alcune condizioni o impostando alcuni scenari, ChatGPT può fornire risposte più pertinenti alle tue domande. Diamo un'occhiata ad alcuni modi in cui puoi migliorare la qualità delle tue risposte ChatGPT.

Lasciati stupire dai bellissimi dipinti disegnati dallintelligenza artificiale

Lasciati stupire dai bellissimi dipinti disegnati dallintelligenza artificiale

Midjourney è un sistema di intelligenza artificiale che recentemente ha causato "febbre" nella comunità online e nel mondo degli artisti a causa dei suoi dipinti estremamente belli che non sono inferiori a quelli dei veri artisti.

Questo modello di intelligenza artificiale è stato uno dei primi esperti a scoprire notizie sullo scoppio della polmonite di Wuhan.

Questo modello di intelligenza artificiale è stato uno dei primi esperti a scoprire notizie sullo scoppio della polmonite di Wuhan.

Alcuni giorni dopo l’annuncio dell’epidemia da parte della Cina, con l’accesso ai dati globali sulle vendite di biglietti aerei, il sistema di intelligenza artificiale di BlueDot ha continuato a prevedere con precisione la diffusione del virus Corona di Wuhan a Bangkok, Seul, Taipei e Tokyo.