Des chercheurs de Google laissent lIA jouer à des jeux pour améliorer lapprentissage par renforcement

Des chercheurs de Google laissent lIA jouer à des jeux pour améliorer lapprentissage par renforcement

L'apprentissage par renforcement - un sous-domaine de l'apprentissage automatique - implique des techniques de formation en IA qui utilisent des « récompenses » pour orienter la politique logicielle vers des objectifs spécifiques. En d’autres termes, il s’agit du processus par lequel l’IA va essayer différentes actions, apprendre de chaque réponse si cette action apporte de meilleurs résultats ou non, puis renforcer les actions qui ont fonctionné, c’est-à-dire retravailler et modifier automatiquement ses algorithmes sur plusieurs itérations. donne les meilleurs résultats. Ces derniers temps, l'apprentissage par renforcement a été exploité pour modéliser l'impact des règles sociales, pour créer des modèles d'IA dotés de très bonnes capacités de jeu ou des robots programmables capables d'auto-guérison et de récupération après des problèmes logiciels ennuyeux.

Des chercheurs de Google laissent l'IA jouer à des jeux pour améliorer l'apprentissage par renforcement

Bien qu’elle possède une grande flexibilité et puisse être appliquée dans de nombreux modèles et objectifs différents, la technique d’apprentissage par renforcement présente un regrettable inconvénient : elle est inefficace. Entraîner un modèle d'IA à l'aide de techniques d'apprentissage par renforcement nécessite de nombreuses interactions différentes dans un environnement simulé ou réel, ce qui est bien plus que lorsqu'un humain a besoin d'apprendre une certaine tâche. Pour surmonter en partie ce problème, notamment dans le domaine des jeux vidéo, des chercheurs en intelligence artificielle de Google ont récemment proposé d'utiliser un nouvel algorithme appelé Simulated Policy Learning (en abrégé SimPLe), qui utilise des modèles de jeux vidéo simples pour apprendre et améliorer les politiques de qualité dans la sélection des actions. des techniques d’apprentissage par renforcement.

Les chercheurs ont décrit l’algorithme dans un article récemment publié intitulé « Model-Based Reinforcement Learning for Atari », ainsi que dans un document qui accompagne le code open source.

« À un niveau élevé, l'idée des chercheurs en développant l'algorithme SimPLe était d'alterner entre l'établissement d'un modèle des caractéristiques du jeu et l'utilisation de ce modèle pour optimiser une politique (avec des techniques d'apprentissage par renforcement sans modèle) dans un environnement de simulation de jeu. Les principes de base derrière cet algorithme sont bien établis et utilisés dans de nombreuses méthodes récentes d’apprentissage par renforcement basées sur des modèles », ont partagé les scientifiques de l’équipe Google AI Łukasz Kaiser et Dumitru Erhan.

Comme l'expliquent les deux chercheurs, entraîner un système d'IA à jouer à un jeu nécessite de prédire les prochaines textures d'images du jeu cible, qui sont données par une séquence d'images et de combinaisons de commandes (par exemple « gauche », « intérieur », « droite », « en avant », « en arrière »). En outre, les chercheurs ont également montré qu’un modèle réussi peut générer des « trajectoires » pouvant être utilisées dans la formation des politiques du programme des agents de jeu, ce qui réduira le besoin de s’appuyer sur des séquences informatiques complexes dans le jeu.

Des chercheurs de Google laissent l'IA jouer à des jeux pour améliorer l'apprentissage par renforcement

L'algorithme SimPLe fait exactement cela. Il faut 4 images en entrée pour prédire la prochaine image avec une récompense, et une fois entièrement entraîné, l'algorithme génère des « déploiements » - des exemples de séquences d'actions, d'observations et de résultats - utilisés pour améliorer la politique (Kaiser et Erhan notent que l'algorithme SimPLe utilise uniquement des déploiements de longueur moyenne pour minimiser les erreurs de prédiction).

Lors de tests d'une durée équivalente à 2 heures de jeu (100 000 interactions), les agents ayant appliqué les politiques ajustées de SimPLe ont obtenu des scores maximum dans deux jeux de test (Pong et Freeway), tout en générant également des prédictions presque parfaites jusqu'à 50 étapes dans le futur.

Des chercheurs de Google laissent l'IA jouer à des jeux pour améliorer l'apprentissage par renforcement

Parfois, les deux chercheurs ont également tenté de collecter des détails mineurs mais très pertinents dans les jeux, ce qui a abouti à un échec. Kaiser et Erhan admettent que cet algorithme n'atteint toujours pas vraiment les performances des méthodes standards d'apprentissage par renforcement. Cependant, SimPLe peut être plus de deux fois plus efficace en termes de formation, et l'équipe espère que les études futures contribueront à améliorer considérablement les performances de l'algorithme.

« La cible principale des méthodes d’apprentissage par renforcement basées sur des modèles se situe dans les environnements où les interactions s’avèrent complexes, lentes ou nécessitent un étiquetage humain, comme dans de nombreuses tâches robotiques par exemple. Dans un tel environnement, un simulateur nous permettrait de mieux comprendre l’environnement des programmes d’agents, et pourrait à son tour conduire à de nouvelles façons de faire, meilleures et plus rapides.


Le groupe de travail ChatGPT sera créé par l’Europe

Le groupe de travail ChatGPT sera créé par l’Europe

L'organisme qui rassemble les organismes nationaux de surveillance de la vie privée en Europe a annoncé jeudi avoir créé un groupe de travail dédié à ChatGPT.

LIA prédit lheure de la mort humaine avec une précision de 78 %

LIA prédit lheure de la mort humaine avec une précision de 78 %

Des scientifiques danois et américains ont collaboré pour développer un système d'IA appelé life2vec, capable de prédire l'heure de la mort humaine avec une grande précision.

L’IA prédit les maladies urinaires rien qu’au son de l’urine

L’IA prédit les maladies urinaires rien qu’au son de l’urine

Un algorithme d’IA appelé Audioflow peut écouter le bruit de la miction pour identifier efficacement et avec succès les flux anormaux et les problèmes de santé correspondants du patient.

Barmans, attention : ce robot peut préparer un cocktail en 1 minute seulement

Barmans, attention : ce robot peut préparer un cocktail en 1 minute seulement

En raison du vieillissement et du déclin de la population japonaise, le pays manque d'un nombre important de jeunes travailleurs, notamment dans le secteur des services.

Des centaines de personnes ont été déçues lorsqu’elles ont appris que la fille qu’ils aimaient était un produit de l’IA

Des centaines de personnes ont été déçues lorsqu’elles ont appris que la fille qu’ils aimaient était un produit de l’IA

Un utilisateur de Reddit nommé u/LegalBeagle1966 est l'un des nombreux utilisateurs amoureux de Claudia, une fille ressemblant à une star de cinéma qui partage souvent des selfies séduisants, même nus, sur cette plateforme.

12 autres entreprises potentielles rejoignent « lalliance IA » de Microsoft.

12 autres entreprises potentielles rejoignent « lalliance IA » de Microsoft.

Microsoft vient d'annoncer que 12 autres entreprises technologiques participeront à son programme AI for Good.

LIA recrée les personnages de Dragon Ball en chair et en os

LIA recrée les personnages de Dragon Ball en chair et en os

L'utilisateur @mortecouille92 a mis à profit la puissance de l'outil de conception graphique Midjourney et a créé des versions réalistes uniques de personnages célèbres de Dragon Ball comme Goku, Vegeta, Bulma et l'aîné Kame. .

7 techniques pour améliorer les réponses ChatGPT

7 techniques pour améliorer les réponses ChatGPT

En ajoutant simplement quelques conditions ou en mettant en place des scénarios, ChatGPT peut donner des réponses plus pertinentes à vos requêtes. Examinons quelques façons d'améliorer la qualité de vos réponses ChatGPT.

Émerveillez-vous devant les magnifiques peintures dessinées par lintelligence artificielle

Émerveillez-vous devant les magnifiques peintures dessinées par lintelligence artificielle

Midjourney est un système d'intelligence artificielle qui a récemment provoqué une "fièvre" dans la communauté en ligne et dans le monde des artistes en raison de ses peintures extrêmement belles qui ne sont pas inférieures à celles de vrais artistes.

Ce modèle dIA a été lun des premiers « experts » à découvrir des nouvelles sur lépidémie de pneumonie de Wuhan.

Ce modèle dIA a été lun des premiers « experts » à découvrir des nouvelles sur lépidémie de pneumonie de Wuhan.

Quelques jours après que la Chine a annoncé l'épidémie, grâce à l'accès aux données mondiales sur les ventes de billets d'avion, le système d'IA de BlueDot a continué à prédire avec précision la propagation du virus Corona de Wuhan à Bangkok, Séoul, Taipei et Tokyo.