Dans une étude récente menée chez Google, des ingénieurs ont tenté d'utiliser un modèle d'intelligence artificielle (IA) comme base pour créer un robot à 4 pattes capable d'apprendre à se déplacer de manière extrêmement naturelle sans avoir besoin de trop d'aide de la part des humains, comme pour avancer, en arrière, en tournant à gauche et à droite. De plus, il peut également apprendre à se déplacer avec précision sur trois types de terrains différents, notamment un sol plat, des coussins moelleux et des paillassons avec des espaces.
Cela peut paraître simple, mais en réalité, il est très difficile de concevoir des contrôleurs de robot capables de gérer des commandes de navigation aussi diverses et complexes, en particulier sur différents types de terrain, sans l'aide de l'IA. Le problème clé est que les robots peuvent s’auto-apprendre et s’adapter à de nombreuses situations, au lieu de toujours avoir besoin d’une intervention humaine à chaque étape.

La technologie d'IA utilisée dans ce projet est appelée « apprentissage par renforcement profond », une approche basée sur une technologie d'apprentissage profond inspirée de la psychologie de l'apprentissage et de « l'apprentissage par essai » et « l'apprentissage par erreur ». La puissance de l’apprentissage par renforcement profond a été démontrée pour la première fois en 2013 lorsque DeepMind a publié un modèle d’IA capable d’apprendre à jouer aux jeux Atari classiques sans aucune instruction.
Les jeux vidéo, ou du moins les jeux de simulation, sont également souvent utilisés par les chercheurs en robotique pour entraîner leurs modèles d'IA. Il crée un environnement théorique formidable, permettant aux chercheurs de former leurs robots dans un monde virtuel avant de se lancer dans le monde réel, aidant ainsi le robot à reconnaître et à se souvenir des situations qu'il vit lorsqu'il apprend à effectuer une tâche spécifique.
En outre, les chercheurs de Google encouragent également le développement d’algorithmes améliorés permettant à leurs robots d’apprendre plus rapidement avec moins d’essais.
Le fait qu'un robot puisse apprendre à marcher tout seul en 2 heures n'est peut-être pas un résultat choquant, mais cela montre une nette différence d'efficacité par rapport aux ingénieurs qui doivent programmer spécifiquement chaque opération. La façon dont les robots fonctionnent est manuelle et extrêmement passive comme avant. Cependant, les difficultés rencontrées par l’équipe de Google étaient également énormes.
« Bien que de nombreux algorithmes d’apprentissage non supervisé ou d’apprentissage par renforcement profond aient été démontrés en simulation, les appliquer à des robots dans des expériences réelles n’est pas simple. Premièrement, l’apprentissage par renforcement profond nécessite une grande quantité de données de formation en entrée, et la collecte de données sur les robots est également très coûteuse. Deuxièmement, le processus de formation nécessite de consacrer beaucoup de temps à surveiller le robot. Si nous avions besoin d’un humain pour surveiller le robot et le réinitialiser manuellement à chaque fois qu’il trébuche – des centaines ou des milliers de fois – il faudrait beaucoup d’efforts et de temps pour entraîner le robot. Plus cela prendra de temps, plus il sera difficile de faire évoluer l'apprentissage des robots dans de nombreux environnements différents", a déclaré Jie Tan, l'un des principaux ingénieurs du projet.
À l’avenir, ces recherches pourraient contribuer à créer des robots plus agiles, capables de s’adapter plus rapidement à différents types de terrain. Le potentiel d’application est énorme, mais le projet n’en est qu’aux premiers stades de développement et il y aura encore de nombreux défis à relever.