L'intelligence artificielle Libratus vient de vaincre 4 maîtres du poker, grâce à une nouvelle méthode d'entraînement à l'IA , en lieu et place des techniques conventionnelles actuelles.
Pendant près de trois semaines, Dong Kim s'est assis dans un casino de Pittsburgh et a joué au poker avec une machine. Cependant, Dong Kim n'est pas qu'un joueur de poker ordinaire et la machine sur laquelle il joue n'est pas une machine de poker ordinaire comme les autres.
Dong Kim , 28 ans, est l'un des meilleurs joueurs de poker au monde. Pendant ce temps, l'autre machine de poker - Libratus, créée par deux chercheurs en informatique de l'Université Carnegie Mellon, n'est qu'un système d'intelligence artificielle fonctionnant sur un superordinateur de Pittsburgh . Pendant 20 jours consécutifs, quatre maîtres du poker ont affronté Libratus au Texas Hold'Em sans limite , une forme de poker particulièrement complexe qui comprend des stratégies de paris pour aider les joueurs. Les joueurs doivent vaincre des dizaines de cartes.

À mi-chemin du match, Dong Kim a commencé à avoir l'impression que la machine de poker Libratus pouvait voir ses cartes. " Je ne pense pas que ce soit de la triche. Je pense juste que c'est très bien. " a déclaré Dong Kim. C'est génial, en fait, Libratus a non seulement battu Dong Kim, mais a également battu trois autres meilleurs joueurs de poker mondiaux – c'est la première fois qu'une intelligence artificielle est capable de le faire.
Tout au long du concours, les créateurs de Libratus sont restés réticents à partager comment fonctionne ce système d'intelligence artificielle – comment il connaît un tel succès, comment il peut être imité directement et percevoir les humains d'une manière qu'aucune machine n'a jamais pu faire. Cependant, selon ce que les chercheurs ont révélé, Libratus a atteint le niveau d’être plus qu’une simple IA, mais elle repose sur trois systèmes distincts qui fonctionnent ensemble.
Notez que les IA modernes d’aujourd’hui sont exploitées par plusieurs technologies en même temps, et non par une seule. Les réseaux de neurones profonds suscitent beaucoup d'attention ces derniers jours, et pour cause : " Ils alimentent tout, de la reconnaissance d'images à la traduction linguistique en passant par la recherche. trouver les produits clés des plus grandes entreprises technologiques du monde. Cependant, le succès des réseaux de neurones artificiels également apporte une bouffée d'air frais à de nombreuses autres techniques d'IA, aidant les ordinateurs à imiter, voire à surpasser le talent humain ".
Cependant, Libratus n’utilise pas ce réseau neuronal artificiel. Libratus s'appuie avant tout sur une autre forme d'IA, également connue sous le nom de « Reinforcement Learning », une méthode extrêmement rigoureuse d'essais et d'erreurs. Essentiellement, la machine de poker Libratus joue encore et encore contre elle-même.

Le Deep Mind Lab de Google a utilisé l'apprentissage par renforcement pour créer AlphaGo, le système qui a battu l'acteur mondial Lee Sedol au début de l'année dernière. Il existe cependant une différence importante entre ces deux systèmes. AlphaGo a appris à jouer au Go en analysant 30 millions de mouvements humains, avant de développer ses compétences en jouant contre lui-même. Mais Libratus est le contraire, il apprend à jouer au poker complètement à partir de zéro.
Grâce à un algorithme appelé Counterfactual Regret Minimization , il a commencé par jouer au hasard et finalement, après des mois de pratique avec des milliards de mains de poker, il a atteint le niveau. Non seulement il défie les meilleurs joueurs, mais il joue également d'une manière que les meilleurs joueurs ne peuvent pas jouer. avec une gamme de paris plus large et randomisez ces paris. Par conséquent, il sera plus difficile pour les adversaires de deviner les cartes que détient Libratus.
" Nous donnons à l'IA une description du jeu. Nous ne lui disons pas comment jouer. Elle développe ensuite une stratégie qui est complètement indépendante du jeu humain et peut être très différente de la façon dont les humains jouent à ce jeu" , a déclaré Noam. Brown, étudiant en maîtrise à l'Université Carnegie Mellon - CMU, qui a créé ce système d'IA avec son professeur Tuomas Sandholm.

Mais ce n’est que la première étape. Pendant le match à Pittsburgh, un deuxième système analyse l'état du match et se concentre sur l'attention du premier système. Avec l'aide de ce deuxième système, un détail « endgamer » dans un article de Sandholm et Brown, le premier système n'a pas besoin de parcourir tous les scénarios qu'il peut explorer. Et il lui suffit de parcourir quelques-uns de ces scénarios. La particularité est que Libratus n'apprend pas seulement avant le jeu, il continue d'apprendre même en jouant.
Bien que ces deux systèmes soient à eux seuls largement suffisants pour jouer au poker efficacement. Mais Dong Kim et d'autres joueurs ont quand même trouvé des modèles dans le jeu de l'ordinateur et les ont exploités. C'est pourquoi Brown et Sandholm ont créé un troisième système. Chaque soir, Brown exécutera un algorithme capable d’identifier ces modèles et de les éliminer. " Il peut faire ce calcul du jour au lendemain et tout sera prêt le lendemain ", a déclaré Brown.

Si vous pensez que cela semble injuste, vous devez quand même l’accepter, car c’est ainsi que fonctionne l’IA. Cependant, non seulement l’IA le fait, mais les humains peuvent aussi souvent combiner des processus, améliorant, exécutant et améliorant activement l’IA. En bref, Libratus est véritablement une étape importante, nous montrant comment un nouveau type d'IA pourrait jouer un rôle important dans tout, du trading à Wall Street à la cybersécurité, en passant par les enchères et les négociations politiques.
" Le poker est l'un des jeux les plus difficiles à pénétrer pour l'IA, car vous ne voyez que des informations partielles sur l'état du jeu. Il n'y a pas de mouvement optimal unique. Au lieu de cela, l'IA devra randomiser ses actions pour rendre les adversaires incertains quand il les trompe ", a déclaré Andrews Ng, qui a soutenu le laboratoire central d'IA de Google et est maintenant scientifique en chef chez Baidu.
Libratus a fait de son mieux. Il randomise ses paris à un niveau qui dépasse la pensée même des meilleurs joueurs. Et si cela ne fonctionne pas, l’algorithme de Brown comblera les lacunes. Un trader financier peut travailler de la même manière. La même chose arrive avec un diplomate. Libratus fait donc une déclaration forte : une machine peut tromper un humain.
Reportez-vous à d’autres articles :
S'amuser!