Las plataformas de inteligencia artificial de DeepMind se han hecho famosas en todo el mundo en los últimos años gracias a su excelente dominio de juegos complejos y que requieren un uso intensivo del cerebro, como el ajedrez, el shogi y el go. Con el tiempo, gradualmente "evolucionaron", derrotando a nuestros jugadores de carne y hueso con técnicas avanzadas de aprendizaje automático.
En 2016, DeepMind presentó AlphaGo, un sistema de inteligencia artificial con excelentes capacidades de juego. Un año después, la empresa siguió lanzando AlphaGo Zero. Este es el sucesor perfecto de AlphaGo, ya que posee la capacidad de aprender a jugar Go simplemente observando partidos humanos y luego dominar el juego jugando contra usted mismo. Luego está AlphaZero, un sistema de inteligencia artificial aún más superior con la capacidad de jugar Go, ajedrez y shogi simultáneamente con un solo algoritmo.
Sin embargo, el punto común de los algoritmos de IA anteriores es que todos necesitan someterse a un entrenamiento profundo sobre la jugabilidad y las reglas del juego para poder dominar un juego determinado. Este es un proceso complicado y que requiere relativamente tiempo.
Para resolver el problema, DeepMind acaba de lanzar un nuevo sistema de inteligencia artificial extremadamente superior llamado MuZero. Esta IA es capaz de jugar Go, ajedrez, shogi y un conjunto de juegos de Atari con fluidez sin tener que estar entrenado previamente en los conjuntos de reglas de los juegos anteriores. Aprenderá por sí solo y luego podrá jugar estos juegos tan bien o incluso mejor que cualquiera de los algoritmos anteriores de DeepMind.

MuZero es capaz de jugar muchos juegos complejos con fluidez
Crear un algoritmo que pueda adaptarse a cada situación del juego sin entrenamiento previo y, al mismo tiempo, ser capaz de descubrir cómo planificar para dominar ese juego es realmente un gran desafío para el que los desarrolladores e investigadores de IA han estado buscando una solución durante mucho tiempo. DeepMind intentó hacer esto utilizando un método llamado "búsqueda anticipada". Con esta técnica, el algoritmo de IA considerará situaciones y estados esperados para crear un plan de acción.
Para que sea más fácil de entender, piense en un juego estratégico como el ajedrez. Antes de tomar una decisión o un movimiento, deberás considerar cómo reaccionará tu oponente y planificar en consecuencia. Del mismo modo, la IA también utiliza el método Lookahead Search para intentar planificar algunos movimientos con antelación. Luego seleccione y priorice los movimientos que tengan mayor probabilidad de conducir a la victoria.
El problema con este enfoque es que la mayoría de las situaciones del mundo real (e incluso algunos juegos) no contienen un conjunto simple de reglas que regulen su funcionamiento. Entonces, los investigadores resolvieron el problema haciendo que la IA intentara modelar cómo un juego o escenario en particular afectaría el resultado. Luego, utilice el conocimiento y la información obtenidos para hacer un plan. La limitación de este método es que modelar todos los aspectos es casi imposible.
Por lo tanto, en lugar de modelar todo, MuZero solo intentará considerar factores importantes para tomar decisiones, similar a los humanos. Por ejemplo, cuando miramos por la ventana y vemos nubes oscuras formándose a lo lejos, la mayoría de nosotros nos veremos arrastrados a pensamientos sobre la lluvia, las tormentas eléctricas o cómo debemos vestirnos para evitar que nos pillen mojados si salimos… En lugar de pensar sobre temas como la condensación y la presión del aire. Es una forma de pensamiento selectivo instintivo. La forma en que MuZero "piensa" es la misma.
A la hora de tomar una decisión, MuZero debe tener en cuenta tres factores diferentes. Considerará los resultados de la decisión anterior, la situación actual y, finalmente, el mejor curso de acción para tomar la siguiente decisión. Este enfoque aparentemente simple convierte a MuZero en el algoritmo más eficaz que DeepMind ha creado hasta la fecha.

MuZero es uno de los algoritmos más eficientes
En pruebas internas, los resultados mostraron que MuZero se desempeñó de manera similar a AlphaZero en ajedrez, Go y shogi. Y es mejor que todos los algoritmos lanzados anteriormente, incluido Agent57, en los juegos de Atari. Además, cuanto más tiempo dé MuZero para considerar una acción, más eficiente será el algoritmo.
Las poderosas capacidades de aprendizaje automatizado de MuZero podrían algún día ayudar a resolver problemas complejos en muchos de los campos "candentes" de hoy en día, como la robótica, donde no hay lugar para reglas simples.