Los investigadores de Google permiten que la IA juegue juegos para mejorar el aprendizaje por refuerzo

Los investigadores de Google permiten que la IA juegue juegos para mejorar el aprendizaje por refuerzo

El aprendizaje por refuerzo, un subcampo del aprendizaje automático, implica técnicas de entrenamiento de IA que utilizan “recompensas” para impulsar la política de software hacia objetivos específicos. En otras palabras, este es el proceso mediante el cual la IA intentará diferentes acciones, aprenderá de cada respuesta si esa acción produce mejores resultados o no, y luego reforzará las acciones que funcionaron, es decir, reelaborará y modificará sus algoritmos automáticamente durante múltiples iteraciones. produce los mejores resultados. En los últimos tiempos, el aprendizaje por refuerzo se ha aprovechado para modelar el impacto de las reglas sociales, para crear modelos de IA con capacidades de juego extremadamente buenas o robots programables que pueden autocurarse después de molestos problemas de software.

Los investigadores de Google permiten que la IA juegue juegos para mejorar el aprendizaje por refuerzo

Aunque posee una gran flexibilidad y puede aplicarse en muchos modelos y propósitos diferentes, la técnica de aprendizaje por refuerzo contiene un inconveniente desafortunado: es ineficaz. Entrenar un modelo de IA utilizando técnicas de aprendizaje por refuerzo requiere muchas interacciones diferentes en un entorno simulado o del mundo real, que es mucho más que cuando un humano necesita aprender una determinada tarea. Para superar en parte este problema, especialmente en el campo de los videojuegos, investigadores de inteligencia artificial de Google propusieron recientemente utilizar un nuevo algoritmo llamado Simulated Policy Learning (abreviado como SimPLe), que utiliza modelos simples de videojuegos para aprender y mejorar políticas de calidad en la selección de acciones. de técnicas de aprendizaje por refuerzo.

Los investigadores describieron el algoritmo en un artículo recientemente publicado titulado "Aprendizaje por refuerzo basado en modelos para Atari", y también en un documento que acompaña al código fuente abierto.

“A alto nivel, la idea de los investigadores al desarrollar el algoritmo SimPLe era alternar entre establecer un modelo de las características del juego y usar ese modelo para optimizar una política (con técnicas de aprendizaje por refuerzo sin modelos) en un entorno de simulación de juegos. Los principios básicos detrás de este algoritmo están bien establecidos y se utilizan en muchos métodos recientes de aprendizaje por refuerzo basados ​​en modelos”, compartieron los científicos del equipo de IA de Google, Łukasz Kaiser y Dumitru Erhan.

Como explicaron los dos investigadores, entrenar un sistema de IA para jugar un juego requiere predecir las texturas del siguiente cuadro del juego objetivo, que están dadas por una secuencia de cuadros y combinaciones de comandos (por ejemplo, "izquierda", "adentro", "derecha", " adelante”, “hacia atrás”). Además, los investigadores también demostraron que un modelo exitoso puede generar "trayectorias" que pueden usarse en políticas de programas de agentes de juegos de entrenamiento, lo que reducirá la necesidad de depender de secuencias computacionales complejas en el juego.

Los investigadores de Google permiten que la IA juegue juegos para mejorar el aprendizaje por refuerzo

El algoritmo SimPLe hace exactamente esto. Se necesitan 4 fotogramas como entrada para predecir el siguiente fotograma con una recompensa y, una vez completamente entrenado, el algoritmo genera "despliegues" (secuencias de muestra de secuencias de acción, observaciones y resultados) que se utilizan para mejorar las políticas (Kaiser y Erhan señalan que el algoritmo SimPLe solo utiliza implementaciones de longitud promedio para minimizar el error de predicción).

En pruebas que duraron el equivalente a 2 horas de juego (100.000 interacciones), los agentes con las políticas ajustadas de SimPLe lograron puntuaciones máximas en dos juegos de prueba (Pong y Freeway), al tiempo que generaron predicciones casi perfectas hasta 50 pasos hacia el futuro.

Los investigadores de Google permiten que la IA juegue juegos para mejorar el aprendizaje por refuerzo

En ocasiones, los dos investigadores también intentaron recopilar pequeños pero muy relevantes detalles de los juegos, lo que resultó en fracaso. Kaiser y Erhan admiten que este algoritmo todavía no iguala el rendimiento de los métodos estándar de aprendizaje por refuerzo. Sin embargo, SimPLe puede ser más del doble de efectivo en términos de entrenamiento y el equipo espera que estudios futuros ayuden a mejorar significativamente el rendimiento del algoritmo.

“El objetivo principal de los métodos de aprendizaje por refuerzo basados ​​en modelos son entornos donde las interacciones resultan complejas, lentas o requieren etiquetado humano, como en muchas tareas robóticas, por ejemplo. En tal entorno, un simulador nos permitiría comprender mejor el entorno de los programas de agentes y, a su vez, podría conducir a formas nuevas, mejores y más rápidas de hacer las cosas.Aprendizaje por refuerzo multitarea”.


Europa establecerá el grupo de trabajo ChatGPT

Europa establecerá el grupo de trabajo ChatGPT

El organismo que une a los organismos nacionales de vigilancia de la privacidad de Europa dijo el jueves que había creado un grupo de trabajo dedicado a ChatGPT.

La IA predice la hora de la muerte humana con un 78% de precisión

La IA predice la hora de la muerte humana con un 78% de precisión

Científicos daneses y estadounidenses han colaborado para desarrollar un sistema de inteligencia artificial llamado life2vec, capaz de predecir el momento de la muerte humana con gran precisión.

La IA predice enfermedades urinarias sólo por el sonido de la orina

La IA predice enfermedades urinarias sólo por el sonido de la orina

Un algoritmo de inteligencia artificial llamado Audioflow puede escuchar el sonido de la micción para identificar de manera efectiva y exitosa los flujos anormales y los correspondientes problemas de salud del paciente.

Bartenders, cuidado: este robot puede preparar un cóctel en sólo 1 minuto

Bartenders, cuidado: este robot puede preparar un cóctel en sólo 1 minuto

El envejecimiento y la disminución de la población de Japón han dejado al país sin un número significativo de trabajadores jóvenes, especialmente en el sector de servicios.

Cientos de personas se desilusionaron al saber que la chica que amaban era producto de la IA.

Cientos de personas se desilusionaron al saber que la chica que amaban era producto de la IA.

Un usuario de Reddit llamado u/LegalBeagle1966 es uno de los muchos usuarios enamorados de Claudia, una chica con apariencia de estrella de cine que a menudo comparte seductores selfies, incluso desnudos, en esta plataforma.

12 empresas potenciales más se unen a la alianza de IA de Microsoft.

12 empresas potenciales más se unen a la alianza de IA de Microsoft.

Microsoft acaba de anunciar que 12 empresas tecnológicas más participarán en su programa AI for Good.

La IA recrea personajes de Dragon Ball en carne y hueso

La IA recrea personajes de Dragon Ball en carne y hueso

El usuario @mortecouille92 ha puesto a trabajar el poder de la herramienta de diseño gráfico Midjourney y ha creado versiones excepcionalmente realistas de personajes famosos de Dragon Ball como Goku, Vegeta, Bulma y el anciano Kame. .

7 técnicas para mejorar las respuestas de ChatGPT

7 técnicas para mejorar las respuestas de ChatGPT

Con solo agregar algunas condiciones o configurar algunos escenarios, ChatGPT puede brindar respuestas más relevantes a sus consultas. Veamos algunas formas en que puede mejorar la calidad de sus respuestas de ChatGPT.

Maravíllate ante las hermosas pinturas dibujadas por inteligencia artificial

Maravíllate ante las hermosas pinturas dibujadas por inteligencia artificial

Midjourney es un sistema de inteligencia artificial que recientemente ha causado "fiebre" en la comunidad en línea y en el mundo de los artistas debido a sus pinturas extremadamente hermosas que no son inferiores a las de artistas reales.

Este modelo de IA fue uno de los primeros expertos en descubrir noticias sobre el brote de neumonía de Wuhan.

Este modelo de IA fue uno de los primeros expertos en descubrir noticias sobre el brote de neumonía de Wuhan.

Días después de que China anunciara el brote, con acceso a datos mundiales de ventas de billetes de avión, el sistema de inteligencia artificial de BlueDot siguió prediciendo con precisión la propagación del virus Wuhan Corona a Bangkok, Seúl, Taipei y Tokio.