Pesquisadores do Google permitem que a IA jogue para melhorar o aprendizado por reforço

Pesquisadores do Google permitem que a IA jogue para melhorar o aprendizado por reforço

O aprendizado por reforço – um subcampo do aprendizado de máquina – envolve técnicas de treinamento de IA que usam “recompensas” para direcionar a política de software especificamente para objetivos específicos. Em outras palavras, este é o processo pelo qual a IA tentará ações diferentes, aprenderá com cada resposta se essa ação traz melhores resultados ou não e, então, reforçará as ações que funcionaram, ou seja, retrabalhar e modificar seus algoritmos automaticamente ao longo de múltiplas iterações. produz os melhores resultados. Nos últimos tempos, a aprendizagem por reforço tem sido explorada para modelar o impacto das regras sociais, para criar modelos de IA com capacidades de jogo extremamente boas ou robôs programáveis ​​que podem se auto-curar.Recuperação após problemas de software irritantes.

Pesquisadores do Google permitem que a IA jogue para melhorar o aprendizado por reforço

Embora possua alta flexibilidade e possa ser aplicada em diversos modelos e propósitos, a técnica de aprendizagem por reforço contém uma falha infeliz: é ineficaz. Treinar um modelo de IA usando técnicas de aprendizagem por reforço requer muitas interações diferentes em um ambiente simulado ou do mundo real, o que é muito mais do que quando um humano precisa aprender uma determinada tarefa. Para superar parcialmente esse problema, especialmente no campo dos videogames, pesquisadores de inteligência artificial do Google propuseram recentemente o uso de um novo algoritmo chamado Simulated Policy Learning (abreviado como SimPLe), que usa modelos simples de videogame para aprender e melhorar políticas de qualidade na seleção de ações. de técnicas de aprendizagem por reforço.

Os pesquisadores descreveram o algoritmo em um artigo recém-publicado intitulado “Model-Based Reinforcement Learning for Atari” e também em um documento que acompanha o código-fonte aberto.

“Em alto nível, a ideia dos pesquisadores ao desenvolver o algoritmo SimPLe era alternar entre estabelecer um modelo das características do jogo e usar esse modelo para otimizar uma política (com técnicas de aprendizagem por reforço sem modelo) em um ambiente de simulação de jogo. Os princípios básicos por trás deste algoritmo estão bem estabelecidos e são usados ​​em muitos métodos recentes de aprendizagem por reforço baseados em modelos”, compartilharam os cientistas da equipe de IA do Google, Łukasz Kaiser e Dumitru Erhan.

Como explicaram os dois pesquisadores, treinar um sistema de IA para jogar um jogo requer prever as próximas texturas de quadro do jogo alvo, que são dadas por uma sequência de quadros e combinações de comandos (por exemplo, “esquerda”, “dentro”, “direita”, “ para frente”, “para trás”). Além disso, os pesquisadores também mostraram que um modelo bem-sucedido pode gerar “trajetórias” que podem ser usadas no treinamento de políticas de programas de agentes de jogos, o que reduzirá a necessidade de depender de sequências computacionais complexas no jogo.

Pesquisadores do Google permitem que a IA jogue para melhorar o aprendizado por reforço

O algoritmo SimPLe faz exatamente isso. São necessários 4 quadros como entrada para prever o próximo quadro com uma recompensa e, uma vez totalmente treinado, o algoritmo gera “lançamentos” – sequências de amostra de sequências de ação, observações e resultados – usados ​​para melhorar a política (Kaiser e Erhan observam que o algoritmo SimPLe usa apenas implementações de comprimento médio para minimizar erros de previsão).

Em testes com duração equivalente a 2 horas de jogo (100.000 interações), os agentes com as políticas ajustadas do SimPLe alcançaram pontuações máximas em dois jogos de teste (Pong e Freeway), ao mesmo tempo que geraram previsões quase perfeitas até 50 passos no futuro.

Pesquisadores do Google permitem que a IA jogue para melhorar o aprendizado por reforço

Às vezes, os dois pesquisadores também tentavam coletar detalhes pequenos, mas altamente relevantes, nos jogos, resultando em fracasso. Kaiser e Erhan admitem que esse algoritmo ainda não corresponde ao desempenho dos métodos padrão de aprendizagem por reforço. No entanto, o SimPLe pode ser duas vezes mais eficaz em termos de treinamento, e a equipe espera que estudos futuros ajudem a melhorar significativamente o desempenho do algoritmo.

“O principal alvo dos métodos de aprendizagem por reforço baseados em modelos é em ambientes onde as interações se mostram complexas, lentas ou exigem rotulagem humana, como em muitas tarefas robóticas, por exemplo. Num tal ambiente, um simulador permitir-nos-ia compreender melhor o ambiente dos programas de agentes e, por sua vez, poderia levar a formas novas, melhores e mais rápidas de fazer as coisas.


A força-tarefa ChatGPT será criada pela Europa

A força-tarefa ChatGPT será criada pela Europa

O órgão que une os vigilantes nacionais da privacidade da Europa disse na quinta-feira que estabeleceu uma força-tarefa dedicada ao ChatGPT

IA prevê a hora da morte humana com 78% de precisão

IA prevê a hora da morte humana com 78% de precisão

Cientistas dinamarqueses e americanos colaboraram para desenvolver um sistema de IA chamado life2vec, capaz de prever o momento da morte humana com alta precisão.

IA prevê doenças urinárias apenas pelo som da urina

IA prevê doenças urinárias apenas pelo som da urina

Um algoritmo de IA chamado Audioflow pode ouvir o som da micção para identificar com eficácia e sucesso fluxos anormais e problemas de saúde correspondentes do paciente.

Bartenders, cuidado: este robô pode preparar um coquetel em apenas 1 minuto

Bartenders, cuidado: este robô pode preparar um coquetel em apenas 1 minuto

O envelhecimento e o declínio da população do Japão deixaram o país sem um número significativo de jovens trabalhadores, especialmente no sector dos serviços.

Centenas de pessoas ficaram desiludidas quando souberam que a garota que amavam era um produto da IA

Centenas de pessoas ficaram desiludidas quando souberam que a garota que amavam era um produto da IA

Um usuário do Reddit chamado u/LegalBeagle1966 é um dos muitos usuários apaixonados por Claudia, uma garota parecida com uma estrela de cinema que costuma compartilhar selfies sedutoras, até mesmo nuas, nesta plataforma.

Mais 12 empresas potenciais juntam-se à “aliança de IA” da Microsoft.

Mais 12 empresas potenciais juntam-se à “aliança de IA” da Microsoft.

A Microsoft acaba de anunciar que mais 12 empresas de tecnologia participarão de seu programa AI for Good.

IA recria personagens de Dragon Ball em carne e osso

IA recria personagens de Dragon Ball em carne e osso

O usuário @mortecouille92 colocou o poder da ferramenta de design gráfico Midjourney para funcionar e criou versões realistas e únicas de personagens famosos de Dragon Ball como Goku, Vegeta, Bulma e o velho Kame.

7 técnicas para melhorar as respostas do ChatGPT

7 técnicas para melhorar as respostas do ChatGPT

Apenas adicionando algumas condições ou configurando alguns cenários, o ChatGPT pode dar respostas mais relevantes às suas dúvidas. Vejamos algumas maneiras de melhorar a qualidade de suas respostas do ChatGPT.

Maravilhe-se com as belas pinturas desenhadas pela inteligência artificial

Maravilhe-se com as belas pinturas desenhadas pela inteligência artificial

Midjourney é um sistema de inteligência artificial que recentemente causou “febre” na comunidade online e no mundo dos artistas por causa de suas pinturas extremamente belas e que não são inferiores às de artistas reais.

Este modelo de IA foi um dos primeiros “especialistas” a descobrir notícias sobre o surto de pneumonia em Wuhan.

Este modelo de IA foi um dos primeiros “especialistas” a descobrir notícias sobre o surto de pneumonia em Wuhan.

Dias depois de a China anunciar o surto, com acesso a dados globais de vendas de passagens aéreas, o sistema de IA da BlueDot continuou a prever com precisão a propagação do vírus Wuhan Corona para Bangkok, Seul, Taipei e Tóquio.