O modelo de IA da DeepMind pode aprender como criar vídeos apenas assistindo a clipes do YouTube

O modelo de IA da DeepMind pode aprender como criar vídeos apenas assistindo a clipes do YouTube

Talvez você já tenha ouvido falar do FaceApp, um aplicativo móvel de edição de fotos que está recebendo grande atenção em todo o mundo com a capacidade de aplicar inteligência artificial (IA) para editar selfies com altíssimo grau de autenticidade. Or This Person Does Not Exist, outro aplicativo de edição de fotos que pode criar retratos interessantes baseados em personagens gráficos fictícios gerados por computador. Esses são apenas dois dos muitos aplicativos excelentes com presença de IA em tarefas relacionadas à edição e criação de fotos. E quanto à edição de vídeo?

Recentemente, a DeepMind, subsidiária da Alphabet, que atua principalmente na área de desenvolvimento de inteligência artificial, anunciou uma invenção completamente nova chamada "Geração Eficiente de Vídeo em Conjuntos de Dados Complexos". campo de edição e pós-produção de vídeo no futuro. Este é basicamente um algoritmo de IA que pode aprender como criar clipes simples a partir dos vídeos aos quais foi exposto durante o processo de treinamento.

O modelo de IA da DeepMind pode aprender como criar vídeos apenas assistindo a clipes do YouTubeDVD-GAN agora pode gerar automaticamente vídeos de amostra com layouts completos de objetos

Pesquisadores da DeepMind disseram que seu modelo com melhor desempenho até o momento - Dual Video Discriminator GAN (DVD-GAN) - foi capaz de criar vídeos com uma resolução de 256 x 256 pixels, combinada com alta resolução. A fidelidade é louvável e a duração é alta. para 48 quadros.

“Criar vídeos com alto nível de naturalidade e realismo é o maior desafio dos modelos de IA atuais. Entre eles, os factores dificultadores mais significativos não são outros senão a complexidade da recolha de dados e dos requisitos de cálculo. Por esta razão, muitos trabalhos relacionados com a criação de vídeos no passado giravam frequentemente em torno de conjuntos de dados relativamente simples ou tarefas onde estavam disponíveis informações em tempo real. Atualmente, estamos nos concentrando em tarefas de síntese e previsão de vídeo e pretendemos estender os resultados dos principais modelos de IA de criação de imagens para vídeo - o lado complexo é muito melhor”, disse um representante da equipe de pesquisa.

A equipe construiu seu sistema em torno de uma arquitetura avançada de IA, ao mesmo tempo em que introduziu uma série de ajustes específicos de vídeo, permitindo assim que o processo de treinamento fosse conduzido com base no Kinetic-600 - um conjunto de dados inclui vídeos "naturais", que são muito maiores em termos de tamanho. escala do que o habitual. Especificamente, os pesquisadores aproveitaram as vantagens das redes adversárias generativas (GANs).

O modelo de IA da DeepMind pode aprender como criar vídeos apenas assistindo a clipes do YouTubeUm conjunto de videoclipes sintéticos de 4 segundos treinados em 12 quadros de 128 × 128 do Kinetic-600.

Se você não sabe, GAN é um sistema de IA que consiste em duas partes distintas: A primeira é uma rede generativa, que ajuda a criar amostras de treinamento (dados falsos), com o objetivo de criar a semelhança mais realista. . E a segunda é a rede Discriminativa: que tenta distinguir entre dados reais e dados falsos. Os sistemas GAN têm sido aplicados em muitas tarefas intensivas, como a conversão de legendas em histórias contextuais, especialmente a criação de fotos artificiais com realismo extremamente elevado.

DVD-GAN contém redes discriminativas duplas: o algoritmo discriminativo pode revelar diferenças no conteúdo e na estrutura de um único quadro, amostrando aleatoriamente quadros de resolução total e processando-os. Processá-los individualmente e diferenciados ao longo do tempo fornece dicas de aprendizagem para gerar movimento. Um único módulo – denominado Transformer – permite a distribuição de dados e informações aprendidas em todo o modelo de IA.

Quanto ao corpus de treinamento do Kinetic-600, este é essencialmente um conjunto de dados gigante, compilado a partir de mais de 500.000 clipes de alta resolução do YouTube com duração não superior a 10 segundos. Esses vídeos foram inicialmente selecionados para reconhecer ações humanas, com os pesquisadores descrevendo esse corpus como “diversificado” e “irrestrito”, fatores que são particularmente relevantes no treinamento de modelos abertos semelhantes ao DVD-GAN da DeepMind. (No campo do aprendizado de máquina, existe um termo “overfitting”, que é usado para se referir a modelos que se ajustam muito de perto a um conjunto específico de dados e, como resultado, não conseguem prever as observações nos dados de maneira confiável.) .

De acordo com o relatório da equipe de pesquisa, após ser continuamente treinado pelo sistema Tensor Processing Units de 3ª geração do Google por um período de 12 a 96 horas, o DVD-GAN agora é capaz de gerar vídeos por conta própria. O modelo possui layouts completos de objetos, movimentos e até mesmo estruturas complexas, como reflexos em superfícies de rios, pistas de gelo... O DVD-GAN teve que "lutar" para criar objetos complexos nesta área de resolução mais alta, onde o movimento envolve um número muito maior de pixels. No entanto, os investigadores notaram que, depois de serem avaliadas no UCF-101 (um conjunto de dados mais pequeno de 13.320 vídeos de ações humanas), as amostras de vídeo geradas pelo DVD-GAN obtiveram uma boa pontuação.A pontuação inicial é 32,97 - nada mal.

O modelo de IA da DeepMind pode aprender como criar vídeos apenas assistindo a clipes do YouTubeA amostra de vídeo criada pelo DVD-GAN alcançou uma pontuação inicial de 32,97

“No futuro, queremos enfatizar ainda mais os benefícios do treinamento de modelos generativos em conjuntos de dados de vídeo grandes e complexos, como o Kinetic-600. Embora ainda haja muito trabalho a ser feito antes que vídeos realistas possam ser gerados de forma consistente em uma gama irrestrita de configurações, acreditamos que o DVD-GAN é o trampolim perfeito para realizar esse sonho”, disse um representante do time de pesquisa.

O que você acha do modelo DVD-GAN AI da DeepMind? Por favor, deixe seus comentários abaixo!


A força-tarefa ChatGPT será criada pela Europa

A força-tarefa ChatGPT será criada pela Europa

O órgão que une os vigilantes nacionais da privacidade da Europa disse na quinta-feira que estabeleceu uma força-tarefa dedicada ao ChatGPT

IA prevê a hora da morte humana com 78% de precisão

IA prevê a hora da morte humana com 78% de precisão

Cientistas dinamarqueses e americanos colaboraram para desenvolver um sistema de IA chamado life2vec, capaz de prever o momento da morte humana com alta precisão.

IA prevê doenças urinárias apenas pelo som da urina

IA prevê doenças urinárias apenas pelo som da urina

Um algoritmo de IA chamado Audioflow pode ouvir o som da micção para identificar com eficácia e sucesso fluxos anormais e problemas de saúde correspondentes do paciente.

Bartenders, cuidado: este robô pode preparar um coquetel em apenas 1 minuto

Bartenders, cuidado: este robô pode preparar um coquetel em apenas 1 minuto

O envelhecimento e o declínio da população do Japão deixaram o país sem um número significativo de jovens trabalhadores, especialmente no sector dos serviços.

Centenas de pessoas ficaram desiludidas quando souberam que a garota que amavam era um produto da IA

Centenas de pessoas ficaram desiludidas quando souberam que a garota que amavam era um produto da IA

Um usuário do Reddit chamado u/LegalBeagle1966 é um dos muitos usuários apaixonados por Claudia, uma garota parecida com uma estrela de cinema que costuma compartilhar selfies sedutoras, até mesmo nuas, nesta plataforma.

Mais 12 empresas potenciais juntam-se à “aliança de IA” da Microsoft.

Mais 12 empresas potenciais juntam-se à “aliança de IA” da Microsoft.

A Microsoft acaba de anunciar que mais 12 empresas de tecnologia participarão de seu programa AI for Good.

IA recria personagens de Dragon Ball em carne e osso

IA recria personagens de Dragon Ball em carne e osso

O usuário @mortecouille92 colocou o poder da ferramenta de design gráfico Midjourney para funcionar e criou versões realistas e únicas de personagens famosos de Dragon Ball como Goku, Vegeta, Bulma e o velho Kame.

7 técnicas para melhorar as respostas do ChatGPT

7 técnicas para melhorar as respostas do ChatGPT

Apenas adicionando algumas condições ou configurando alguns cenários, o ChatGPT pode dar respostas mais relevantes às suas dúvidas. Vejamos algumas maneiras de melhorar a qualidade de suas respostas do ChatGPT.

Maravilhe-se com as belas pinturas desenhadas pela inteligência artificial

Maravilhe-se com as belas pinturas desenhadas pela inteligência artificial

Midjourney é um sistema de inteligência artificial que recentemente causou “febre” na comunidade online e no mundo dos artistas por causa de suas pinturas extremamente belas e que não são inferiores às de artistas reais.

Este modelo de IA foi um dos primeiros “especialistas” a descobrir notícias sobre o surto de pneumonia em Wuhan.

Este modelo de IA foi um dos primeiros “especialistas” a descobrir notícias sobre o surto de pneumonia em Wuhan.

Dias depois de a China anunciar o surto, com acesso a dados globais de vendas de passagens aéreas, o sistema de IA da BlueDot continuou a prever com precisão a propagação do vírus Wuhan Corona para Bangkok, Seul, Taipei e Tóquio.